Спсс программа


Самоучитель по SPSS

16.4 Бинарная логистическая регрессия

С помощью метода бинарной логистической регрессии можно исследовать зависимость дихотомических переменных от независимых переменных, имеющих любой вид шкалы.

Как правило, в случае с дихотомическими переменными речь идёт о некотором событии, которое может произойти или не произойти; бинарная логистическая регрессия в таком случае рассчитывает вероятность наступления события в зависимости от значений независимых переменных.

Вероятность наступления события для некоторого случая рассчитывается по формуле

где z= b1*X1 + b2хХ2+ ...+ bnxXn+ a ,

X1 — значения независимых переменных, b1 — коэффициенты, расчёт которых является задачей бинарной логистической регрессии, а — некоторая константа.

Если для р получится значение меньшее 0,5, то можно предположить, что событие не наступит; в противном случае предполагается наступление события.

В качестве примера рассмотрим два диагностических теста из области медицины на предмет обнаружения карциномы (злокачественной опухоли) мочевого пузыря: подсчет количества (типизация) Т-клеток и тест LAI. Результатами первого теста являются значения, принадлежащие к интервальной шкале, а тест LAI дает дихотомический результат: "положительно" или "отрицательно".

Оба теста были проведены со здоровыми людьми и заведомо больными пациентами. Результаты представлены в следующей таблице:

Коллектив

Типизация t-клеток

LAI

Коллектив

Типизация t-клеток

LAI

болен

48.5

положи-тельно

болен

73.5

положи-тельно

болен

55.5

положи-тельно

здоров

61.1

положи-тельно

болен

57.5

положи-тельно

здоров

62.5

отрица-тельно

болен

58.5

положи-тельно

здоров

63.5

отрица-тельно

болен

61.0

положи-тельно

здоров

64.5

положи-тельно

болен

61.5

положи-тельно

здоров

69.5

положи-тельно

болен

61.5

положи-тельно

здоров

70.0

отрица-тельно

болен

6,2.0

положи-тельно

здоров

70.0

отрица-тельно

болен

62.0

положи-тельно

здоров

71.0

положи-тельно

болен

62,0

положи-тельно

здоров

71,5

положи-тельно

болен

62.5

положи-тельно

здоров

71.5

отрица-тельно

болен

63.0

положи-тельно

здоров

72.0

отрица-тельно

болен

63.5

положи-тельно

здоров

73.0

отрица-тельно

болен

65.0

положи-тельно

здоров

76.0

отрица-тельно

болен

65.0

отрица-тельно

здоров

72.5

отрица-тельно

болен

66.5

отрица-тельно

здоров

73.0

отрица-тельно

болен

66.5

отрица-тельно

здоров

73.5

отрица-тельно

болен

66.5

положи-тельно

здоров

74.0

отрица-тельно

болен

68.5

положи-тельно

здоров

75.0

отрица-тельно

болен

69.0

отрица-тельно

здоров

77.0

отрица-тельно

болен

71.0

положи-тельно

здоров

77.0

отрица-тельно

болен

71.0

положи-тельно

здоров

78.5

отрица-тельно

болен

71.0

положи-тельно

Если сначала посмотреть на результаты типизации Т-клеток, то можно заметить, что здесь для здоровых людей значения в среднем выше, чем для больных. Следовательно, исходя из значений, получившихся при типизации Т-клеток, можно попытаться, вывести вероятность наличия карциномы мочевого пузыря.

Приведенные в таблице данные находятся в файле hkarz.sav. Больным присвоена кодировка 1, а здоровым 2; для теста LA1 кодировка 0 соответствует положительному результату, а 1 отрицательному.

  •  Откройте файл hkarz.sav.

  •  Выберите в меню Analyze... (Анализ) Regression... (Регрессия) Binary logistic... (Бинарная логистическая)

 Открывается диалоговое окно Logistic Regression (Логистическая регрессия).

  •  Поместите переменную gruppe (группа), содержащую информацию о принадлежности к одному или второму коллективу (больным или здоровым), в поле для зависимых переменных, а переменную tzell — в поле ковариат. Результаты теста LAI сначала мы не будем использовать в расчёте.

Рис. 16.16: Диалоговое окно -Ogistic Regression  (Логистическая регрессия).

В качестве метода использования переменных в вычислениях предварительно установлен метод Enter (Вложение), при котором в расчёт одновременно вовлекаются :-:е переменные объявленные ковариатами. Альтернативой здесь являются прогрессивная и обратная селекции. В случае наличия лишь одной ковариаты, как в указаном примере, для расчёта подходит только предварительно установленный метод.

Кнопка Select» (Выбрать) предоставляет возможность отбора определённых случаев для дальнейшего анализа.

Используя кнопку Categorical... (Категориальные) Вы можете подготовить для расчета категориальные переменные (то есть переменные, принадлежащие к номинальной шкале). На этом мы остановимся более подробно, рассматривая второй пример.

При помощи кнопки Save... (Сохранить) Вы можете добавить в файл дополнительные переменные; активируйте к примеру в разделе Predicted Values (Спрогнозированные значения) предварительные установки Probabilities (Вероятности) и Принадлежность к группе.

Нажав на кнопку Options... (Опции), Вы сможете организовать вывод дополнительных статистических характеристик, различных диаграмм и произвести некоторые дополнительные установки. В данном расчёте мы этого делать не будем.

Наиболее важные результаты приведены в нижеследующей таблице, причём в 10 версии SPSS они уже выводятся в новой табличной форме.

Omnibus Tests of Model Coefficients (Универсальный критерий коэффициентов модели)

Chi-square (Хи-квадрат)

Df

Sig. (Значимость)

Step 1 (ШаМ)

1

Step (Шаг)

18,789

1

,000

Block (Блок)

18,789

1

,000

Model (Модель)

18,789

1

,000

Model Summary (Сводная таблица модели)

Step (Шаг)

-2 Log likelihood (-2 логарифмическое правдоподобие)

Сох & Snell R Square (R-квадрат Кокса и Шнела)

R Square Nadelkerkes (R-квадрат Наделькеркеса)

1

43,394

,341

,456

Качество приближения регрессионной модели оценивается при помощи функции подобия. Мерой правдоподобия служит отрицательное удвоенное значение логарифма этой функции (-2LL). В качестве начального значения для -2LL применяется значение, которое получается для регрессионной модели, содержащей только константы. После добавления переменной влияния tzell значение -2LL равно 43,394; это значение на 18,789 меньше, чем начальное. Подобное снижение величины означает улучшение; разность обозначается как величина хи-квадрат и является очень значимой.

Это означает, что начальная модель после добавления переменной tzell претерпела значительное улучшение. Если при наличии некоторого количества независимых переменных анализ производится не при помощи метода вложения, а пошаговым образом, то получающиеся изменения отображаются в разделах "Блок" и "Шаг". При этом, если Вы производили ввод переменных в блочной форме, то показатель в разделе "Блок" приобретает особое значение.

Два других выведенных показателя, названные именами Кокса & Шела и Наделькеркеса, являются мерами определённости. Они также как и при линейной регрессии указывают на ту часть дисперсии, которую можно объяснить с помощью логистической регрессии. Мера определённости по Коксу и Шелу имеет тот недостаток, что значение равное 1 является теоретически не достижимым; этот недостаток устранен благодаря модификации данной меры по методу Наделькеркеса. Часть дисперсии, объяснимой с помощью логистической регрессии, в данном примере составляет 45,6 %.

Далее приводится классификационная таблица, в которой наблюдаемые показатели принадлежности к группе (1 = болен, 2 = здоров) противопоставляются предсказанным на основе рассчитанной модели.

Classification Table (Классификационная таблица) а

Observed (Наблюдаемый показатель)

Predicted (Спрогнозировано)

GRUPPE (Группа)

Percentage Correct (Процентный показатель верных показателей)

Krank (болен)

Gesund (здоров)

Шаг 1

GRUPPE (Группа) Krank (болен)

18

6

75,0

Gesund (здоров)

4

17

81,0

Overall Percentage (Суммарный процентный показатель)

 

77,8

a. The cut value is ,500 (Разделительное значение равно ,500)

Из таблицы можно сделать вывод о том, что из общего числа больных, равного 24, тестом были признаны таковыми только 18 (в медицинской диагностике в таких случаях говорят о "строго положительных" результатах). Остальных 6 называют "ложно отрицательными"; они были признаны тестом здоровыми, хотя и являются больными. Из общего числа здоровых, равного 21, тестом были признаны таковыми только 17 ("строго отрицательные"), 4 признаны больными, хотя они и являются здоровыми ("ложно положительные"). В общем, правильно были распознаны 35 случаев из 45, это составляет 77,8 %.

В заключении выводятся результаты о рассчитанных коэффициентах и проверке их значимости:

Variables in the Equation (Переменные в уравнении)

В (Коэф-фициент регрессии В)

S.E. (Стандарт- ная ошибка)

Wald (Вальд)

df

Sig. (Значи-мость)

Ехр

(В)

Step 1 (Шаг 1)а

TZELL

,278

,082

11,599

1

,001

1,321

Constant (Константа)

-19,005

5,587

11,571

1

,001

,000

a. Variable(s) entered on step 1: TZELL (Переменные, введенные на шаге 1: TZELL)

Проверка значимости отличия коэффициентов от нуля, проводится при помощи статистики Вальда, использующей распределение хи-квадрат, которая представляет собой квадрат отношения соответствующего коэффициента к его стандартной ошибке.

В приведенном примере получились сверх значимые коэффициенты а = -19,005 bt = 0,278. При помощи этих двух значений коэффициентов мы можем для каждого значения Т-типизации рассчитать вероятность р. К примеру, для некоего обследуемого со значением Т-типизации 72 получим

z= - 19,005+ 0,278x72= 1,018

и таким образом

Рассчитанная вероятность р всегда указывает на исполнение предсказании, которое соответствует большей из двух кодировок зависимых переменных, в данном случае — на исполнение предсказания "здоров". Следовательно, рассматриваемый человек является здоровым с вероятностью 0,735.

Рассчитанная вероятность для всех случаев и связанная с ней принадлежность к группе кодировка 1 для болен и 2 для здоров) добавлены к файлу под именами рге_1 и pgr_l.

Теперь подключим к нашему анализу тест LAI. Дополнительно к переменной tzell теперь в поле ковариат поместите и переменную lai.

Расчёт выдаст сначала заметно снизившееся значение -2LL (хи-квадрат = 25,668) и следующую классификационную таблицу. Доля правильно спрогнозированных диагнозов незначительно выросла (с 77,8 % до 80,0 %).

Classification Table (Классификационная таблица)а

Observed (Наблюдаемый показатель)

Predicted (Спрогнозировано)

Группа

Percentage Correct (Процентный показатель верных показателей)

Krank (болен) Gesund (здоров)

Шаг

1

GRUPPE (Группа) Krank (болен)

20

4

83,3

Gesund (здоров)

5

16

76,2

Overall Percentage (Суммарный процентный показатель)

80,0

а. The cut value is ,500 (Разделительное значение равно ,500)

Количество ложно отрицательных диагнозов снизилось на 2, а количество ложно положительных повысилось на 1. Для коэффициентов получим:

Variables in the Equation (Переменные в уравнении)

В (Коэф0 фициент регрессии В)

S.E. Стандартная ошибка)

Wald (Вальд)

df

Sig. (Значи0 мость)

Ехр

(В)

Stepl (UJarlf

TZELL

,201

,094

4,574

1

0,32

1,222

LAI

2,205

,877

6,324

1

,012

9,074

Constant (Константа)

-14,645

6,328

5,356

1

,021

,000

a. Variable(s) entered on step 1: TZELL, LAI. (Переменные, вводимые на шаге 1: TZELL, LAI)

Для обследуемого с типизированным числом Т-клеток равным 72 получилась вероятность оказаться здоровым р = 0,735. Если в дополнении к этому и тест LAI отрицателен (кодировка 1), то эта же вероятность рассчитывается следующим образом:

Вероятность, оказаться здоровым, при наличии данных уже двух диагностических методов значительно возросла.

Ещё один пример из области медицины, теперь уже с большим количеством независимых переменных, должен помочь нам разобраться в пошаговом методе анализа. Кроме того, в состав независимых переменных будет включена категориальная переменная.

Для данного примера в некоторой клинике со специальными автоматизированными методиками лечения были накоплены данные о пациентах с тяжёлыми (или даже смертельными) повреждениями лёгких. Из большого количества переменных были выбраны следующие:

Имя переменной

Расшифровка

out

Исход (0 = скончался, 1 = выздоровел)

alter (возраст)

Возраст

bzeit

Время проведения искусственного дыхания в часах

kob

Концентрация кислорода в воздушной массе для искусственного

дыхания

адд

Интенсивность искусственного дыхания

gesch (пол)

Пол (1 = мужской, 2 = женский)

gr

Рост

ursache (причина)

Причина повреждения лёгких (1 = несчастный случай, 2 = воспаление лёгких, 3 = прочее)

Наряду с переменной out (исход), имеются переменные, при первом же взгляде на которые можно понять, что они с ней связаны. Причина повреждения лёгких является категориальной переменной, которая перед проведением анализа должна быть преобразована в несколько дихотомических переменных (к примеру, несчастный случай: да — нет).

Вопрос, на который нам предстоит найти ответ, звучит так: какое влияние на вероятность выздоровления оказывают отобранные переменные.

  •  Откройте файл lunge.sav.

  •  После выбора соответствующего меню в диалоговом окне Logistic Regression (Логистическая регрессия) переменной out присвойте статус независимой переменной, а всем остальным (кроме пг) присвойте статус ковариат. Здесь, как и при множественной линейной регрессии, ввод ковариат Вы можете производить по блокам.

Из-за вовлечения в анализ большого количества переменных компьютер должен решить, какие из них в конечном случае будут отобраны для использовании в уравнении вероятности. Поэтому здесь должен быть выбран не метод вложения, который включает в расчёт все переменные, а один из пошаговых методов.

Метод прямой селекции начинается с использования одних лишь констант на стартовом этапе , а затем последовательно подключаются переменные, которые демонстрируют сильную корреляцию с зависимыми переменными. Далее опять следует проверка того, какие переменные должны быть исключены, причём в качестве критерия проверки выбирается либо статистика Вальдовского (Wald), либо функция правдоподобия, либо один из вариантов, называемых "условной статистикой" (которые, однако, не рекомендуются). Метод обратной селекции сначала берёт в расчёт все переменные, а затем в обратном порядке происходит исключение малозначимых переменных.

  •  Выберите в качестве метода Forward: LR (Прямой:LR) и щёлкните на кнопке Categorical... (Категориальные), чтобы поместить переменную ursache в поле, предусмотренное для категориальных ковариат.

Количество образовываемых "фиктивных" дихотомических переменных должно быть всегда на 1 меньше, чем число количество заданных категорий. Категория, оказавшаяся лишней, называется эталонной категорией и, в соответствии с предварительными установками, является последней категорией. При помощи поля контрастов Contrast) Вы можете управлять особенностями вовлечения в анализ образованных Фиктивных переменных; при контрасте равном Deviation (Отклонение) все категории кроме эталонной будут проверяются относительно суммарного эффекта.

  •  Установите контраст Deviation (Отклонение) и при помощи щелчка на Continue (Далее) вернитесь в исходное диалоговое окно.

  •  Начните расчёт нажатием ОК.

Вы можете проследить, какие переменные вовлекаются в анализ и как улучшается вероятность прогноза после вовлечения каждой новой переменной. На завершающей стати анализа присутствуют четыре переменные, а именно: возраст, время проведения искусственного дыхания, рост и концентрация кислорода в воздушной массе для искусственного дыхания.

Точность исполнения прогноза, которая достигается при использовании этих четыpex переменных, составляет 71,0 %; её можно увидеть в нижеследующей классификанионной таблице на стр 25.

Classification Table (Классификационная таблица)а

Observed (Наблюдаемый показатель) Predicted (Спрогнозировано)
Outcome (Исход) Percentage Correct (Процентный показатель верных прогнозов)
gestorben (скончался) ueberlebt (выздоровел)

Step 1 (Шаг)

 

Outcome (Исход) gestorben (сконча-лся) 29 34 46,0
ueberlebt (выздоро- вел) 14 54 79,4
    63,4
Overall Percentage (Суммарный процентный показатель)  

Step 2 Шаг

2)

 

Outcome (Исход) gestorben (сконча- лся) 32 31 50,8
ueberlebt (выздоро- вел) 16 52 76,5
    64,1
Overall Percentage (Суммарный процентный показатель)  
StepS (Шаг 3) Outcome (Исход) gestorben (сконча- лся) 33 30 52,4
ueberlebt (выздоро- вел) 19 49 72,1
Overall Percentage (Суммарный процентный показатель)       62,6
Step 4 (Шаг 4) Outcome (Исход) gestorben (сконча-лся) 37 26 58,7
ueberlebt (выздоро- вел) 12 56 82,4
    71,0
Overall Percentage (Суммарный процентный показатель)  

a. The cut value is ,500 (Разделительное значение равно ,500)

Прогноз оправдался для 58,7 % умерших пациентов и для 82,4 % выздоровевших. Значения коэффициента Ь. и константы а для расчёта вероятности (выздоровления) находятся в следующей таблице:

Variables in the Equation (Переменные в уравнении)

В Коэф-фициент регрессии В)

S.E. (Стандар-тная ошибка)

Wald (Валь-довский)

df

Sig. (Значи- мость)

Ехр

(В)

Шаг 1а

BZEIT

-,081

,028

8,482

1

' ,004

,922

Конста- нта

1,104

,385

8,205

1

,004

3,017

Шаг

2b

GR

,038

,017

5,109

1

,024

1,039

BZEIT

-,073

,028

L 6,688

1

,010

,930

Конста- нта

-5,460

2,924

L 3,487

1

,062

,004

Шаг 3c

КОВ

-2,678

1,264

4,489

1

,034

,069

GR

,037

,017

4,622

1

,032

1,038

BZEIT

-,077

,029

6,866

1

,009

,926

Конста- нта

-2,995

3,192

,880

1

,348

,050

Шаг

4d

ALTER (возраст)

-.037

,017

4,653

1

,031

,963

КОВ

-3,028

1,302

5,410

1

,020

,048

GR

,044

,017

6,650

1

,010

1,045

BZEIT

-,062

,029

4,639

1

,031

,940

Конста- нта

-2,884

3,079

,877

1

,349

,056

a. Variable(s) entered on step 1: BZEIT. (Переменные, вводимые на шаге 1: BZEIT.) 

b. Variable(s) entered on step 2: GR. (Переменные, вводимые на шаге 2: GR.) 

с. Variable(s) entered on step 3: КОВ. (Переменные, вводимые на шаге 3: КОВ.) 

d. Variable(s) entered on step 4: ALTER. (Переменные, вводимые на шаге 4: ALTER.)

Если мы рассмотрим случай с 30-тилешим пациентом, с ростом 180 см, которому делали искусственное дыхание в течении 10 часов при концентрации кислорода в смеси равной 0,7, то исходя из соотношения

z= - 2,884- 0,037x30- 0,062x10+ 0,044x180- 3,028x0,7= 1,12В получим вероятность выздоровления

следовательно, вероятность выздоровления пациента равна 0,755

lib.qrz.ru

Скачать SPSS Statistics бесплатно для Windows

  • Автор:

  • Тип лицензии:

    Крякнутая

  • Языки:

    Мульти

  • ОС:

    Windows 8, 8 64-bit, 7, 7 64-bit, Vista, Vista 64-bit, XP, XP 64-bit

  • Просмотров:

    15105

  • Скачано:

    6042

В рамках IBM SPSS Statistics Standard Edition, предложены базовые процедуры статистики, позволяющие аналитикам и бизнесменам решать важные вопросы, связанные с исследованиями и профессиональной деятельностью в сфере бизнеса. Благодаря данному продукту, пользователи могут выполнять быстрый просмотр данных, осуществлять формулировку гипотез, охватывающих дополнительное тестирование. Также, возможно выполнение процедур, выявляющих соотношения между переменными, позволяющих определить тенденции, создавать кластеры, составлять прогнозы.

Какие основные функции включает в себя IBM SPSS Statistics Standard Edition?

  • Линейными моделями предлагаются разноплановые процедуры расширенного и регрессионного анализа статистики, проектирование которых учло присущие характеристики составляющих описаний данных.
  • Благодаря нелинейными моделям, есть возможность применения к данным более сложных моделей.
  • Методика геопространственной аналитики предоставляет пользователям возможность интеграции, изучения, моделирования данных о времени и месте.
  • Наличие имитационных функций является весомой помощью для аналитиков в моделировании множества предполагаемых результатов. Это особенно важно в том случае, если у входных данных имеются вероятностные распределения, благодаря чему, качество анализа рисков, а также принятия решений, существенно повышается.
  • Наличие настраиваемых таблиц позволяет пользователю легко определиться с сутью данных, быстро вывести обзор полученных результатов. Для разных потребителей возможен вывод в разных стилях.

Линейные модели

  • Функционал Statistics Standard содержит обобщённые смешанные линейные модели GLMM, позволяющие выполнять обработку иерархических данных.
  • Данный программный продукт включает в себя общие линейные модели GLM и смешанные модели.
  • Программа охватывает обобщённые линейные модели GENLIN, а также статистические модели, применяемые довольно широко. В частности, это: модели линейной регрессии, для формирования данных по нормальным распределениям; логистические модели по двоичным данным; логарифмически-линейные модели по данным подсчёта. Помимо этого, GENLIN предлагает множество незаменимых статистических моделей, использующих самое общее формирование модели.
  • Процедуры, подразумевающие обобщение оценочных уравнений GEE, обеспечивают расширение обобщённых линейных моделей для реализации обработки связанных сгруппированных и осевых данных.

Нелинейные модели

  • Благодаря полиномиальной логистической регрессии MLR, выполняется прогноз категорийных исходов, число категорий которых более 2-х.
  • Наличие двоичной логистической регрессии обеспечивает разбивку данных на 2 группы.
  • За оценку параметров нелинейных моделей отвечают нелинейная регрессия NLR, а также ограниченная нелинейная регрессия CNLR.
  • Благодаря пробит-анализу, выполняется оценка значений стимулов при помощи пробит-преобразований либо логит-преобразований ответных соотношений.

Имитационные функции

  • Создание имитационных наборов данных осуществляется, благодаря имитационному моделированию Монте-Карло. В качестве основы, берутся существующие данные (известные параметры).
  • Есть возможность имитации нечисловых переменных, к примеру "female", "male". При этом, их запись в числовом виде не нужна.
  • В качестве отправных точек для имитаций, могут служить имеющиеся прогнозные данные и модели. В том числе, это могут быть модели, экспортируемые из ALM - Автоматического линейного моделирования, IBM SPSS Modeler.
  • Выявление связей между входными категорийными данными выполняется автоматически. Возможно их использование для генерирования вводных данных.
  • Пересчёт результатов может быть многократным, с использованием различных наборов значений, выбранных произвольно, чтобы создать распределения вероятных результативных значений, а также предоставить пользователям возможности выбора наилучших результатов.
  • Возможно использование SPSS Statistics для аналитики по результатам имитации, создания графиков, диаграмм, демонстрирующих результаты и рекомендации к действию для тех лиц, которые несут ответственность за принимаемые решения.

Геопространственная аналитика

  • С помощью технологии пространственно-временного прогнозирования STP, есть возможность применения линейных моделей к периодически изменяемым показателям двух-, трёхмерного пространств. Это обеспечивает возможности пользователей в прогнозировании изменений интересующих их областей с течением времени.
  • Осуществление поиска связей между непространственными и пространственными атрибутами возможно за счёт использования компонента GSAR -Generalized Spatial Association Rule, использующего хронологические данные (расположение, время, тип события, которое произошло). Это позволяет выполнить описание обстоятельств, сопутствующих их возникновению (к примеру, заболеваний, преступлений).

Настраиваемые таблицы

  • В случае наличия дедуктивной статистики, возможно сравнение средних значений, соотношений, касающихся сегментов потребителей, демографических групп, других категорий переменных.
  • Данный программный продукт даёт возможность создания итоговой статистики (как результатов просчётов простейших категорийных переменных, так и значений дисперсии). Также, можно выполнять сортировку категорий по любым используемым статистическим итогам.
  • Разработчики предусмотрели 3 теста значимости: проверочный на независимость, согласно критерия хи-квадрат; тест сравнение средних показателей столбцов (критерий Стьюдента), тест сравнения столбцов (z-критерий).
  • С помощью интерактивного редактора столбцов, можно создавать сводные таблицы, пользуясь мышью.
  • Есть возможность исключения определённых критериев, отображения ячеек с отсутствующими параметрами, добавления промежуточных итогов в таблицу.
  • Разрешён просмотр таблиц в реальном временном режиме, а также их изменение, при необходимости.
  • Модно экспортировать таблицы в документы Excel, Microsoft Word, PowerPoint либо HTML, чтобы использовать в отчётах.

spss-soft.ru

Учебник_SPSS

Введение в

SPSS для Windows

Краткая справка о программе.

SPSS для Windows– мощная система статистического анализа и управления данными. Многие возможности особенно полезны тем, кто занимается проведением опросов и маркетинговыми исследованиями.

Кроме простого интерфейса для статистического анализа данных, рассчитанного на работу с мышью, в SPSS для Windowsесть:

Редактор данных. Гибкая система, внешне похожая на электронную таблицу, для определения, ввода, редактирования и просмотра данных.

Окно выходных результатов (Viewer). Окно выходных результатов упрощает просмотр результатов, позволяя показывать и скрывать отдельные элементы ввода, изменять порядок вывода результатов, перемещать готовые к презентации таблицы и графики изSPSSв другие приложения.

Редактор таблиц. Можно исследовать таблицы, перемещая строки, столбцы и слои для выявления важных моментов, которые могут потеряться в стандартных таблицах. Также можно сравнивать группы, расщеплять таблицы и др. возможности.

Редактор диаграмм. Высококачественная графика круговых и столбиковых диаграмм, гистограмм, гистограмм рассеяния, трехмерных диаграмм и множества других входят в базовый модульSPSS.

Редактор команд. Несмотря на то, что многие задачи могут быть выполнены с помощью мыши и диалоговых окон, вSPSSесть также мощный командный язык, позволяющий сохранять и автоматизировать многие повторяющиеся задачи.

Конструктор чтения баз данныхпозволяет загрузить данные из любого источника с помощью нескольких нажатий кнопки мыши.

Электронную почту, содержащую результаты анализа, можно создавать одним нажатием кнопки мыши. Также можно экспортировать таблицы и диаграммы в форматHTLMдля распространения через Интернет или Интранет.

Справочная системавключает Электронный Учебник, предлагающий детальный обзор; контексную Справку в диалоговых окнах, помогающую разобраться в конкретных задачах; всплывающие определения в мобильных таблицах, объясняющие статистические термины; Репетитор по статистике, помогающий в поиске необходимой процедуры; а Примеры анализа помогают в интерпретации результатов.

Новый дополнительный модуль SPSS Complex Samplesпозволяет собой специальный инструмент для планирования и анализа данных опросов и обследований, в которых использовалась как простая, так и сложная выборка.

РЕДАКТОР ДАННЫХ

Редактор данных– это окно, похожее по внешнему виду на окно электронной таблицы, предназначенное для создания и редактирования файлов данных. Окно Редактора данных открывается автоматически при запускеSPSS.

В окне редактора одновременно присутствуют два листа, два окна работы с данными. В левом нижнем углу редактора можно увидеть две вкладки: «Данные» и «Переменные».

Данные.В этом режиме можно просматривать и редактировать фактические значения данных.

Переменные.В этом режиме можно просматривать и редактировать свойства переменных, включая метки переменных и значений, типы данных (например, текст, дата или число), типы шкал измерений (номинальная, порядковая или количественная) и определяемые пользователем пропущенные значения.

Например, представим себе, что речь идет о файле данных SPSSс результатами простейшего анкетрования работников.

В режиме «данные»мы увидим конкретные ответы на вопросы, полученные от каждого опрашиваемого. При этом каждая строка в электронной таблице – это наблюдение, то есть одна анкета (один респондент), а каждый столбец – переменная, то есть конкретный вопрос анкеты (или показатель). В каждой ячейке – ответ отдельного респондента на тот или иной вопрос анкеты.

В режиме «переменные»мы увидим описание упомянутых выше характеристик каждой переменной, то есть каждого вопроса обследования (программа наблюдения). Каждая строка – это отдельная переменная, или один вопрос. Каждый столбец – это конкретное свойство той или иной переменной.

Свойства переменных:

1. Имя переменной.

Имя должно начинаться с буквы и не должно заканчиваться точкой. В имени не должны использоваться пробелы и специальные символы (!, ?, * и др.), а также следует избегать в конце имени знака нижнего подчеркивания _. Длина имени не должны превышать 64 символа.

2. Тип переменной.

Указывается, о какой переменной идет речь: числовой, текстовой, формата даты или другие варианты.

3. Число цифр или символов в переменной. Задается максимальное число символов в значении переменной.

4. Число десятичных знаков. Задается число выводимых десятичных знаков.

5. и 6. Описательные метки переменных и значений.

Метки переменных поясняют содержательную часть переменной (по сути содержание самого вопроса или показателя), могут быть до 256 символов и содержать пробелы и символы, использование которых не допускается в именах переменных.

Метки значений поясняют содержательную часть каждого значения отдельной переменной (например, поясняют, что 1 означает мужской пол, 2 – женский пол) могут быть длиной до 60 символов и не применяются к длинным текстовым переменным.

7. Пропущенные значения.

Определенные значения переменной задаются как пользовательские пропущенные. Например, Вы хотите подводить итоги обследования по данному вопросу без учета тех анкет, а которых нет ответа на этот вопрос. Значения, помеченные как пользовательские пропущенные, помечаются для специальной обработки и исключаются из большинства вычислений.

Одновременно можно задать до трех отдельных пользовательских пропущенных значений для каждой переменной, диапазоны пропущенных значений могут быть заданы только для числовых переменных.

8. Ширина столбца.

9. Выравнивание значений в столбце. Возможно выравнивание по левому краю, правому краю, по центру.

10. Шкала измерений (имеет значение при построении таблиц).

Вы можете выбрать одну из трех шкал измерения:

Количественная.Значения данных представляют собой числовые значения (например, возраст, доход).

Порядковая.Значения данных представляют собой категории (градации) с некоторым естественным упорядочением (например: низкий, средний, высокий или: полностью не удовлетворен, скорее не удовлетворен, скорее удовлетворен, полностью удовлетворен). Порядковые переменные могут быть текстовыми или числовыми значениями, представляющими различные категории (например: 1-низкий, 2-средний, 3-высокий).

Номинальная.Значения данных представляют собой категории (градации) для которых не задано естественное упорядочение (примерами могут служить отделы компании, субъекты РФ).

Все свойства переменных могут быть изменены путем изменения значений в ячейках в закладке «переменные». Щелчок по конкретной ячейке вызывает окно, в котором можно изменить свойства переменной. Кроме того, значения ячеек могут быть скопированы и вставлены в другие ячейки. Это особенно полезно при задании меток значений и пропущенных значений для нескольких однотипных переменных.

ВВОД ДАННЫХ

Вводить данные можно прямо в Редактор данных в закладке Данные в любую ячейку. Для пременных всех типов, кроме простых числовых, прежде чем вводить данные, необходимо сначала задать тип переменной.

Если вводить значение в пустой столбец, Редактор данных автоматически создаст новую переменную и присвоит ей имя (VAR00001) и формат по умолчанию (числовой).

Кроме того, данные могут быть подготовлены заранее другими программными средствами. SPSSпозволяет открывать и работать с файлами данных любых форматов. Например, для открытия файла в формате *.xls, необходимо нажатьФайл…Открыть…Данные…

Если данных хранятся в базе данных, то для того, чтобы их открыть, нужно использовать Конструктор баз данных (Файл…Открыть базу данных…Новый запрос…).

ПРЕОБРАЗОВАНИЕ ДАННЫХ

Вычисление переменных.

Выберите в меню:

Преобразовать

Вычислить переменную…

Введите имя вычисляемой переменной. Ей может быть существующая или новая переменная. Если Вы выбрали уже существующую, то следует иметь ввиду, что вычисленные новые значения заменят существующие значения и возврата к старым значениям не будет. Введем, например, имя«godrab», что будет означать «Количество лет работы на данном месте». Эту метку введем, щелкнув мышкой по «Тип и метка».

После нажатия клавиши «продолжить», можно закладывать формулу расчета. При этом можно воспользоваться более 70 встроенных функций, включая арифметические, статистические, текстовые и функции рапсределения. У нас в примере есть переменная «jobtime»– время работы с момента поступления (месяцы). Для того, чтобы месяцы перевести в годы, нам достаточно разделить эту переменную на 12. Эту формулу и закладываем в расчет:

После нажатия клавиши «ОК», в редакторе данных появляется дополнительный столбик с переменной «godrab», где стоит количество лет, отработанных на данном месте работы, а на вкладке переменные добавилась новая переменная.

Следует иметь ввиду, что в функциях и арифметических выражениях пропущенные значения обрабатываются по-разному. В выражении:

(var1 + var2 + var3) / 3

результатом будет пропущенное значение в случае, если значение хотя бы одной из трех переменных является пропущенным значением.

В выражении:

MEAN (var1, var2, var3)

результатом будет пропущенное значение только в том случае, если все три переменные являются пропущенными значениями.

Можно задать минимальное число значений, которые не должны иметь пропущенных значений, например, средняя величина из трех переменных может быть вычислена, если значения имеют минимум две из них:

MEAN.2 (var1, var2, var3)

Пользуясь кнопкой «Если» можно сделать вычисления не для всех значений исходной переменной, а только по тем, для которых выполняется то или иное условие.

Перекодировка переменных.

Первоначально собранные данные можно перекодировать с помощью средств SPSS. Это бывает необходимо, когда первоначальное разнообразие исходных данных не нужно для последующего анализа. Перекодирование в таком случае означает уменьшение объема обрабатываемой информации.

Выберите в меню:

Преобразовать

Перекодировать

В другие переменные…

Лучше всего выбирать перекодировку в другие переменные, нежели перекодировку в те же переменные. Представьте, что Вы делаете перекодировку возраста в числовых значениях в интервальные значения. Если же выбран режим перекодировки в те же переменные, то исходные данные возраста будут затерты интервалами и восстановить их уже не получится.

Далее выберите переменные для перекодировки (можно несколько, но они должны быть одного типа (числовые или текстовые).

Введите имя для каждой выходной (новой) переменной и щелкните Изменить.

Щелкните по кнопке Старые и новые значенияи задайте перекодировку значений.

Старое значение– перекодируемое(ые) значение(я).Значение.Отдельное старое значение, которое нужно перекодировать в новое.Системное пропущенное (или пользовательское тоже).Такие значения (не заполненные числовые поля, неответы респондентов) иногда необходимо выделять в отдельную группу.Диапазон. Доступен только для числовых переменных и позволяет объединять в одно новое значение несколько старых в выбранном диапазоне (интервальная группировка).

Новое значение– значение, в которое будут перекодированы одно или несколько старых значений. Можно выбратьСкопировать старое значениедля тех, где перекодировка не нужна. Также старые значения числовой переменной можно перекодировать в новые текстовые, выбравНовые переменные – текстовые.

РАБОТА С ФАЙЛАМИ.

Сортировка наблюдений.

Выберите в меню:

Данные

Сортировать наблюдения…

Можно выбрать одну или несколько переменных. Если, например, выбраны полинациональность, то сначала наблюдения сортируются пополу, а затем внутри каждой полученной категории сортируются по значениям переменнойнациональность.

Транспонировать.

Выберите в меню:

Данные

Транспонировать…

В результате транспонирования создается новый файл, в котором строки и столбцы меняются местами.

Объединение файлов данных.

Файлы можно объединить двумя различными способами:

– Слить файлы, содержащие одни и те же переменные, но различные наблюдения

– Слить файлы, содержащие одни и те же наблюдения, но различный состав переменных.

В первом случае выберите в меню:

Данные

Слить файлы

Добавить наблюдения…

После этого выберите файл данных, который нужно добавить к открытому файлу данных. Удалите из списка Переменные в новом рабочем файле данныхвсе переменные, которых не должно быть в объединенном файле. Из спискаНепарные переменныедобавьте любые пары переменных, представляющие одну и ту же переменную, но записанную под различными именами в двух файлах.

Во втором случае выберите в меню:

Данные

Слить файлы

Добавить переменные…

Перед слиянием необходимо убедиться, что наблюдения в обоих файлах отсортированы в одинаковом порядке, особенно если используется слияние по ключу. Имена переменных во втором файле данных, совпадающие с именами переменных в рабочем файле данных по умолчанию исключаются, поскольку предполагается, что они содержат одну и ту же информацию.

Если в одном из файлов отсутствуют некоторые отдельные наблюдения, то для корректного слияния можно использовать переменные – ключи.

Преобразования временных рядов.

Преобразования временных рядов предполагают такую структуру файла данных, в которой каждая строка (наблюдение) представляет набор характеристик в определенный момент времени, а интервалы времени между наблюдениями равны.

Процедура Задать датыгенерирует переменные, которые могут быть использованы для выделения периодических компонент временного ряда.

Наблюдения – это. Здесь задаются единицы времени, которые будут использоваться для создания дат.

Первое наблюдение. Здесь задается значение начальной даты, которое будет присвоено первому наблюдению. Последующим наблюдениям будут присвоены последовательные значения, основанные на заданном интервале времени.

Выберите в меню:

Данные

Задать даты…

Выберите временной интервал из списка Наблюдения – это.

Введите значения даты в поля Первое наблюдение.

Переменные, созданные процедурой Задать датыотличаются от переменных, имеющих формат типаДанные, который определяется при задании свойств переменных. Значения переменных, созданных процедуройЗадать даты, - это целые положительные числа, каждое из которых представляет количество дней, недель, часов или других единиц времени, прошедших с заданного Вами начального момента времени.

Выберите в меню:

Преобразовать

Создать временной ряд…

Процедура создать временной ряд используется для создания новых переменных, которые являются функциями существующих переменных, образующих временной ряд.

Функции, предназначенные для создания временных рядов, включают разности, скользящие средние, скользящие медианы, функции задержки (лаги) и опережения.

Некоторые процедуры анализа временных рядов не работают при наличии пропущенных значений. В окне Заменить пропущенные значения задаются параметры новых переменных, содержащих временные ряды, в которых пропущенные значения заменены оценками, которые могут быть вычислены одним из нескольких способов.

Выберите в меню:

Преобразовать

Заменить пропущенные значения…

Выберите метод, который Вы хотите использовать для замены пропущенных значений.

ЧАСТОТЫ

Процедура Частоты дает возможность вычислять статистики и строить диаграммы, полезные для описания многих типов переменных.

Выберите в меню:

Анализ

Описательные статистики

Частоты…

Выберите одну или несколько категориальных или количественных переменных.

Дополнительно Вы можете:

  • Щелкнуть мышью по кнопке Статистики, чтобы задать вычисление описательных статистик для количественных переменных (среднее, мода, медиана и др.).

  • Щелкнуть мышью по кнопке Диаграммы, чтобы задать вывод столбиковых диаграмм, круговых диаграмм и гистограмм.

  • Щелкнуть мышью по кнопке Формат, чтобы задать порядок, в котором будут выводиться результаты.

Пример вывода:

Статистики

Количество лет, потраченных на образование

N

Валидные

474

Пропущенные

0

Среднее

13.49

Медиана

12.00

Стд.отклонение

2.885

Количество лет, потраченных на образование

Частота

Процент

Валидный процент

Кумулятивный процент

Валидные

8

53

11.2

11.2

11.2

12

190

40.1

40.1

51.3

14

6

1.3

1.3

52.5

15

116

24.5

24.5

77.0

16

59

12.4

12.4

89.5

17

11

2.3

2.3

91.8

18

9

1.9

1.9

93.7

19

27

5.7

5.7

99.4

20

2

.4

.4

99.8

21

1

.2

.2

100.0

Итого

474

100.0

100.0

ОПИСАТЕЛЬНЫЕ СТАТИСТИКИ

Процедура Описательные статистики осуществляет вывод одномерных итожащих статистик для нескольких переменных в одной таблице.

Выберите в меню:

Анализ

Описательные статистики

Описательные…

Пример вывода:

Описательные статистики

N

Минимум

Максимум

Среднее

Стд. отклонение

Количество лет, потраченных на образование

474

8

21

13.49

2.885

Начальная зарплата

474

$9,000

$79,980

$17,016.09

$7,870.638

Зарплата в настоящее время

474

$15,750

$135,000

$34,419.57

$17,075.661

Время работы с момента поступления (месяцы)

474

63

98

81.11

10.061

N валидных (целиком)

474

ТАБЛИЦЫ СОПРЯЖЕННОСТИ

Процедура Таблицы сопряженности формирует двумерные и многомерные таблицы, а также вычисляет целый ряд критериев и мер силы связи для двумерных таблиц. Таким образом, таблицы сопряжённости применяются, когда нас интересует двумерный анализ, а также когда необходимо выяснить, существует ли взаимосвязь между двумя переменными.

Выберите в меню:

Анализ

Описательные статистики

Таблицы сопряженности…

Выберите одну или несколько переменных для строк и одну или несколько переменных для столбцов.

Дополнительно Вы можете:

- выбрать одну или несколько переменных для слоев;

- щелкнуть мышью по кнопке Статистики и выбрать нужные критерии и меры силы связи для двумерных таблиц и подтаблиц;

- щелкнуть мышью по кнопке Ячейки, чтобы задать вывод наблюденных и ожидаемых значений, процентов, а также остатков;

- щелкнуть мышью по кнопке Формат для задания порядка, в котором следует располагать категории.

Пример вывода:

Таблица сопряженности Категория занятости * Принадлежность к национальному меньшинству

Частота

Принадлежность к национальному меньшинству

Итого

Нет

Да

Категория занятости

Сотрудник секретариата

276

87

363

Сотрудник среднего звена

14

13

27

Менеджер

80

4

84

Итого

370

104

474

studfiles.net

Глава 1. Программа SPSS

1.3 Модули SPSS

Основу программы SPSS составляет SPSS Base (базовый модуль), предоставляющий разнообразные возможности доступа к данным и управления данными. Он содержит методы анализа, которые применяются чаще всего.

Традиционно вместе с SPSS Base (базовым модулем) поставляются ещё два модуля: Advanced Models (продвинутые модели) и Regression Models (регрессионные модели). Эти три модуля охватывают тот спектр методов анализа, который входил в раннюю версию программы для больших ЭВМ.

В приложении А Вы сможете найти информацию о том, какие методы анализа относятся к тому или иному модулю. Пользователь, который приобрёл все эти три модуля, может не обращать внимания на данное приложение.

Наряду с тремя упомянутыми, существует еще ряд специальных дополнительных модулей и самостоятельных программ, число которых постоянно растёт, так что пользователям следует постоянно знакомиться с информацией о нововведениях в SPSS.

В этой книге описываются базисный модуль, а также модули Regression Models, Advanced Models и Tables. Назначением последнего модуля является составление презентационных таблиц. В книге не рассматриваются логлинейные модели, анализ выживания и многомерное шкалирование, а также процедура составления презентаций.

SPSS Base (Базовый модуль)

SPSS Base входит в базовую поставку. Он включает все процедуры ввода, отбора и корректировки данных, а также большинство предлагаемых в SPSS статистических методов. Наряду с простыми методиками статистического анализа, такими как частотный анализ, расчет статистических характеристик, таблиц сопряженности, корреляций, построения графиков, этот модуль включает t-тесты и большое количество других непараметрических тестов, а также усложненные методы, такие как многомерный линейный регрессионный анализ, дискриминантный анализ, факторный анализ, кластерный анализ, дисперсионный анализ, анализ пригодности (анализ надежности) и многомерное шкалирование.

Regression Models

Данный модуль включает в себя различные методы регрессионного анализа, такие как: бинарная и мультиномиальная логистическая регрессия, нелинейная регрессия и пробит-анализ.

Advanced Models

В этот модуль входят различные методы дисперсионного анализа (многомерный, с учетом повторных измерений), общая линейная модель, анализ выживания, включая метод Каплана-Майера и регрессию Кокса, логлинейные, а также логитлоглинсйные модели.

Tables

Модуль Tables служит для создания презентационных таблиц. Здесь предоставляются более широкие возможности по сравнению со упрощенными частотными таблицами и таблицами сопряженности, которые строятся в SPSS Base (базовом модуле).

Ниже в алфавитном порядке приведен список остальных модулей и программ предлагаемых для расширения SPSS.

Amos

Amos (Analysis of moment structures — анализ моментных структур) включает методы анализа с помощью линейных структурных уравнений. Целью программы является проверка сложных теоретических связей между различными признаками случайного процесса и их описание при помощи подходящих коэффициентов. Проверка проводится в форме причинного анализа и анализа траектории. При этом пользователь в графическом виде должен задать теоретическую модель, в которую вместе с данными непосредственных наблюдений могут быть включены и так называемые скрытые элементы. Программа Amos включена в состав модулей расширения SPSS, как преемник L1SREL (Linear Structural RELationships — линейные структурные взаимоотношения).

AnswerTree

AnswerTree (дерево решений) включает четыре различных метода автоматизированного деления данных на отдельные группы (сегменты). Деление проводится таким образом, что частотные распределения целевой (зависимой) переменной в различных сегментах значимо различаются. Типичным примером применения данною метода является создание характерных профилей покупателей при исследовании потребительского рынка. AnswerTree является преемницей программы СНАШ (Chi squared interaction Detector — детектор взаимодействий на основе хи-квадрата).

Categories

Модуль содержит различные методы для анализа категориальных данных, а именно: анализ соответствий и три различных метода оптимального шкалирования (анализ однородности, нелинейный анализ главных компонент, нелинейный канонический корреляционный анализ).

Clementine

Clementine — это программа для data mining (добычи знаний), в которой пользователю предлагаются многочисленные подходы к построению моделей, к примеру, нейронные сети, деревья решений, различные виды регрессионного анализа. Clementine представляет собой "верстак" аналитика, при помощи которого можно визуализировать процесс моделирования, перепроверять модели, сравнивать их между собой. Для удобства пользования программой имеется вспомогательная среда внедрения результатов.

Conjoint (совместный анализ)

Совместный анализ применяется при исследовании рынка для изучения потребительских свойств продуктов на предмет их привлекательности. При этом опрашиваемые респонденты по своему усмотрению должны расположить предлагаемые наборы потребительских свойств продуктов в порядке предпочтения, на основании которого можно затем вывести так называемые детализированные показатели полезности отдельных категорий каждого потребительских свойства.

Data Entry (ввод данных)

Программа Data Entry предназначена для быстрого составления вопросников, а также ввода и чистки данных. Заданные на этапе создания вопросника вопросы и категории ответов потом используются в качестве меток переменных и значений.

Exact Tests (Точные тесты)

Данный модуль служит для вычисления точного значения вероятности ошибки (величины р) в условиях ограниченности данных при проверке по критерию х2 (Chi-Quadrat-Test) и при непараметрических тестах. В случае необходимости для этого также может быть применён метод Монте-Карло (Monte-Carlo).

GOLDMineR

Программа содержит специальную регрессионную модель для регрессионного анализа упорядоченных зависимых и независимых переменных.

SamplePower

При помощи SamplePower может быть определён оптимальный размер выборки для большинства методов статистического анализа, реализованных в SPSS.

SPSS Missing Value Analysis

Данный модуль служит для анализа и восстановления закономерностей, которым подчиняются пропущенные значения. Он предоставляет различные варианты замены недостающих значений.

Trends

Модуль Trends содержит различные методы для анализа временных рядов, такие как: модели ARIMA, экспоненциальное сглаживание, сезонная декомпозиция и спектральный анализ.

Модули Amos, AnswerTree, Categories, Conjoint, LISREL и Trends описаны в книге этих же авторов: "SPSS. Методы исследования рынка и мнений".

lib.qrz.ru

Презентация на тему "Программа SPSS"

Такого ещё не было!Скидка 70% на курсы повышения квалификации

Количество мест со скидкой ограничено! Обучение проходит заочно прямо на сайте проекта "Инфоурок"

(Лицензия на осуществление образовательной деятельности № 5201 выдана ООО "Инфоурок" 20 мая 2016 г. бессрочно).

библиотека материалов

Описание презентации по отдельным слайдам:

№ слайда 1 Описание слайда:

2014 г. Выполнила: учитель информатики и Икт Полюхина И. Ю.

№ слайда 2 Описание слайда:

SPSS является самой распространённой программой для обработки статистической информации.  Два студента Норман Най (Norman Nie) и Дейл Вент (Dale Bent), специализировавшиеся в области политологии в 1965 году пытались отыскать в Стенфордском университете Сан-Франциско компьютерную программу, подходящую для анализа статистической информации.

№ слайда 3 Описание слайда:

Вскоре они разочаровались в своих попытках, так как имеющиеся программы оказывались более или менее непригодными, неудачно построенными или не обеспечивали наглядность представления обработанной информации. К тому же принципы пользования менялись от программы к программе.

№ слайда 4 Описание слайда:

Так, не долго думая, они решили разработать собственную программу, со своей концепцией и единым синтаксисом. В их распоряжении тогда был язык программирования FORTRAN и вычислительная машина типа IBM 7090. Уже через год была разработана первая версия программы, которая, еще через год, в 1967, могла работать на IBM 360. К этому времени к группе разработчиков присоединился Хэдлай Халл (Hadlai Hull). IBM 360

№ слайда 5 Описание слайда:

Как известно из истории развития информатики, программы тогда представляли собой пакеты перфокарт. Как раз на это указывает и исходное название программы, которое авторы дали своему продукту: SPSS — это аббревиатура от Statistical Package for the Social Science. В 1970 году работа над программой была продолжена в Чикагском университете, а Норман Най основал соответствующую фирму — к тому моменту уже было произведено шестьдесят инсталляций. Первое руководство для пользователей описывало одиннадцать различных процедур.

№ слайда 6 Описание слайда:

Спустя пять лет SPSS была уже инсталлирована шестьсот раз, причём под разными операционными системами. С самого начала версиям программы присваивали соответствующие порядковые номера. В 1975 была разработана уже шестая версия (SPSS6). До 1981 последовали версии 7, 8 и 9. Командный язык (синтаксис) SPSS в то время был ещё не так хорошо развит, как сейчас, и естественно ориентирован на перфокарты. Поэтому так называемые управляющие карты SPSS состояли из идентификационного поля (столбцы 1-15) и из поля параметров (столбцы 16-80).

№ слайда 7 Описание слайда:

В 1983 году командный язык SPSS был полностью переработан, синтаксис стал значительно удобней. Что бы отметить этот факт, программа была переименована в SPSSX, где буква X должна была служить как номером версии в римскими числами, так и сокращением для extended (расширенный). .

№ слайда 8 Описание слайда:

Так как применение перфокарт к этому моменту уже стало историей, то программа SPSS и информация, подлежащая обработке, сохранялись в отдельных файлах на винчестерах больших ЭВМ, которые тогда использовались повсеместно. Год от года постоянно увеличивалось и количество процедур

№ слайда 9 Описание слайда:

С появлением персональных компьютеров была разработана также и PC-версия SPSS, с 1983 года появилась PC-версия SPSS\PC+. рассчитанная на MS-DOS. Позже, с момента основания в 1984 году европейского торгового представительства в Горинхеме в Нидерландах, SPSS стал широко применяться и в Европе. В настоящее время это самое распространённое программное обеспечение для статистического анализа во всём мире.

№ слайда 10 Описание слайда:

Для того, чтобы отразить возможность использования программы во всех областях, имеющих отношение к статистическому анализу, буква X вновь была удалена из названия марки, а исходной аббревиатуре присвоено новое значение: Superior Performance Software System (система программного обеспечения высшей производительности).

№ слайда 11 Описание слайда:

Если PC версия SPSS/PC+ была чуть усовершенствованной версией для больших ЭВМ, то SPSS для операционной системой Windows (SPSS for Windows) стала большим шагом вперёд.

№ слайда 12 Описание слайда:

Эта версия SPSS обладает всеми возможностями версии для больших ЭВМ. За некоторыми немногочисленными исключениями, программой можно пользоваться без особых знаний в области прикладного программирования.Вызов необходимых процедур статистического анализа происходит при помощи стандартной техники, применяемой в Windows, то есть с помощью мыши и соответствующих диалоговых окон.

№ слайда 13 Описание слайда:

В сентябре 2012 г. вышла очередная версия пакета - IBM SPSS Statistics 21, работающая под управлением ОС Windows, MacOsX и Linux. Но на данном этапе во многих учебных заведениях пользуются версией SPSS 17.0.

№ слайда 14 Описание слайда:

Основу программы SPSS составляет SPSS Base (базовый модуль), предоставляющий разнообразные возможности доступа к данным и управления данными. Он содержит методы анализа, которые применяются чаще всего.

№ слайда 15 Описание слайда:

Традиционно вместе с SPSS Base (базовым модулем) поставляются ещё два модуля: Advanced Models (продвинутые модели) и Regression Models (регрессионные модели). Эти три модуля охватывают тот спектр методов анализа, который входил в раннюю версию программы для больших ЭВМ.

№ слайда 16 Описание слайда:

SPSS Base входит в базовую поставку. Он включает все процедуры ввода, отбора и корректировки данных, а также большинство предлагаемых в SPSS статистических методов. Наряду с простыми методиками статистического анализа, такими как частотный анализ, расчет статистических характеристик, таблиц сопряженности, корреляций, построения графиков, этот модуль включает t-тесты и большое количество других непараметрических тестов, а также усложненные методы, такие как многомерный линейный регрессионный анализ, дискриминантный анализ, факторный анализ, кластерный анализ, дисперсионный анализ, анализ пригодности (анализ надежности) и многомерное шкалирование.

№ слайда 17 Описание слайда: № слайда 18 Описание слайда:

Данный модуль включает в себя различные методы регрессионного анализа, такие как: бинарная и мультиномиальная логистическая регрессия, нелинейная регрессия и пробит-анализ.

№ слайда 19 Описание слайда:

В этот модуль входят различные методы дисперсионного анализа (многомерный, с учетом повторных измерений), общая линейная модель, анализ выживания, включая метод Каплана-Майера и регрессию Кокса, логлинейные, а также логитлоглинсйные модели.

№ слайда 20 Описание слайда:

Модуль Tables служит для создания презентационных таблиц. Здесь предоставляются более широкие возможности по сравнению со упрощенными частотными таблицами и таблицами сопряженности, которые строятся в SPSS Base (базовом модуле).

№ слайда 21 Описание слайда:

Amos (Analysis of moment structures — анализ моментных структур) включает методы анализа с помощью линейных структурных уравнений. Целью программы является проверка сложных теоретических связей между различными признаками случайного процесса и их описание при помощи подходящих коэффициентов. Проверка проводится в форме причинного анализа и анализа траектории. При этом пользователь в графическом виде должен задать теоретическую модель, в которую вместе с данными непосредственных наблюдений могут быть включены и так называемые скрытые элементы.

№ слайда 22 Описание слайда:

AnswerTree (дерево решений) включает четыре различных метода автоматизированного деления данных на отдельные группы (сегменты). Деление проводится таким образом, что частотные распределения целевой (зависимой) переменной в различных сегментах значимо различаются. Типичным примером применения данною метода является создание характерных профилей покупателей при исследовании потребительского рынка. AnswerTree является преемницей программы СНАШ (Chi squared interaction Detector — детектор взаимодействий на основе хи-квадрата).

№ слайда 23 Описание слайда:

Модуль содержит различные методы для анализа категориальных данных, а именно: анализ соответствий и три различных метода оптимального шкалирования (анализ однородности, нелинейный анализ главных компонент, нелинейный канонический корреляционный анализ).

№ слайда 24 Описание слайда:

Clementine — это программа для data mining (добычи знаний), в которой пользователю предлагаются многочисленные подходы к построению моделей, к примеру, нейронные сети, деревья решений, различные виды регрессионного анализа. Clementine представляет собой "верстак" аналитика, при помощи которого можно визуализировать процесс моделирования, перепроверять модели, сравнивать их между собой. Для удобства пользования программой имеется вспомогательная среда внедрения результатов.

№ слайда 25 Описание слайда:

Совместный анализ применяется при исследовании рынка для изучения потребительских свойств продуктов на предмет их привлекательности. При этом опрашиваемые респонденты по своему усмотрению должны расположить предлагаемые наборы потребительских свойств продуктов в порядке предпочтения, на основании которого можно затем вывести так называемые детализированные показатели полезности отдельных категорий каждого потребительских свойства.

№ слайда 26 Описание слайда:

Программа Data Entry предназначена для быстрого составления вопросников, а также ввода и чистки данных. Заданные на этапе создания вопросника вопросы и категории ответов потом используются в качестве меток переменных и значений.

№ слайда 27 Описание слайда:

Данный модуль служит для вычисления точного значения вероятности ошибки (величины р) в условиях ограниченности данных при проверке по критерию х2 (Chi-Quadrat-Test) и при непараметрических тестах. В случае необходимости для этого также может быть применён метод Монте-Карло (Monte-Carlo).

№ слайда 28 Описание слайда:

При помощи SamplePower может быть определён оптимальный размер выборки для большинства методов статистического анализа, реализованных в SPSS.

№ слайда 29 Описание слайда:

Программа содержит специальную регрессионную модель для регрессионного анализа упорядоченных зависимых и независимых переменных.

№ слайда 30 Описание слайда:

Данный модуль служит для анализа и восстановления закономерностей, которым подчиняются пропущенные значения. Он предоставляет различные варианты замены недостающих значений.

№ слайда 31 Описание слайда:

Программа содержит специальную регрессионную модель для регрессионного анализа упорядоченн Модуль Trends содержит различные методы для анализа временных рядов, такие как: модели ARIMA, экспоненциальное сглаживание, сезонная декомпозиция и спектральный анализ.

№ слайда 32 Описание слайда:

Пример работы в SPSS

№ слайда 33 Описание слайда:

Данные могут быть введены непосредственно в SPSS или могут быть импортированы из текстовых файлов, файлов формата EXCEL, ACCESS и т.д. Пусть нашем случае имеется файл данных в формате EXCEL (рис 1.1). Приступим к импорту данных в файл SPSS.

№ слайда 34 Описание слайда:

Рис.1.1. Файл исходных данных в формате EXCEL

№ слайда 35 Описание слайда:

После запуска программы SPSS и появления на экране пустого файла SPSS, подобного изображенному на Рис. 1.2, выберите в строке меню Файл-Открыть-Данные и задайте имя EXCEL файла с вашими данными, его тип, после чего нажмите кнопку OPEN (Рис. 1.3).

№ слайда 36 Описание слайда:

Рис. 1.2. Окно редактора данных в SPSS.

№ слайда 37 Описание слайда:

Рис.1.3. Импорт данных в SPSS.

№ слайда 38 Описание слайда:

2. В новом диалоговом окне (Рис.1.4) задайте диапазон ячеек (например, А1:F17). Если в первой строке EXCEL файла находятся имена переменных, то установить флажок Читать имена переменных из первой строки данных. Щелкните на кнопке ОК.

№ слайда 39 Описание слайда:

Рис.1.4. Импорт данных в SPSS.

№ слайда 40 Описание слайда:

3. На экране вы увидите импортированные данные в формате SPSS (Рис. 1.5).

№ слайда 41 Описание слайда:

Рис.1.5. Данные задачи представлены в формате SPSS.

Самые низкие цены на курсы переподготовки

Специально для учителей, воспитателей и других работников системы образования действуют 50% скидки при обучении на курсах профессиональной переподготовки.

После окончания обучения выдаётся диплом о профессиональной переподготовке установленного образца с присвоением квалификации (признаётся при прохождении аттестации по всей России).

Обучение проходит заочно прямо на сайте проекта "Инфоурок", но в дипломе форма обучения не указывается.

Начало обучения ближайшей группы: 1 ноября. Оплата возможна в беспроцентную рассрочку (10% в начале обучения и 90% в конце обучения)!

Подайте заявку на интересующий Вас курс сейчас: https://infourok.ru

Общая информация

Номер материала: ДВ-543245

УЖЕ ЧЕРЕЗ 10 МИНУТ ВЫ МОЖЕТЕ ПОЛУЧИТЬ ДИПЛОМ

от проекта "Инфоурок" с указанием данных образовательной лицензии, что важно при прохождении аттестации.

Если Вы учитель или воспитатель, то можете прямо сейчас получить документ, подтверждающий Ваши профессиональные компетенции. Выдаваемые дипломы и сертификаты помогут Вам наполнить собственное портфолио и успешно пройти аттестацию.

Список всех тестов (132 теста) можно посмотреть тут - https://infourok.ru/tests

Похожие материалы

  • 21.03.2016
  • Просмотры: 648
  • 21.03.2016
  • Просмотры: 151
  • 21.03.2016
  • Просмотры: 1885
  • 21.03.2016
  • Просмотры: 594
  • 21.03.2016
  • Просмотры: 591
  • 21.03.2016
  • Просмотры: 215
  • 21.03.2016
  • Просмотры: 281

969596969583969490969463969380969363969360

infourok.ru


Смотрите также