Все о стройке и ремонте

Уровень статистической значимости в психологии. Уровень статистической значимости (р)

Уровень значимости - это вероятность того, что мы сочли различия существенными, а они на самом деле случайны.

Когда мы указываем, что различия достоверны на 5%-ом уровне значимости, или при р < 0,05 , то мы имеем виду, что вероятность того, что они все-таки недостоверны, составляет 0,05.

Когда мы указываем, что различия достоверны на 1%-ом уровне значимости, или при р < 0,01 , то мы имеем в виду, что вероятность того, что они все-таки недостоверны, составляет 0,01.

Если перевести все это на более формализованный язык, то уровень значимости - это вероятность отклонения нулевой гипотезы, в то время как она верна.

Ошибка, состоящая в той, что мы отклонили нулевую гипотезу, в то время как она верна, называется ошибкой 1 рода. (См. Табл. 1)

Табл. 1. Нулевая и альтернативные гипотезы и возможные состояния проверки.

Вероятность такой ошибки обычно обозначается как α. В сущности, мы должны были бы указывать в скобках не р< 0,05 или р< 0,01, а α< 0,05 или α< 0,01.

Если вероятность ошибки - это α , то вероятность правильного решения: 1-α. Чем меньше α, тем больше вероятность правильного решения.

Исторически сложилось так, что в психологии принято считать низшим уровнем статистической значимости 5%-ый уровень (р≤0,05): достаточным – 1%-ый уровень (р≤0,01) и высшим 0,1%-ый уровень (р≤0,001), поэтому в таблицах критических значений обычно приводятся значения критериев, соответствующих уровням статистической значимости р≤0,05 и р≤0,01, иногда - р≤0,001. Для некоторых критериев в таблицах указан точный уровень значимости их разных эмпирических значений. Например, для φ*=1,56 р=О,06.

До тех пор, однако, пока уровень статистической значимости не достигнет р=0,05, мы еще не имеем права отклонить нулевую гипотезу. Мы будем придерживаться следующего правила отклонения гипотезы об отсутствии различий (Но) и принятия гипотезы о статистической достоверности различий (Н 1).

Правило отклонения Hо и принятия h1

Если эмпирическое значение критерия равняется критическому значению, соответствующему р≤0,05 или превышает его, то H 0 отклоняется, но мы еще не можем определенно принять H 1 .

Если эмпирическое значение критерия равняется критическому значению, соответствующему р≤0,01 или превышает его, то H 0 отклоняется и принимается Н 1 .

Исключения : критерий знаков G, критерий Т Вилкоксона и критерий U Манна-Уитни. Для них устанавливаются обратные соотношения.

Рис. 4. Пример «оси значимости» для критерия Q Розенбаума.

Критические значения критерия обозначены как Q о,о5 и Q 0,01, эмпирическое значение критерия как Q эмп. Оно заключено в эллипс.

Вправо от критического значения Q 0,01 простирается "зона значимости" - сюда попадают эмпирические значения, превышающие Q 0 , 01 и, следовательно, безусловно, значимые.

Влево от критического значения Q 0,05, простирается "зона незначимости", - сюда попадают эмпирические значения Q, которые ниже Q 0,05, и, следовательно, безусловно незначимы.

Мы видим, что Q 0,05 =6; Q 0,01 =9; Q эмп. =8;

Эмпирическое значение критерия попадает в область между Q 0,05 и Q 0,01. Это зона "неопределенности": мы уже можем отклонить гипотезу о недостоверности различий (Н 0), но еще не можем принять гипотезы об их достоверности (H 1).

Практически, однако, исследователь может считать достоверными уже те различия, которые не попадают в зону незначимости, заявив, что они достоверны при р< 0,05, или указав точный уровень значимости полученного эмпирического значения критерия, например: р=0,02. С помощью стандартных таблиц, которые есть во всех учебниках по математическим методам это можно сделать по отношению к критериям Н Крускала-Уоллиса, χ 2 r Фридмана, L Пейджа, φ* Фишера.

Уровень статистической значимости или критические значения критериев определяются по-разному при проверке направленных и ненаправленных статистических гипотез.

При направленной статистической гипотезе используется односторонний критерий, при ненаправленной гипотезе - двусторонний критерий. Двусторонний критерий более строг, поскольку он проверяет различия в обе стороны, и поэтому то эмпирическое значение критерия, которое ранее соответствовало уровню значимости р< 0,05, теперь соответствует лишь уровню р< 0,10.

Нам не придется всякий раз самостоятельно решать, использует ли он односторонний или двухсторонний критерий. Таблицы критических значений критериев подобраны таким образом, что направленным гипотезам соответствует односторонний, а ненаправленным - двусторонний критерий, и приведенные значения удовлетворяют тем требованиям, которые предъявляются к каждому из них. Исследователю необходимо лишь следить за тем, чтобы его гипотезы совпадали по смыслу и по форме с гипотезами, предлагаемыми в описании каждого из критериев.

Лекция 4.

Общие принципы проверки статистических гипотез

Подчеркнем еще раз, что полученные в результате экспери­мента на какой-либо выборке данные служат основанием для суждения о генеральной совокупности. Однако в силу действия случайных вероятностных причин оценка параметров генераль­ной совокупности, сделанная на основании экспериментальных (выборочных) данных, всегда будет сопровождаться погрешнос­тью, и поэтому подобного рода оценки должны рассматриваться как предположительные, а не как окончательные утверждения. Подобные предположения о свойствах и параметрах генеральной совокупности получили название статистических гипотез .

Сущность проверки статистической гипотезы заключается в том, чтобы установить, согласуются ли экспериментальные дан­ные и выдвинутая гипотеза, допустимо ли отнести расхождение между гипотезой и результатом статистического анализа экспе­риментальных данных за счет случайных причин? Таким обра­зом, статистическая гипотеза это научная гипотеза, допускаю­щая статистическую проверку, а математическая статистика это научная дисциплина задачей которой является научно обосно­ванная проверка статистических гипотез.

Статистические гипотезы

При проверке статистических гипотез используются два по­нятия: так называемая нулевая (обозначение Н 0) и альтернатив­ная гипотеза (обозначение Н 1).

Нулевая гипотеза – это гипотеза об отсутствии различий. Она обозначается как и называется нулевой потому, что содержит число 0: , где - сопоставляемые значения признаков.

Нулевая гипотеза – это то, что мы хотим опровергнуть, если перед нами стоит задача доказать значимость различий.

Альтернативная гипотеза – это гипотеза о значимости различий. Она обозначается как . Альтернативная гипотеза – это то, что мы хотим доказать, поэтому иногда ее называют экспериментальной гипотезой.

Бывают задачи, когда требуется доказать как раз незначимость различий, т.е. подтвердить нулевую гипотезу. Однако чаще все-таки требуется доказать значимость различий , так как они более информативны в поиске нового.

Нулевая и альтернативная гипотезы могут быть направленными и ненаправленными.

Направленные гипотезы

: не превышает

: превышает

Ненаправленные гипотезы

: не отличается

: отличается

Если в ходе эксперимента было замечено, что водной группе индивидуальные значения испытуемых по какому-либо признаку, например, по социальной смелости, выше, а в другой ниже, то для проверки значимости этих различий необходимо сформулировать направленные гипотезы.

Если же необходимо доказать, что первой группе под влиянием каких-то экспериментальных воздействий произошли более выраженные изменения, чем во второй группе, то в этом случае тоже необходимо сформулировать направленные гипотезы.

Если же требуется доказать, что различаются формы распределения признака в первой и во второй группах, то формулируются ненаправленные гипотезы.

Замечание. При описании каждого критерия даются формулировки гипотез, которые он помогает проверить.

Вообще говоря, при принятии или отвержении гипотез воз­можны различные варианты.

Например, психолог провел выборочное тестирование пока­зателей интеллекта у группы подростков из полных и неполных семей. В результате обработки экспериментальных данных уста­новлено, что у подростков из неполных семей показатели интел­лекта в среднем ниже, чем у их ровесников из полных семей. Может ли психолог на основе полученных результатов сделать вывод о том, что неполная семья ведет к снижению интеллекта у подростков? Принимаемый в таких случаях вывод носит назы­вание статистического решения. Подчеркнем, что такое решение всегда вероятностно.

При проверке гипотезы экспериментальные данные могут противоречить гипотезе , тогда эта гипотеза отклоняется. В противном случае, т.е. если экспериментальные данные согласу­ются с гипотезой ,она не отклоняется. Часто в таких случаях говорят, что гипотеза принимается (хотя такая формулировка не совсем точна, однако она широко распространена и мы ею будем пользоваться в дальнейшем). Отсюда видно, что статисти­ческая проверка гипотез, основанная на экспериментальных, выборочных данных, неизбежно связана с риском (вероятнос­тью) принять ложное решение. При этом возможны ошибки двух родов.

Ошибка первого рода произойдет, когда будет принято решение отклонить гипотезу ,хотя в действительности она оказывается верной.

Ошибка второго рода произойдет, когда бу­дет принято решение не отклонять гипотезу , хотя в действи­тельности она будет неверна. Очевидно, что и правильные выво­ды могут быть приняты также в двух случаях. Вышесказанное лучше представить в виде таблицы 1:

Таблица 1

Не исключено, что психолог может ошибиться в своем ста­тистическом решении; как видим из таблицы 1, эти ошибки могут быть только двух родов. Поскольку исключить ошибки при принятии статистических гипотез невозможно, то необходимо минимизировать возможные последствия, т.е. принятие неверной статистической гипотезы. В большинстве случаев единственный путь минимизации ошибок заключается в увеличении объема выборки.

Понятие уровня статистической значимости

При обосновании статистического вывода следует решить вопрос, где же проходит линия между принятием и отвержени­ем нулевой гипотезы? В силу наличия в эксперименте случайных влияний эта граница не может быть проведена абсолютно точно. Она базируется на понятии уровня значимости.

Опр. Уровнем значимо­сти называется вероятность ошибочного отклонения нулевой гипотезы. Или, иными словами, уровень значимости это вероят­ность ошибки первого рода при принятии решения.

Для обозна­чения этой вероятности, как правило, употребляют либо гречес­кую букву , либо латинскую букву Р. В дальнейшем мы будем употреблять букву Р.

Исторически сложилось так, что в прикладных науках, ис­пользующих статистику, и в частности в психологии, считается, что низшим уровнем статистической значимости является уровень ; достаточным - уровень и высшим уровень . Поэтому в статистических таблицах, которые приводятся в приложении к учебникам по статистике, обычно даются таблич­ные значения для уровней: ; ; . Иногда даются табличные значения для уровней и . Величины 0,05, 0,01 и 0,001 - это так называемые стандартные уровни статистической значимости . При статистическом анализе экспериментальных данных психолог в зависимости от задач и гипотез исследования должен выбрать необходимый уро­вень значимости. Как видим, здесь наибольшая величина, или нижняя граница уровня статистической значимости, равняется 0,05 - это означает, что допускается пять ошибок в выборке из ста элементов (случаев, испытуемых) или одна ошибка из двад­цати элементов (случаев, испытуемых). Считается, что ни шесть, ни семь, ни большее количество раз из ста мы ошибиться не можем. Цена таких ошибок будет слишком велика.

Заметим, что в современных статистических пакетах на ЭВМ используются не стандартные уровни значимости, а уровни, подсчитываемые непосредственно в процессе работы с соответ­ствующим статистическим методом. Эти уровни, обозначаемые буквой Р, могут иметь различное числовое выражение в интер­вале от 0 до 1, например, Р = 0,7, Р = 0,23 или Р = 0,012. Понятно, что в первых двух случаях, полученные уровни значимос­ти слишком велики и говорить о том, что результат значим нельзя. В то же время в последнем случае результаты значимы на уровне 12 тысячных, это достоверный уровень.

Правило принятия статистического вывода таково: на осно­вании полученных экспериментальных данных психолог подсчи­тывает по выбранному им статистическому методу так называе­мую эмпирическую статистику, или эмпирическое значение. Эту величину удобно обозначить как Ч эмп. Затем эмпирическая стати­стика Ч эмп сравнивается с двумя критическими величинами, ко­торые соответствуют уровням значимости в 5% и в 1% для выб­ранного статистического метода и которые, обозначаются как . Величины находятся для данного статистического метода по соответствующим таблицам, приведенным в приложении к лю­бому учебнику по статистике. Эти величины, как правило, все­гда различны и их в дальнейшем для удобства можно назвать, как и . Найденные по таблицам величины критических значе­ний и удобно представлять в следующей стандартной форме записи:

Подчеркнем, однако, что мы использовали обозначения и как сокращение слова «число». Во всех статистических ме­тодах приняты свои символические обозначения всех этих вели­чин: как подсчитанной по соответствующему статистическому методу эмпирической величины, так и найденных по соответ­ствующим таблицам критических величин. Например, при под­счете рангового коэффициента корреляции Спирмена по таблице 21 Приложения были найдены сле­дующие величины критических значений, которые для этого мето­да обозначаются греческой буквой (ро).

Принято найденные значения записывать следующим образом:

Теперь нам необходимо сравнить наше эмпирическое значе­ние с двумя найденными по таблицам критическими значения­ми. Лучше всего это сделать, расположив все три числа на так называемой «оси значимости ». «Ось значимости » представляет собой прямую, на левом конце которой располагается 0, хотя он, как правило, не отмечается на самой этой прямой, и слева направо идет увеличение числового ряда. По сути дела это при­вычная школьная ось абсцисс ОХ декартовой системы координат. Однако особенность этой оси в том, что на ней выделено три участка, «зоны ». Левая зона называется зоной незначимости , правая - зоной значимости , а промежуточная зоной неопреде­ленности . Границами всех трех зон являются Ч кр1 для Р = 0,05 и для Р = 0,01, как это показано ниже.

При обосновании статистического вывода следует решить вопрос, где же проходит линия между принятием и отвержением нулевой гипотезы ? В силу наличия в эксперименте случайных влияний эта граница не может быть проведена абсолютно точно. Она базируется на понятии уровня значимости. Уровнем значимости называется вероятность ошибочного отклонения нулевой гипотезы. Или, иными словами, уровень значимости —это вероятность ошибки первого рода при принятии решения. Для обозначения этой вероятности, как правило, употребляют либо греческую букву α, либо латинскую букву р. В дальнейшем мы будем употреблять букву р.

Исторически сложилось так , что в прикладных науках, использующих статистику, и в частности в психологии, считается, что низшим уровнем статистической значимости является уровень р = 0,05; достаточным — уровень р = 0,01 и высшим уровень р = 0,001. Поэтому в статистических таблицах, которые приводятся в приложении к учебникам по статистике, обычно даются таблич-ные значения для уровней р = 0,05, р = 0,01 и р = 0,001. Иногда даются табличные значения для уровней р — 0,025 и р = 0,005.

Величины 0,05, 0,01 и 0,001 — это так называемые стандартные уровни статистической значимости. При статистическом анализе экспериментальных данных психолог в зависимости от задач и гипотез исследования должен выбрать необходимый уровень значимости. Как видим, здесь наибольшая величина, или нижняя граница уровня статистической значимости, равняется 0,05 — это означает, что допускается пять ошибок в выборке из ста элементов (случаев, испытуемых) или одна ошибка из двад-цати элементов (случаев, испытуемых). Считается, что ни шесть, ни семь, ни большее количество раз из ста мы ошибиться не можем. Цена таких ошибок будет слишком велика.

Заметим , что в современных статистических пакетах на ЭВМ используются не стандартные уровни значимости, а уровни, подсчитываемые непосредственно в процессе работы с соответ-ствующим статистическим методом. Эти уровни, обозначаемые буквой р, могут иметь различное числовое выражение в интервале от 0 до 1, например, р = 0,7, р = 0,23 или р = 0,012. Понятно, что в первых двух случаях полученные уровни значимости слишком велики и говорить о том, что результат значим нельзя. В то же время в последнем случае результаты значимы на уровне 12 тысячных. Это достоверный уровень.

Правило принятия статистического вывода таково: на основании полученных экспериментальных данных психолог подсчи-тывает по выбранному им статистическому методу так называе-мую эмпирическую статистику, или эмпирическое значение. Эту величину удобно обозначить как Ч эмп. Затем эмпирическая стати-стика Ч эмп сравнивается с двумя критическими величинами, ко-торые соответствуют уровням значимости в 5% и в 1% для выб-ранного статистического метода и которые обозначаются как Ч кр. Величины Ч кр находятся для данного статистического метода по соответствующим таблицам, приведенным в приложении к любому учебнику по статистике. Эти величины, как правило, всегда различны и их в дальнейшем для удобства можно назвать как Ч кр1 и Ч кр2 . Найденные по таблицам величины критических значений Ч кр1 и Ч кр2 удобно представлять в следующей стандартной форме записи:


Подчеркнем , однако, что мы использовали обозначения Ч эмп и Ч кр как сокращение слова «число». Во всех статистических методах приняты свои символические обозначения всех этих вели-чин: как подсчитанной по соответствующему статистическому методу эмпирической величины, так и найденных по соответ-ствующим таблицам критических величин. Например, при подсчете рангового коэффициента корреляции Спирмена по таблице критических значений этого коэффициента были найдены сле-дующие величины критических значений, которые для этого метода обозначаются греческой буквой ρ («ро»). Так для р = 0,05 по таб-лице найдена величина ρ кр 1 = 0,61 и для р = 0,01 величина ρ кр 2 = 0,76.

В принятой в дальнейшем изложении стандартной форме записи это выглядит следующим образом:

Теперь нам необходимо сравнить наше эмпирическое значе-ние с двумя найденными по таблицам критическими значения-ми. Лучше всего это сделать, расположив все три числа на так называемой «оси значимости». «Ось значимости» представляет собой прямую, на левом конце которой располагается 0, хотя он, как правило, не отмечается на самой этой прямой, и слева направо идет увеличение числового ряда. По сути дела это при-вычная школьная ось абсцисс ОХ декартовой системы координат. Однако особенность этой оси в том, что на ней выделено три участка, «зоны». Одна крайняя зона называется зоной незначимости, вторая крайняя зона — зоной значимости, а промежуточная — зоной неопреде-ленности. Границами всех трех зон являются Ч кр1 для р = 0,05 и Ч кр2 для р = 0,01, как это показано на рисунке.

В зависимости от правила принятия решения (правила вывода), предписанного в данном статистическом методе возможно два варианта.

Первый вариант: альтернативная гипотеза принимается, если Ч эмп Ч кр.

Зона значимости
Зона незначимости
0,05
0,01
Ч кр1
Ч кр2

Подсчитанное Ч эмп по какому либо статистическому методу должно обязательно попасть в одну из трех зон.

Если эмпирическое значение попадает в зону незначимости, то принимается гипотеза Н 0 об отсутствии различий.

Если Ч эмп попало в зону значимости, принимается альтернативная гипотеза Н 1 она-личии различий, а гипотеза Н 0 отклоняется.

Если Ч эмп попадает в зону неопределенности, перед исследователем стоит дилемма . Так, в зависи-мости от важности решаемой задачи он может считать полученную статистическую оценку достоверной на уровне 5%, и принять, тем самым гипотезу Н 1 , отклонив гипотезу Н 0 , либо — недостоверной на уровне 1%, приняв тем самым, гипотезу Н 0 . Подчеркнем, одна-ко, что это именно тот случай, когда психолог может допустить ошибки первого или второго рода. Как уже говорилось выше, в этих обстоятельствах лучше всего увеличить объем выборки.

Подчеркнем также, что величина Ч эмп может точно совпасть либо с Ч кр1 либо Ч кр2 . В первом случае можно считать, что оценка достоверна точно на уровне в 5% и принять гипотезу Н 1 , или, напротив, принять гипотезу Н 0 . Во втором случае, как пра-вило, принимается альтернативная гипотеза Н 1 о наличии разли-чий, а гипотеза Н 0 отклоняется.

Определите ожидаемые в вашем эксперименте результаты. Обычно когда ученые проводят эксперимент, у них уже есть идея того, какие результаты считать «нормальными» или «типичными». Это может быть основано на экспериментальных результатах прошлых опытов, на достоверных наборах данных, на данных из научной литературы, либо ученый может основываться на каких-либо других источниках. Для вашего эксперимента определите ожидаемые результаты и выразите их в виде чисел.

  • Пример: допустим, более ранние исследования показали, что в вашей стране владельцы красных машин чаще получают штрафы за превышение скорости, чем владельцы синих. Например, средние результаты показывают предпочтение 2:1 красных машин перед синими. Наша задача - определить, относится ли полиция точно так же предвзято к цвету машин в вашем городе. Для этого мы будем анализировать штрафы, выданные за превышение скорости. Если мы возьмем случайный набор из 150 штрафов за превышение скорости, выданных либо владельцам красных, либо синих автомобилей, мы ожидаем, что 100 штрафов будет выписано владельцам красных автомобилей, а 50 - владельцам синих, если полиция в нашем городе так же предвзято относится к цвету машин, как это наблюдается по всей стране .

Определите наблюдаемые результаты вашего эксперимента. Теперь, когда вы определили ожидаемые результаты, необходимо провести эксперимент и найти действительные (или «наблюдаемые») значения. Вам снова необходимо представить эти результаты в виде чисел. Если мы создаем экспериментальные условия, и наблюдаемые результаты отличаются от ожидаемых, то у нас есть две возможности - либо это произошло случайно, либо это вызвано именно нашим экспериментом . Цель нахождения p-значения как раз и состоит в том, чтобы определить, отличаются ли наблюдаемые результаты от ожидаемых настолько, чтобы можно было не отвергать «нулевую гипотезу» - гипотезу о том, что между экспериментальными переменными и наблюдаемыми результатами нет никакой связи.

  • Пример: допустим, в нашем городе мы случайно выбрали 150 штрафов за превышение скорости, которые были выданы либо владельцам красных, либо владельцам синих автомобилей. Мы определили, что 90 штрафов были выписаны владельцам красных автомобилей, и 60 - владельцам синих. Это отличается от ожидаемых результатов, которые равны 100 и 50, соответственно. Действительно ли наш эксперимент (в данном случае изменение источника данных с государственного уровня на городской) привел к данному изменению в результатах, или наша городская полиция относится к автомобилистам предвзято точно так же , как и в среднем по стране, а мы видим просто случайное отклонение? P-значение поможет нам это определить.
  • Определите число степеней свободы вашего эксперимента. Число степеней свободы - это степень изменяемости вашего эксперимента, которая определяется числом категорий, которые вы исследуете. Уравнение для числа степеней свободы - Число степеней свободы = n-1 , где «n» - число категорий или переменных, которые вы анализируете в своем эксперименте.

    • Пример: в нашем эксперименте две категории результатов: одна категория для владельцев красных машин и другая - для владельцев синих машин. Поэтому в нашем эксперименте у нас 2-1 = 1 степень свободы . Если бы мы сравнивали красные, синие и зеленые машины, у нас было бы 2 степени свободы и так далее.
  • Сравните ожидаемые и наблюдаемые результаты с помощью критерия хи-квадрат . Хи-квадрат (пишется «x 2 ») - это числовое значение, которое измеряет разницу между ожидаемыми и наблюдаемыми значениями эксперимента. Уравнение для хи-квадрата следующее: x 2 = Σ((o-e) 2 /e) , где «o» - это наблюдаемое значение, а «e» - это ожидаемое значение. Суммируйте результаты данного уравнения для всех возможных результатов (смотри ниже).

    • Заметьте, что данное уравнение включает оператор суммирования Σ (сигма). Другими словами, вам необходимо подсчитать ((|o-e|-.05) 2 /e) для каждого возможного результата и сложить полученные числа, чтобы получить значение критерия хи-квадрат. В нашем примере у нас два возможных результата - либо машина, получившая штраф красная, либо синяя. Поэтому мы должны посчитать ((o-e) 2 /e) дважды - один раз для красных машин и один раз для синих машин.
    • Пример: давайте подставим наши ожидаемые и наблюдаемые значения в уравнение x 2 = Σ((o-e) 2 /e). Помните, что из-за оператора суммирования нам необходимо посчитать ((o-e) 2 /e) дважды - один раз для красных автомобилей и один раз - для синих. Мы выполним эту работу следующим образом:
      • x 2 = ((90-100) 2 /100) + (60-50) 2 /50)
      • x 2 = ((-10) 2 /100) + (10) 2 /50)
      • x 2 = (100/100) + (100/50) = 1 + 2 = 3 .
  • Выберите уровень значимости . Теперь, когда мы знаем число степеней свободы нашего эксперимента и узнали значение критерия хи-квадрат, нам нужно сделать еще одну вещь перед тем, как мы найдем наше p-значение. Нам нужно определить уровень значимости. Говоря простым языком, уровень значимости показывает, насколько мы уверены в наших результатах. Низкое значение для значимости соответствует низкой вероятности того, что экспериментальные результаты вышли случайными и наоборот. Уровни значимости записываются в виде десятичных дробей (таких как 0,01), что соответствует вероятности того, что экспериментальные результаты мы получили случайно (в данном случае вероятность этого 1 %).

  • Используйте таблицу с данными распределения хи-квадрат, чтобы найти p-значение. Ученые и статисты используют большие таблицы для вычисления p-значения своих экспериментов. Данные таблицы обычно имеют вертикальную ось слева, соответствующую числу степеней свободы, и горизонтальную ось сверху, соответствующую p-значению. Используйте данные таблицы, чтобы сначала найти число ваших степеней свободы, затем посмотрите на ваш ряд слева направо, пока не найдете первое значение, большее вашего значения хи-квадрат. Посмотрите на соответствующее p-значение вверху вашего столбца. Нужное вам p-значение находится между этим числом и следующим за ним (тем, которое находится левее вашего).

    • Таблицы с распределением хи-квадрат можно получить из множества источников - их можно просто найти онлайн, либо посмотреть в научных книгах или книгах по статистике. Если у вас нет под рукой таких книг, используйте картинку выше или какую-нибудь таблицу онлайн, которую можно просматривать бесплатно, например на сайте medcalc.org. Она расположена .
    • Пример: наше значение критерия хи-квадрат было равно 3. Поэтому давайте используем таблицу распределения хи-квадрат на изображении выше, чтобы найти приблизительное p-значение. Так как мы знаем, что в нашем эксперименте всего 1 степень свободы, выберем самую первую строку. Идем слева направо по данной строке, пока не встретим значение, большее 3 , нашего значения критерия хи-квадрат. Первое, которое мы находим, это 3,84. Смотрим вверх нашего столбца и видим, что соответствующее p-значение равно 0,05. Это означает, что наше p-значение между 0,05 и 0,1 (следующее p-значение в таблице по возрастанию).
  • Решите, отклонить или оставить нулевую гипотезу. Так как вы определили приблизительное p-значение для вашего эксперимента, вам необходимо решить, отклонять ли нулевую гипотезу вашего эксперимента или нет (напоминаем, это гипотеза о том, что экспериментальные переменные, которыми вы манипулировали не повлияли на наблюдаемые вами результаты). Если p-значение меньше, чем уровень значимости - поздравляем, вы доказали, что очень вероятна связь между переменными, которыми вы манипулировали, и результатами, которые вы наблюдали. Если p-значение выше, чем уровень значимости, нельзя с уверенностью сказать, были ли наблюдаемые вами результаты результатом чистой случайности или манипуляцией данными переменными.

    • Пример: наше p-значение находится между 0,05 и 0,1. Это явно не меньше, чем 0,05, поэтому, к сожалению, мы не можем отклонить нашу нулевую гипотезу . Это означает, что мы не достигли минимум 95 % вероятности того, чтобы сказать, что полиция в нашем городе выдает штрафы владельцам красных и синих автомобилей с такой вероятностью, которая достаточно сильно отличается от средней по стране.
    • Другими словами, существует 5–10 % шанс, что наблюдаемые нами результаты - это не последствия смены места (анализа города, а не всей страны), а просто случайность. Так как заявленная нами точность не должна превышать 5 %, мы не можем сказать с уверенностью , что полиция нашего города менее предвзято относится к владельцам красных автомобилей - существует небольшая (но статистически значимая) вероятность, что это не так.
  • Проверка гипотез проводится с помощью статистического анализа. Статистическую значимость находят с помощью Р-значения, которое соответствует вероятности данного события при предположении, что некоторое утверждение (нулевая гипотеза) истинно. Если Р-значение меньше заданного уровня статистической значимости (обычно это 0,05), экспериментатор может смело заключить, что нулевая гипотеза неверна, и перейти к рассмотрению альтернативной гипотезы. С помощью t-критерия Стьюдента можно вычислить Р-значение и определить значимость для двух наборов данных.

    Шаги

    Часть 1

    Постановка эксперимента

      Определите свою гипотезу. Первый шаг при оценке статистической значимости состоит в том, чтобы выбрать вопрос, ответ на который вы хотите получить, и сформулировать гипотезу. Гипотеза - это утверждение об экспериментальных данных, их распределении и свойствах. Для любого эксперимента существует как нулевая, так и альтернативная гипотеза. Вообще говоря, вам придется сравнивать два набора данных, чтобы определить, схожи они или различны.

      • Нулевая гипотеза (H 0) обычно утверждает, что между двумя наборами данных нет разницы. Например: те ученики, которые читают материал перед занятиями, не получают более высокие оценки.
      • Альтернативная гипотеза (H a) противоположна нулевой гипотезе и представляет собой утверждение, которое нужно подтвердить с помощью экспериментальных данных. Например: те ученики, которые читают материал перед занятиями, получают более высокие оценки.
    1. Установите уровень значимости, чтобы определить, насколько распределение данных должно отличаться от обычного, чтобы это можно было считать значимым результатом. Уровень значимости (его называют также α {\displaystyle \alpha } -уровнем) - это порог, который вы определяете для статистической значимости. Если Р-значение меньше уровня значимости или равно ему, данные считаются статистически значимыми.

      Решите, какой критерий вы будете использовать: односторонний или двусторонний. Одно из предположений в t-критерии Стьюдента гласит, что данные распределены нормальным образом. Нормальное распределение представляет собой колоколообразную кривую с максимальным количеством результатов посередине кривой. t-критерий Стьюдента - это математический метод проверки данных, который позволяет установить, выпадают ли данные за пределы нормального распределения (больше, меньше, либо в “хвостах” кривой).

      • Если вы не уверены, находятся ли данные выше или ниже контрольной группы значений, используйте двусторонний критерий. Это позволит вам определить значимость в обоих направлениях.
      • Если вы знаете, в каком направлении данные могут выйти за пределы нормального распределения, используйте односторонний критерий. В приведенном выше примере мы ожидаем, что оценки студентов повысятся, поэтому можно использовать односторонний критерий.
    2. Определите объем выборки с помощью статистической мощности. Статистическая мощность исследования - это вероятность того, что при данном объеме выборки получится ожидаемый результат. Распространенный порог мощности (или β) составляет 80%. Анализ статистической мощности без каких-либо предварительных данных может представлять определенные сложности, поскольку требуется некоторая информация об ожидаемых средних значениях в каждой группе данных и об их стандартных отклонениях. Используйте для анализа статистической мощности онлайн-калькулятор, чтобы определить оптимальный объем выборки для ваших данных.

      • Обычно ученые проводят небольшое пробное исследование, которое позволяет получить данные для анализа статистической мощности и определить объем выборки, необходимый для более расширенного и полного исследования.
      • Если у вас нет возможности провести пробное исследование, постарайтесь на основании литературных данных и результатов других людей оценить возможные средние значения. Возможно, это поможет вам определить оптимальный объем выборки.

      Часть 2

      Вычислите стандартное отклонение
      1. Запишите формулу для стандартного отклонения. Стандартное отклонение показывает, насколько велик разброс данных. Оно позволяет заключить, насколько близки данные, полученные на определенной выборке. На первый взгляд формула кажется довольно сложной, но приведенные ниже объяснения помогут понять ее. Формула имеет следующий вид: s = √∑((x i – µ) 2 /(N – 1)).

        • s - стандартное отклонение;
        • знак ∑ указывает на то, что следует сложить все полученные на выборке данные;
        • x i соответствует i-му значению, то есть отдельному полученному результату;
        • µ - это среднее значение для данной группы;
        • N - общее число данных в выборке.
      2. Найдите среднее значение в каждой группе. Чтобы вычислить стандартное отклонение, необходимо сначала найти среднее значение для каждой исследуемой группы. Среднее значение обозначается греческой буквой µ (мю). Чтобы найти среднее, просто сложите все полученные значения и поделите их на количество данных (объем выборки).

        • Например, чтобы найти среднюю оценку в группе тех учеников, которые изучают материал перед занятиями, рассмотрим небольшой набор данных. Для простоты используем набор из пяти точек: 90, 91, 85, 83 и 94.
        • Сложим вместе все значения: 90 + 91 + 85 + 83 + 94 = 443.
        • Поделим сумму на число значений, N = 5: 443/5 = 88,6.
        • Таким образом, среднее значение для данной группы составляет 88,6.
      3. Вычтите из среднего каждое полученное значение. Следующий шаг заключается в вычислении разницы (x i – µ). Для этого следует вычесть из найденной средней величины каждое полученное значение. В нашем примере необходимо найти пять разностей:

        • (90 – 88,6), (91- 88,6), (85 – 88,6), (83 – 88,6) и (94 – 88,6).
        • В результате получаем следующие значения: 1,4, 2,4, -3,6, -5,6 и 5,4.
      4. Возведите в квадрат каждую полученную величину и сложите их вместе. Каждую из только что найденных величин следует возвести в квадрат. На этом шаге исчезнут все отрицательные значения. Если после данного шага у вас останутся отрицательные числа, значит, вы забыли возвести их в квадрат.

        • Для нашего примера получаем 1,96, 5,76, 12,96, 31,36 и 29,16.
        • Складываем полученные значения: 1,96 + 5,76 + 12,96 + 31,36 + 29,16 = 81,2.
      5. Поделите на объем выборки минус 1. В формуле сумма делится на N – 1 из-за того, что мы не учитываем генеральную совокупность, а берем для оценки выборку из числа всех студентов.

        • Вычитаем: N – 1 = 5 – 1 = 4
        • Делим: 81,2/4 = 20,3
      6. Извлеките квадратный корень. После того как вы поделите сумму на объем выборки минус один, извлеките из найденного значения квадратный корень. Это последний шаг в вычислении стандартного отклонения. Есть статистические программы, которые после введения начальных данных производят все необходимые вычисления.

        • В нашем примере стандартное отклонение оценок тех учеников, которые читают материал перед занятиями, составляет s =√20,3 = 4,51.

      Часть 3

      Определите значимость
      1. Рассчитайте дисперсию между двумя группами данных. До этого шага мы рассматривали пример лишь для одной группы данных. Если вы хотите сравнить две группы, очевидно, следует взять данные для обеих групп. Вычислите стандартное отклонение для второй группы данных, а затем найдите дисперсию между двумя экспериментальными группами. Дисперсия вычисляется по следующей формуле: s d = √((s 1 /N 1) + (s 2 /N 2)).