Определение значимости результатов между собой. Статистическая значимость: определение, понятие, значимость, уравнения регрессии и проверка гипотез

Давайте рассмотрим некоторые тонкости практического использования линии тренда. Прежде всего надо выяснить, что определяет значимость этой линии. Ответ на этот вопрос двоякий: с одной стороны, значимость линии тренда зависит от срока ее действия, с другой стороны - от того, сколько раз она была проверена. Если, допустим, линия тренда выдержала восемь проверок, каждая из которых подтвердила ее истинность, то, без сомнения, она более значима, чем линия, которой цены касались всего три раза. Кроме того, линия, которая доказывала свою эффективность на протяжении девяти месяцев, намного важнее, чем та, что просуществовала девять недель или дней. Чем выше значимость линии тренда, тем больше ей можно доверять и тем большее значение будет иметь ее прорыв.

Линии тренда должны включать в себя весь диапазон цен дня

Линии тренда на столбиковых графиках должны вычерчиваться под или над столбиками, обозначающими весь диапазон колебаний цен за день. Некоторые специалисты предпочитают строить линии тренда, соединяя между собой лишь цены закрытия, но этот подход не вполне адекватен. Разумеется, цена закрытия является важнейшим ценовым значением за весь день, но, тем не менее, она представляет собой лишь частный случай динамики цен в рамках целого дня торгов. Поэтому при построении линии тренда принято учитывать весь диапазон колебаний цен за день (см. рис. 4.8).

Рис. 4.8 Правильно вычерченная линия тренда должна включать в себя весь диапазон колебаний цен за день торгов.

Что делать с незначительными прорывами линии тренда?

Иногда в течение дня цены прорывают линию тренда, но на момент закрытия все вновь возвращается на круги своя. Вот и приходится аналитику ломать голову: а был ли прорыв? (см. рис. 4.9). Нужно ли вычерчивать новую линию тренда, учитывающую новые данные, если небольшое нарушение линии тренда носило явно временный или случайный характер? На рисунке 4.9 изображена именно такая ситуация. В течение дня цены "нырнули" ниже восходящей линии тренда, но на момент закрытия вновь оказались выше нее. Надо ли в этом случае заново вычерчивать линию тренда?

К сожалению, тут вряд ли возможно дать какой-либо однозначный совет на все случаи жизни. Иногда таким прорывом можно пренебречь, особенно если последующее движение рынка подтверждает истинность первоначальной линии тренда. В некоторых случаях нужен компромисс, когда аналитик в дополнение к первоначальной вычерчивает новую, пробную линию тренда, которая наносится на график пунктиром (см. рис. 4.9). В этом случае в распоряжении аналитика находятся сразу две линии: исходная (сплошная) и новая (пунктирная). Как правило, практика показывает, что если прорыв линии тренда был сравнительно небольшим и происходил лишь в рамках одного дня, а на момент закрытия цены выровнялись и вновь достигли отметки над линией тренда, то аналитик может пренебречь этим прорывом и продолжать пользоваться исходной линией тренда. Как и во многих других областях анализа рынка, тут вернее всего полагаться на опыт и чутье. В подобных спорных вопросах они - ваши лучшие советчики.

Рис. 4.9 Иногда прорыв линии тренда в пределах одного дня ставит аналитика перед дилеммой: сохранять ли исходную линию тренда, если она по-прежнему верна, или вычерчивать новую? Возможен компромисс, при котором исходная линия тренда сохраняется, но на график пунктиром наносится новая линия. Время покажет, какая из них верней.

Определение показателей значимости через градиент

Нейронная сеть двойственного функционирования может вычислять градиент функции оценки по входным сигналам и обучаемым параметрам сети.

Показателем значимости параметра при решении q- о примера будем называть величину, которая показывает насколько изменится значение функции оценки решения сетью q- о примера если текущее значение параметра w p заменить на выделенное значение w p . Точно эту величину можно определить произведя замену и вычислив оценку сети. Однако учитывая большое число параметров сети вычисление показателей значимости для всех параметров будет занимать много времени. Для ускорения процедуры оценки параметров значимости вместо точных значений используют различные оценки . Рассмотрим простейшую и наиболее используемую линейную оценку показателей значимости. Разложим функцию оценки в ряд Тейлора с точностью до членов первого порядка:

где H 0 q - значение функции оценки решения q- о примера при w =w. Таким образом показатель значимости p- о параметра при решении q- о примера определяется по следующей формуле:

Показатель значимости (1) может вычисляться для различных объектов. Наиболее часто его вычисляют для обучаемых параметров сети. Однако показатель значимости вида (1) применим и для сигналов. Как уже отмечалось в главе сеть при обратном функционировании всегда вычисляет два вектора градиента - градиент функции оценки по обучаемым параметрам сети и по всем сигналам сети. Если показатель значимости вычисляется для выявления наименее значимого нейрона, то следует вычислять показатель значимости выходного сигнала нейрона. Аналогично, в задаче определения наименее значимого входного сигнала нужно вычислять значимость этого сигнала, а не сумму значимостей весов связей, на которые этот сигнал подается.

Усреднение по обучающему множеству

Показатель значимости параметра X q p зависит от точки в пространстве параметров, в которой он вычислен и от примера из обучающего множества. Существует два принципиально разных подхода для получения показателя значимости параметра, не зависящего от примера. При первом подходе считается, что в обучающей выборке заключена полная информация о всех возможных примерах. В этом случае, под показателем значимости понимают величину, которая показывает насколько изменится значение функции оценки по обучающему множеству, если текущее значение параметра w p заменить на выделенное значение w p . Эта величина вычисляется по следующей формуле:

В рамках другого подхода обучающее множество рассматривают как случайную выборку в пространстве входных параметров. В этом случае показателем значимости по всему обучающему множеству будет служить результат некоторого усреднения по обучающей выборке.

Существует множество способов усреднения. Рассмотрим два из них. Если в результате усреднения показатель значимости должен давать среднюю значимость, то такой показатель вычисляется по следующей формуле:

Если в результате усреднения показатель значимости должен давать величину, которую не превосходят показатели значимости по отдельным примерам (значимость этого параметра по отдельному примеру не больше чем О§ p), то такой показатель вычисляется по следующей формуле:

Накопление показателей значимости

Все показатели значимости зависят от точки в пространстве параметров сети, в которой они вычислены, и могут сильно изменяться при переходе от одной точки к другой. Для показателей значимости, вычисленных с использованием градиента эта зависимость еще сильнее, поскольку при обучении по методу наискорейшего спуска (см. раздел ) в двух соседних точках пространства параметров, в которых вычислялся градиент, градиенты ортогональны. Для снятия зависимости от точки пространства используются показатели значимости, вычисленные в нескольких точках. Далее они усредняются по формулам аналогичным (3) и (4). Вопрос о выборе точек в пространстве параметров в которых вычислять показатели значимости обычно решается просто. В ходе нескольких шагов обучения по любому из градиентных методов при каждом вычислении градиента вычисляются и показатели значимости. Число шагов обучения, в ходе которых накапливаются показатели значимости, должно быть не слишком большим, поскольку при большом числе шагов обучения первые вычисленные показатели значимости теряют смысл, особенно при использовании усреднения по формуле (4).

Из анализа литературы и опыта работы группы НейроКомп можно сформулировать следующие задачи, решаемые с помощью контрастирования нейронных сетей.

1. Упрощение архитектуры нейронной сети.

2. Уменьшение числа входных сигналов.

3. Сведение параметров нейронной сети к небольшому набору выделенных значений.

4. Снижение требований к точности входных сигналов.

5. Получение явных знаний из данных.

Алгоритмы контрастирования, рассматриваемые в данной главе, позволяют выделить минимально необходимое множество входных сигналов. Использование минимального набора входных сигналов позволяет более экономично организовать работу нейркомпьютера. Однако у минимального множества есть свои недостатки. Поскольку множество минимально, то информация, несомая одним из сигналов, как правило не подкрепляется другими входными сигналами. Это приводит к тому, что при ошибке в одном входном сигнале сеть ошибается с большой степенью вероятности. При избыточном наборе входных сигналов этого как правило не происходит, поскольку информация каждого сигнала подкрепляется (дублируется) другими сигналами.

Таким образом возникает противоречие - использование исходного избыточного множества сигналов неэкономично, а использование минимального набора сигналов приводит к повышению риска ошибок. В этой ситуации правильным является компромиссное решение - необходимо найти такое минимальное множество, в котором вся информация дублируется. В данном разделе рассматриваются методы построения таких множеств, повышенной надежности. Кроме того, построение дублей второго рода позволяет установить какие из входных сигналов не имеют дублей в исходном множестве сигналов. Попадание такого «уникального» сигнала в минимальное множество является сигналом о том, что при использовании нейронной сети для решения данной задачи следует внимательно следить за правильностью значения этого сигнала.

Существует два типа процедуры контрастирования - контрастирование по значимости параметров и не ухудшающее контрастирование. В данном разделе описаны оба типа процедуры контрастирования.

В данном разделе описан способ определения показателей значимости параметров и сигналов. Далее будем говорить об определении значимости параметров. Показатели значимости сигналов сети определяются по тем же формулам с заменой параметров на сигналы.

Статистика давно уже стала неотъемлемой частью жизни. С ней люди сталкиваются всюду. На основе статистики делаются выводы о том, где и какие заболевания распространены, что более востребовано в конкретном регионе или среди определенного слоя населения. На основываются даже построения политических программ кандидатов в органы власти. Ими же пользуются и торговые сети при закупке товаров, а производители руководствуются этими данными в своих предложениях.

Статистика играет важную роль в жизни общества и влияет на каждого его отдельного члена даже в мелочах. Например, если по , большинство людей предпочитают темные цвета в одежде в конкретном городе или регионе, то найти яркий желтый плащ с цветочным принтом в местных торговых точках будет крайне затруднительно. Но из каких величин складываются эти данные, оказывающие такое влияние? К примеру, что представляет собой «статистическая значимость»? Что именно понимается под этим определением?

Что это?

Статистика как наука складывается из сочетания разных величин и понятий. Одним из них и является понятие «статистическая значимость». Так называется значение переменных величин, вероятность появления других показателей в которых ничтожно мала.

К примеру, 9 из 10 человек надевают на ноги резиновую обувь во время утренней прогулки за грибами в осенний лес после дождливой ночи. Вероятность того что в какой-то момент 8 из них обуются в парусиновые мокасины - ничтожно мала. Таким образом, в данном конкретном примере число 9 является величиной, которая и называется «статистическая значимость».

Соответственно, если развивать далее приведенный практический пример, обувные магазины закупают к концу летнего сезона резиновые сапожки в большом количестве, чем в другое время года. Так, величина статистического значения оказывает влияние на обычную жизнь.

Разумеется, в сложных подсчетах, допустим, при прогнозе распространения вирусов, учитывается большое число переменных. Но сама суть определения значимого показателя статистических данных - аналогична, вне зависимости от сложности подсчетов и количества непостоянных величин.

Как вычисляют?

Используются при вычислении значения показателя «статистическая значимость» уравнения. То есть можно утверждать, что в этом случае все решает математика. Самым простым вариантом вычисления является цепь математических действий, в которой участвуют следующие параметры:

  • два типа результатов, полученных при опросах или изучении объективных данных, к примеру, сумм на которые совершаются покупки, обозначаемые а и b;
  • показатель для обеих групп - n;
  • значение доли объединенной выборки - p;
  • понятие «стандартная ошибка» - SE.

Следующим этапом определяется общий тестовый показатель - t, его значение сравнивается с числом 1,96. 1,96 - это усредненное значение, передающее диапазон в 95 %, согласно функции t-распределения Стьюдента.

Часто возникает вопрос о том, в чем отличие значений n и p. Этот нюанс просто прояснить при помощи примера. Допустим, вычисляется статистическая значимость лояльности к какому-либо товару или бренду мужчин и женщин.

В этом случае за буквенными обозначениями будет стоять следующее:

  • n - число опрошенных;
  • p - число довольных продуктом.

Численность опрошенных женщин в этом случае будет обозначено, как n1. Соответственно, мужчин - n2. То же значение будут иметь цифры «1» и «2» у символа p.

Сравнение тестового показателя с усредненными значениями расчетных таблиц Стьюдента и становится тем, что называется «статистическая значимость».

Что понимается под проверкой?

Результаты любого математического вычисления всегда можно проверить, этому учат детей еще в начальных классах. Логично предположить, что раз статистические показатели определяются при помощи цепи вычислений, то и проверяются.

Однако проверка статистической значимости - не только математика. Статистика имеет дело с большим количеством переменных величин и различных вероятностей, далеко не всегда поддающихся расчету. То есть если вернутся к приведенному в начале статьи примеру с резиновой обувью, то логичное построение статистических данных, на которые станут опираться закупщики товаров для магазинов, может быть нарушено сухой и жаркой погодой, которая не типична для осени. В результате этого явления число людей, приобретающих резиновые сапоги, снизится, а торговые точки потерпят убытки. Предусмотреть погодную аномалию математическая формула, разумеется, не в состоянии. Этот момент называется - «ошибка».

Вот как раз вероятность таких ошибок и учитывает проверка уровня вычисленной значимости. В ней учитываются как вычисленные показатели, так и принятые уровни значимости, а также величины, условно называемые гипотезами.

Что такое уровень значимости?

Понятие «уровень» входит в основные критерии статистической значимости. Используется оно в прикладной и практической статистике. Это своего рода величина, учитывающая вероятность возможных отклонений или ошибок.

Уровень основывается на выявлении различий в готовых выборках, позволяет установить их существенность либо же, наоборот, случайность. У этого понятия есть не только цифровые значения, но и их своеобразные расшифровки. Они объясняют то, как нужно понимать значение, а сам уровень определяется сравнением результата с усредненным индексом, это и выявляет степень достоверности различий.

Таким образом, можно представить понятие уровня просто - это показатель допустимой, вероятной погрешности или же ошибки в сделанных из полученных статистических данных выводах.

Какие уровни значимости используются?

Статистическая значимость коэффициентов вероятности допущенной ошибки на практике отталкивается от трех базовых уровней.

Первым уровнем считается порог, при котором значение равно 5 %. То есть вероятность погрешности не превышает уровня значимости в 5 %. Это означает, что уверенность в безупречности и безошибочности выводов, сделанных на основе данных статистических исследований, составляет 95 %.

Вторым уровнем является порог в 1 %. Соответственно, эта цифра означает, что руководствоваться полученными при статистических расчетах данными можно с уверенностью в 99 %.

Третий уровень - 0,1 %. При таком значении вероятность наличия ошибки равна доле процента, то есть погрешности практически исключаются.

Что такое гипотеза в статистике?

Ошибки как понятие разделяются по двум направлениям, касающимся принятия или же отклонения нулевой гипотезы. Гипотеза - это понятие, за которым скрывается, согласно определению, набор иных данных или же утверждений. То есть описание вероятностного распределения чего-либо, относящегося к предмету статистического учета.

Гипотез при простых расчетах бывает две - нулевая и альтернативная. Разница между ними в том, что нулевая гипотеза берет за основу представление об отсутствии принципиальных отличий между участвующими в определении статистической значимости выборками, а альтернативная ей полностью противоположна. То есть альтернативная гипотеза основана на наличии весомой разницы в данных выборок.

Какими бывают ошибки?

Ошибки как понятие в статистике находятся в прямой зависимости от принятия за истинную той или иной гипотезы. Их можно разделить на два направления или же типа:

  • первый тип обусловлен принятием нулевой гипотезы, оказавшейся неверной;
  • второй - вызван следованием альтернативной.

Первый тип ошибок называется ложноположительным и встречается достаточно часто во всех сферах, где используются статистические данные. Соответственно, ошибка второго типа называется ложноотрицательной.

Для чего нужна регрессия в статистике?

Статистическая значимость регрессии в том, что с ее помощью можно установить, насколько соответствует реальности вычисленная на основе данных модель различных зависимостей; позволяет выявить достаточность или же нехватку факторов для учета и выводов.

Определяется регрессивное значение с помощью сравнения результатов с перечисленными в таблицах Фишера данными. Или же при помощи дисперсионного анализа. Важное значение показатели регрессии имеют при сложных статистических исследованиях и расчетах, в которых участвует большое количество переменных величин, случайных данных и вероятных изменений.

В каких случаях вы принимаете научное открытие всерьез? Когда оно «значимо»?

Паранормальные события по определению являются экстраординарными и выходят за рамки мира обычной науки. Если вы делаете ошибочный вывод о том, что результат не случаен, а имеет конкретную причину, то это ошибка I рода. (Ошибочный вывод в том, что реальный неслучайный эффект - всего лишь результат случайности, называется ошибкой II рода.) Говоря проще, ошибка 1 рода - это когда вы считаете, что «происходит что-то необычное», тогда как на самом деле все идет своим чередом. В данном тексте мы рассмотрим процедуру сверки с реальностью, призванную выявлять ошибки I рода.

Пусть ученый проводит эксперимент с целью определить, стоит ли за неким явлением - скажем, необычайной способно стью выигрывать в лотерею, читать мысли или предсказывать результаты выборов - какая-то конкретная причина или это чистая случайность. Пусть далее наш ученый получит подряд несколько позитивных результатов. В конце концов игрок в покер может иногда получить удачные карты, в этом нет ничего таинственного. Да и в лотерею люди иногда выигрывают.

К счастью, существуют статистические процедуры для оценки вероятности ошибки I рода. К примеру, мы считаем, что выигрыши в лотерее распределяются совершенно случайно и честно, так что выигрыш каждого человека зависит исключительно от удачи. При этом некоторым людям все же выпадают выигрыши. Если выигрышей больше, чем можно было ожидать, мы можем заподозрить, что лотерея работает не совсем случайно. Возможно, кто-нибудь жульничает или здесь работают паранормальные силы. Чтобы разобраться в происходящем, статистики вычисляют, сколько выигрышных билетиков должно быть предъявлено, чтобы мы сделали вывод о том, что происходит нечто странное. Может быть, по законам случайности на один миллион участников должно приходиться 10, 100 или даже 1000 выигрышей. Любое число, превышающее 10, 100 или 1000, вызовет подозрения. Но как выбрать допустимое число выигрышей? Все зависит от того, чем вы готовы рискнуть. Насколько вы боитесь совершить ошибку I рода.

«Уровень риска» совершения ошибки I рода называется a-уровнем. Традиционно многие ученые ориентируются на а-уровень 5 % (0,05), но иногда используются и другие уровни (1 % (0,01) и 0,1 % (0,001)). Так, а-уровень 5 % означает, что лотерея становится по-настоящему подозрительной. Если же уровень уверенности не превышает 5 %, т. е. вероятность ошибки не превышает 1/20. Иногда уровень вероятности для краткости называют p-величиной. В научных докладах можно часто встретить следующие утверждения (не забывайте, что при этом р лучше, т. е. меньше, 0,05, и, соответственно, результаты эксперимента значимы):



Мы сравнили уровень успешности предсказания пятидесяти экстрасенсов и пятидесяти людей без заявленных паранормальных способностей. Предсказания экстрасенсов оправдывались в 45 % случаев, предсказания обычных людей - в 41 % случаев.

Предсказания экстрасенсов были точны значительно чаще, чем предсказания обычных людей (р = 0,02). Вывод: результаты эксперимента свидетельствуют о том, что экстрасенсы могут предсказывать будущее.

Если эксперимент не подтвердил точности предсказаний экстрасенсов, отчет может выглядеть примерно так:

Мы сравнили уровень успешности предсказания пятидесяти экстрасенсов и пятидесяти людей без заявленных паранормальных способностей. Предсказания экстрасенсов оправдывались в 44 % случаев, предсказания обычных людей - в 43 % случаев. Превышение успешности предсказаний экстрасенсов по отношению к предсказаниям обычных людей не было статистически значимым (р = 0,12). Вывод: результаты эксперимента не подтверждают вывод о том, что экстрасенсы могут предсказывать будущее.

Обратите внимание: ученые говорят о «статистической значимости» явления, если полученная в ходе эксперимента «-величина не превышает принятого в эксперименте уровня значимости (a-уровня)». Утверждение «Этот результат является статистически значимым, р = 0,02» можно перевести примерно так: «Мы уверены, что этот результат - не просто удача или случайность. Наша статистика показывает, что вероятность ошибки составляет всего 2 шанса из 100, а это лучше, чем уровень 5/100, принятый большинством ученых».

Способ, при помощи которого вычисляется а-уровень для статистических данных, останется за пределами этой книги. Однако заметим, что эта задача может оказаться весьма сложной. К примеру, многократное повторение одного и того же эксперимента может создавать совершенно особую проблему, о которой иногда забывают исследователи паранормального. Любой эксперимент сам по себе напоминает бросание монетки. Со временем при многократном повторении вы можете по чистой случайности получить желаемый результат. В гипотетическом исследовании предсказаний экстрасенсов и обычных людей, о котором мы говорили выше, некоторые участники (как экстрасенсы, так и неэкстрасенсы), вполне воз можно, сделали удачное предсказание случайно. Мы уже объяснили, что статистики умеют оценивать уровень вероятности и учитывать его при обработке результатов. Точно так же, если повторить этот эксперимент сотни раз, исследуя каждый раз по 50 экстрасенсов и неэкстрасенсов, в некоторых случаях доля успешных предсказаний у экстрасенсов обязательно окажется выше - по чистой случайности. Минимум, что вы должны сделать, - это изменить a-уровень так, чтобы учесть возросший риск ложноположительного решения.



Исследователи, которые многократно повторяют один и тот же эксперимент (или учитывают большое количество параметров водном эксперименте), вынуждены принимать дополнительные меры, чтобы исключить ложноположительное решение. Некоторые из них пользуются тестом, придуманным Карло Эмилио Бонферрони (Bonferroni, 1935), и делят а-уровень (0,05 или 0,01) на число экспериментов (или параметров), чтобы скомпенсировать тем самым возросшую вероятность ошибочного результата. Новый a-уровень отражает более жесткие критерии, при помощи которых придется в этом случае оценивать достоверность проведенного исследования. Ведь, если провести аналогию с бросанием костей, вы увеличиваете вероятность выигрыша за счет большого количества бросков. К примеру, если вы провели 100 экспериментов по экстрасенсорному предсказанию будущего (или один эксперимент, в котором попросили участников предсказать поведение 100 отдельных трупп объектов, таких как спортивные матчи, номера лотерейных билетов, природные события и т. д.), то новый a-уровень у вас будет 0,0005 (0,05/100). Таким образом, если после статистической обработки результатов вашего исследования окажется, что уровень достоверности составляет всего 0,05. В данном случае это будет означать, что значимых результатов вам получить не удалось.

Возможно, вы плохо разбираетесь в статистике и с трудом понимаете, о чем идет речь. Тем не менее Бонферрони снабдил нас очень удобным инструментом оценки, пользоваться которым совсем не трудно. При помощи этого инструмента вы всегда можете понять, не возбуждают ли результаты того или иного исследования ложных надежд. Сосчитайте число экспериментов, о которых идет речь. Или число различных «исходящих» переменных, которые подвергались исследованию. Разделите 0,05 на число экспериментов или переменных и получите новое пороговое значение. Уровень достоверности исследования, о котором идет речь, должен быть не выше этого значения (т. е. меньше или равен ему). Только тогда вы можете быть уверены в значимости полученных результатов. Ниже приведен гипотетический отчет об исследовании зеленого чая. Можете ли вы определить, почему он вводит читателя в заблуждение?

Мы проверили действие зеленого чая на успеваемость. В двойном слепом исследовании с применением плацебо, 20 учащихся получали зеленый чай, а еще 20 - подкрашенную воду, похожую на зеленый чай. Участники эксперимента пили чай каждый день в течение месяца. Мы проверяли 5 переменных: средний балл, экзаменационные оценки, оценки за письменные работы, оценки за работу в классе и посещаемость. За письменные работы те, кто пил зеленый чай, получили в среднем «5», а те, кто пил воду, - в среднем «4». Это значимая разница, р = 0,02. Вывод: зеленый чай повышает успеваемость.

А вот тот же отчет с поправкой на тест Бонферрони:

Мы проверили действие зеленого чая на успеваемость. В двойном слепом исследовании с применением плацебо, 20 учащихся получали зеленый чай, а еще 20 - подкрашенную воду, похожую на зеленый чай. Участники эксперимента пили чай каждый день в течение месяца. Мы проверяли 5 переменных: средний балл, экзаменационные оценки, оценки за письменные работы, оценки за работу в классе и посещаемость. Лучше всего зеленый чай сказался на качестве письменных работ. Здесь те, кто пил зеленый чай, получили в среднем «5», а те, кто пил воду, - в среднем «4». Разница в оценках дает нам р = 0,02. Однако этот результат не удовлетворяет а-уровню с поправкой Бонферрони (0,01). Вывод: зеленый чай не повышает успеваемость.

Статистическая значимость результата (p-значение) представляет собой оцененную меру уверенности в его «истинности» (в смысле «репрезентативности выборки»). Выражаясь более технически, p-значение ‑ это показатель, находящийся в убывающей зависимости от надежности результата. Более высокое p-значение соответствует более низкому уровню доверия к найденной в выборке зависимости между переменными. Именно, p-значение представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю популяцию. Например, p-значение=0.05 (т.е. 1/20) показывает, что имеется 5% вероятность, что найденная в выборке связь между переменными является лишь случайной особенностью данной выборки. Иными словами, если данная зависимость в популяции отсутствует, а вы многократно проводили бы подобные эксперименты, то примерно в одном из двадцати повторений эксперимента можно было бы ожидать такой же или более сильной зависимости между переменными.

Во многих исследованиях p-значение=0.05 рассматривается как «приемлемая граница» уровня ошибки.

Не существует никакого способа избежать произвола при принятии решения о том, какой уровень значимости следует действительно считать «значимым». Выбор определенного уровня значимости, выше которого результаты отвергаются как ложные, является достаточно произвольным. На практике окончательное решение обычно зависит от того, был ли результат предсказан априори (т.е. до проведения опыта) или обнаружен апостериорно в результате многих анализов и сравнений, выполненных с множеством данных, а также на традиции, имеющейся в данной области исследований. Обычно во многих областях результат p 0.05 является приемлемой границей статистической значимости, однако следует помнить, что этот уровень все еще включает довольно большую вероятность ошибки (5%). Результаты, значимые на уровне p 0.01 обычно рассматриваются как статистически значимые, а результаты с уровнем p 0.005 или p 0.001 как высоко значимые. Однако следует понимать, что данная классификация уровней значимости достаточно произвольна и является всего лишь неформальным соглашением, принятым на основе практического опыта в той или иной области исследования.

Как было уже сказано, величина зависимости и надежность представляют две различные характеристики зависимостей между переменными. Тем не менее, нельзя сказать, что они совершенно независимы. Говоря общим языком, чем больше величина зависимости (связи) между переменными в выборке обычного объема, тем более она надежна.

Если предполагать отсутствие зависимости между соответствующими переменными в популяции, то наиболее вероятно ожидать, что в исследуемой выборке связь между этими переменными также будет отсутствовать. Таким образом, чем более сильная зависимость обнаружена в выборке, тем менее вероятно, что этой зависимости нет в популяции, из которой она извлечена.


Объем выборки влияет на значимость зависимости. Если наблюдений мало, то соответственно имеется мало возможных комбинаций значений этих переменных и таким образом, вероятность случайного обнаружения комбинации значений, показывающих сильную зависимость, относительно велика.

Как вычисляется уровень статистической значимости. Предположим, вы уже вычислили меру зависимости между двумя переменными (как объяснялось выше). Следующий вопрос, стоящий перед вами: «насколько значима эта зависимость?» Например, является ли 40% объясненной дисперсии между двумя переменными достаточным, чтобы считать зависимость значимой? Ответ: «в зависимости от обстоятельств». Именно, значимость зависит в основном от объема выборки. Как уже объяснялось, в очень больших выборках даже очень слабые зависимости между переменными будут значимыми, в то время как в малых выборках даже очень сильные зависимости не являются надежными. Таким образом, для того чтобы определить уровень статистической значимости, вам нужна функция, которая представляла бы зависимость между «величиной» и «значимостью» зависимости между переменными для каждого объема выборки. Данная функция указала бы вам точно «насколько вероятно получить зависимость данной величины (или больше) в выборке данного объема, в предположении, что в популяции такой зависимости нет». Другими словами, эта функция давала бы уровень значимости (p-значение), и, следовательно, вероятность ошибочно отклонить предположение об отсутствии данной зависимости в популяции. Эта «альтернативная» гипотеза (состоящая в том, что нет зависимости в популяции) обычно называется нулевой гипотезой. Было бы идеально, если бы функция, вычисляющая вероятность ошибки, была линейной и имела только различные наклоны для разных объемов выборки. К сожалению, эта функция существенно более сложная и не всегда точно одна и та же. Тем не менее, в большинстве случаев ее форма известна, и ее можно использовать для определения уровней значимости при исследовании выборок заданного размера. Большинство этих функций связано с очень важным классом распределений, называемым нормальным.

Похожие публикации