Парадокс Берксона

Парадокс Берксона или ошибка Берксона — положение математической статистики, сформулированное Дж. Берксоном. Формулировка: два независимых события могут становиться условно зависимыми, если произошло некоторое событие. Этот вывод является контр-интуитивным для некоторых людей, и таким образом может быть описан как парадокс. Парадокс Берксона часто описывается в области медицинской статистики или биостатистики. Он является усложняющим фактором, появляющимся в статистических проверках соотношений.

Этот же парадокс упоминается в теории искусственных нейронных сетей как попутное объяснение, эффект оправдания или редукция причины (англ. explaining away).

Формальное определение

если 0 < P(A) < 1 и 0 < P(B) < 1, где A и B — некоторые события, и P(A|B) = P(A) (то есть события независимы), тогда P(A|B,C) < P(A|C) где C = AB (то есть A или B).

Иллюстрация на примере из математической статистики

Будем исследовать статистику случайного выбора почтовых марок из набора, рассматривая два независимых свойства марки: «редкость» и «красоту».

Предположим, что имеется 1000 марок, среди которых 300 красивых, 100 редких, причём 30 и красивы, и редки. Очевидно, из всего набора 10 % марок редки, но и из всех красивых марок тоже 10 % редки, то есть красота марки ничего не говорит о её редкости.

Однако, если выбрать из всего набора (1000) все красивые марки и все редкие марки (таких марок 370), то в этой выборке редких марок будет уже 27 % (100 из 370), но из числа красивых марок редких все равно будет только 10 % (30 из 300). Тогда наблюдатель при анализе такой выборки (а не всего набора) увидит кажущуюся обратную зависимость между красотой и редкостью марки (если марка красивая, то вероятность её редкости ниже). Но на самом деле такой связи нет.

Описанный результат математически полностью корректен, его «парадоксальность» связана с особенностями восприятия людей, которые склонны интуитивно полагать, что если два параметра независимы, то они остаются таковыми в любой выборке. В действительности же в случае предвзятости отбора выборки между независимыми параметрами могут возникать условные зависимости, приводящие, при распространении их на всю генеральную совокупность, к грубым ошибкам анализа.

Иллюстрация на примере из теории нейронных сетей

Пусть дана простейшая Байесовская искусственная нейронная сеть с сигмоидной функцией активации, содержащая два независимых события (причины) того, что возникнет третье событие — дом будет трястись. Смещение −10 у нейрона события землетрясения значит, что в отсутствии наблюдений и априорных знаний это событие в e 10 {displaystyle e^{10}} раз более вероятно не случится, нежели произойдет. Если произошло событие землетрясения, но не произошло событие грузовика, то нейрон события сотрясения дома имеет суммарно на входе 0, что означает вероятность возникновения события (то есть активации нейрона) 0,5. Таким образом, если мы имеем наблюдение события «дом трясется», то лучшее объяснение этому факту — возникновение одного из событий-причин. Однако нелогично считать, что произошли сразу оба события-причины, чтобы объяснить событие сотрясения дома, так как вероятность их одновременного возникновения равна e − 10 ⋅ e − 10 = e − 20 {displaystyle e^{-10}cdot e^{-10}=e^{-20}} . Таким образом, если мы наблюдаем и событие сотрясения дома, и знаем, что произошло, например, событие-причина землетрясение, то это выкидывает объяснение (англ. explaining away, редуцирует причину), что в сотрясении дома был виноват грузовик.