Центральная предельная теорема формула. Закон больших чисел. Лекции. Центральная предельная теорема

Практика изучения случайных явлений показывает, что хотя результаты отдельных наблюдений, даже проведенных в одинаковых условиях, могут сильно отличаться, в то же время средние результаты для достаточно большого числа наблюдений устойчивы и слабо зависят от результатов отдельных наблюдений. Теоретическим обоснованием этого замечательного свойства случайных явлений является закон больших чисел . Общий смысл закона больших чисел — совместное действие большого числа случайных факторов приводит к результату, почти не зависящему от случая.

Центральная предельная теорема

Теорема Ляпунова объясняет широкое распространение нормального закона распределения и поясняет механизм его образования. Теорема позволяет утверждать, что всегда, когда случайная величина образуется в результате сложения большого числа независимых случайных величин, дисперсии которых малы по сравнению с дисперсией суммы, закон распределения этой случайной величины оказывается практически нормальным законом. А поскольку случайные величины всегда порождаются бесконечным количеством причин и чаще всего ни одна из них не имеет дисперсии, сравнимой с дисперсией самой случайной величины, то большинство встречающихся в практике случайных величин подчинено нормальному закону распределения. ()

Итак, — наиболее распространенное в природе распределение непрерывных величин. Математическим обоснованием этого факта служит центральная предельная теорема:

Сумма большого числа как угодно распределенных независимых случайных величин распределена асимптотически нормально, если только слагаемые вносят равномерно малый вклад в сумму.

Это значит, что чем больше независимых слагаемых в сумме, тем ближе закон ее распределения к нормальному. Вместо суммы часто рассматривают среднее арифметическое большого числа случайных величин, оно отличается от суммы только множителем (1/n) , поэтому его распределение также стремится к нормальному с ростом числа n суммируемых величин. Поскольку случайные величины, с которыми мы сталкиваемся, например, при измерениях, есть результат действия множества независимых факторов, понятно, почему измеряемые значения, как правило, распределены нормально.

Следствием центральной предельной теоремы является широко применяемая при решении задач теорема Муавра-Лапласа.

Дополнительные тезисы:

Следует отметить, что центральная предельная теорема справедлива не только для непрерывных, но и для дискретных случайных величин. Практическое значение теоремы Ляпунова огромно. Опыт показывает, что закон распределения суммы независимых случайных величин, сравнимых по своему рассеиванию, достаточно быстро приближается к нормальному. Уже при числе слагаемых порядка десяти закон распределения суммы можно заменить на нормальный. Но в среднем при грубом предположении распределение считают нормальным при n>=30.

Закон больших чисел лежит в основе различных видов страхования (страхование жизни человека на всевозможные сроки, имущества, скота, посевов и др.).

При планировании ассортимента товаров широкого потребления учитывается спрос на них населения. В этом спросе проявляется действие закона больших чисел.

Широко применяемый в статистике выборочный метод находит свое научное обоснование в законе больших чисел. Например, о качестве привезенной из колхоза на заготовительный пункт пшеницы судят по качеству зерен, случайно захваченных в небольшую мерку. Зерна в мерке немного по сравнению со всей партией, но во всяком случае мерку выбирают такой, чтобы зерен в ней было вполне достаточно для проявления закона больших чисел с точностью, удовлетворяющей потребности. Мы вправе принять за показатели засоренности, влажности и среднего веса зерен всей партии поступившего зерна соответствующие показатели в выборке. (

Центральная предельная теорема (ЦПТ) представляет собой вторую группу предельных теорем, которые устанавливают связь между законом распределения суммы случайных величин и его предельной формой –нормальным законом распределения.

До сих пор мы часто говорили об устойчивости средних характеристик большого числа испытаний, говоря точнее, об устойчивости сумм вида

Однако следует обратить внимание, что величина
случайная, а значить, она имеет некоторый закон распределения. Оказывается этот замечательный факт, составляет содержание

другой группы теорем, объединяемых под общим названием центральная предельная теорема , что при досточно общих условиях закон распределенияблизок к нормальному закону.

Поскольку величина отличается от суммы

лишь постоянным множителем
то в общих чертах содержание ЦПТ может быть сформулировано следующим образом.

Распределение суммы большого числа независимых случайных величин при весьма

общих условиях близко к нормальному закону распределению.

Известно, что нормально распределенные случайные величины широко распространены на практике (не только в теории вероятностей, но и в её многочисленных приложениях). Чем такое явление объясняется? Ответ на такой «феномен» впервые был дан выдающимся русским математиком А.М. Ляпуновым в 1901году: «Центральная предельная теорема Ляпунова». Ответ Ляпунова заключается в его условии, при которых справедливо ЦПТ (см. далее).

В целях подготовки точной формулировки ЦПТ, поставим перед собой два вопроса:

1. Какой точный смысл содержит в себе утверждение о том, что «закон распределения суммы «близка» к нормальному закону?».

2. При каких условиях справедлива эта близость?

Чтобы ответить на эти вопросы, рассмотрим бесконечную последовательность случайных величин:
Составим «частичные суммы» нашей последовательности с.в.

(23)

От каждой случайных величин перейдём к «нормированной» случайной величине

(24)

Нами было установлено (см.Т.8., п.3, равенства (19)), что
.

Ответ на первый вопрос теперь можно сформулировать в виду предельного равенства

(25)
, (
,

означающего, что закон распределения с.в. с ростомприближается к нормальному закону с
. Разумеется, из того факта, что величинаимеет приближенно нормальное распределение, следует, что и величинараспределена приближенно нормально,

(26)

Формула для определения вероятности того, что сумма нескольких с.в. окажется в заданных пределах. Часто ЦПТ используют при

По поводу условий, которые следует наложить на величины
можно высказать следующие соображения. Рассмотрим разность
Получим отклонение с.вот её математического ожидания. Общий смысл накладываемых условий, на величины
заключается в том, что отдельные отклонения
должны быть равномерно малы по сравнению с суммарным отклонением
Точную формулировку этих условий, при которых справедливо предельное соотношение дал М.А. Ляпунов в 1901 году. Она заключается в следующем.

Пусть для каждой из величин
числаконечны, (заметим, чтоесть дисперсия с.в.
- «центральный момент третьего порядка» ).

Если при

то будем говорить, что последовательность
удовлетворяетусловию Ляпунова.

В частности, ЦПТ для случаев, когда в сумме случайных величин каждый слагаемый имеет одинаковое распределение, т.е. все и
то условие Ляпунова выполняется

Именно, на практике такой случай ЦПТ чаще всего используется. Потому, что в математической статистике любая случайная выборка с.в. имеют одинаковые распределения, поскольку «выборки» получены из одной и той же генеральной совокупности.

Сформулируем этот случай как отдельное утверждение ЦПТ.

Теорема 10.7 (ЦПТ). Пусть случайные величины
независимы, одинаково распределены, имеют конечные математическое ожидание
и дисперсию

Тогда функция распределения центрированной и нормированной суммы этих с.в. при
стремится к функции распределения стандартной нормальной случайной величины:

(27)

На этом частном случае хорошо осмыслить, в чем находит своё проявление равномерная «малость» слагаемых,
где величинаимеет порядок, а величина
порядок
, тем самым отношение первой величины ко второй стремится, к 0.

Теперь мы в состоянии сформулировать центральную предельную теорему в форме А.М. Ляпунова.

Теорема 10.8. (Ляпунова). Если последовательность
независимых случайных величин удовлетворяет условию Ляпунова, то справедливо предельное соотношение

(28)
,

для любых
и, при этом (
.

Иными словами, в этом случае закон распределения нормированной суммы сходится к нормальному закону с параметрами

Следует отметить, что для доказательства ЦПТ А.М. Ляпунов разработал специальный метод, основанный на теорию так называемых характеристических функций. Этот метод оказался весьма полезным и в других разделах математики (см. доказательство ЦПТ например в кн. Бородин […]). В этой книге мы, о производящих функциях будем давать краткую информацию и некоторые применения к подсчёту числовых характеристик случайных величин.

Краткие сведения об ошибке измерений. Известно, что при повторении измерений одного и того же объекта, выполненными одним и тем же измерительным прибором с одинаковой тщательностью (при одинаковых условиях) не всегда достигаются одинаковые результаты. Разброс результатов измерения вызван тем, что на процесс измерения влияют многочисленные факторы, которые не возможно и не целесообразно учитывать. В этой ситуации ошибку, возникающую при измерении интересующей нас величины часто можно рассматривать как сумму большого числа независимых между собой слагаемых, каждое из которых даёт лишь незначительный вклад в образование всей суммы. Но такие случаи приводят нас как раз к условиям применимости теоремы Ляпунова и можно ожидать, что распределение ошибки измеряемой величины мало отличается от нормального распределения.

В более общем случае, ошибка является функцией большого числа случайных аргументов, каждый из которых лишь немного отличается от своего математического ожидания. Линеаризуя эту функцию, то есть, заменяя её линейной, опять приходят к предыдущему случаю. Накопленный опыт по статистической обработке результатов измерений действительно подтверждает этот факт в большинстве практических случаев.

Аналогичные рассуждения объясняют появление нормального распределения в отклонениях параметров, определяющих выпущенную готовую продукцию (изделия), от нормативных значений при массовом производстве.

Рассмотрим следующий пример.

Пример 5. Независимые случайные величиныраспределены равномерно на отрезке . Найти закон распределения с.в.
, а также вероятность того, что

Решение. Условия ЦПТ соблюдается, поэтому с.в.имеет приближенно плотность распределения

По известным формулам для м.о. и дисперсии в случае равномерного распределения находим: Тогда

На основании формулы (26), находим (с учётом табличных значений функции Лапласа)

Одно из важнейших положений теории вероятностей - так называемая центральная предельная теорема. Как и закон больших чисел, она имеет ряд форм. Во всех формах закона больших чисел устанавливается факт сходимости по вероятности каких-то случайных величин к постоянным, неслучайным при увеличении числа опытов п или числа наблюдаемых случайных величин.

В данном пункте мы рассмотрим другую группу предельных теорем, а именно теорем, определяющих условия возникновения нормального распределения (закона Гаусса). Такие условия часто встречаются на практике, что и объясняет широкую распространенность нормального закона в случайных явлениях природы.

Кое-что об этих условиях (на чисто описательном уровне) мы уже говорили раньше (глава 6), там, где впервые встретились с нормальным распределением. А именно, нормальное распределение возникает тогда, когда суммируется много независимых (или слабо зависимых) случайных величин, сравнимых по порядку своего влияния на рассеивание суммы.

В практической деятельности инженера такая обстановка встречается нередко.

Пусть, например, рассматривается отклонение Y n выходного параметра большой интегральной схемы (БИС) от номинала. Это отклонение (при известных допущениях) может быть представлено как сумма п элементарных отклонений, связанных с отдельными причинами:

где, например,

Х х - отклонение, вызванное влиянием температуры;

Х 2 - отклонение, вызванное влиянием влажности воздуха;

Хз - отклонение, вызванное ошибкой ввода какого-либо параметра; Х 4 - отклонение, вызванное недостаточной чистотой материала изделия;

Число п этих элементарных отклонений весьма велико, как и число п причин, вызывающих суммарное отклонение Г„; обычно слагаемые Х х, Х 2 , ..., Х п сравнимы по порядку своего влияния на рассеивание суммы. Действительно, если бы какая-то из случайных величин Х х, Х 2 , ..., ^„оказывала существенно большее влияние на рассеивание суммы, чем все остальные, было бы естественно принять специальные меры для того, чтобы устранить главную причину рассеивания; поскольку такие меры не предпринимаются, можно предположить, что оставшиеся случайные слагаемые сравнимы по порядку своего (равномерно малого) влияния на рассеивание суммы.

Нормальный закон широко распространен в технике; в большинстве случаев ошибки измерения параметров, ошибки выполнения команд, ошибки ввода различных величин в техническое устройство распределены по нормальному (или близкому к нормальному) закону; такая ошибка обычно может быть представлена в виде суммы многих «элементарных ошибок» Х ь каждая из которых связана с отдельной, практически независимой от других, причиной.

Именно в применении к теории ошибок был впервые обоснован Лапласом и Гауссом нормальный закон.

Нормальный закон широко распространен в биологии: масса, размер и другие параметры представителей растительного и животного мира во многих случаях имеют нормальное распределение, так как их разброс вызван суммарным воздействием многих факторов, среди которых нет доминирующих по своему влиянию.

Центральная предельная теорема в различных ее формах устанавливает условия, при которых возникает нормальное распределение и нарушение которых ведет к распределению, отличному от нормального.

Различные формы центральной предельной теоремы различаются между собой условиями, накладываемыми на распределения образующих сумму случайных слагаемых Х х, Х 2 , ...,Х п. Чем жестче эти условия, тем легче доказывается теорема; чем они шире, тем труднее доказательство. Здесь мы докажем одну из самых простых форм этой теоремы, а именно центральную предельную теорему для одинаково распределенных слагаемых.

Теорема. Если Х х, Х 2 , Х п,... - независимые случайные величины , имеющие одно и то же распределение с математическим ожиданием т и дисперсией а 2 , то при увеличении п закон распределения суммы

Доказательство. Проведем доказательство для случая непрерывных случайных величин (для дискретных оно будет аналогичным). Применим для этого аппарат характеристических функций . Согласно свойствам, доказанным в подразделе 8.9, характеристическая функция суммы (10.2.2) равна произведению характеристических функций слагаемых. Случайные величины X v Х 2 , ..., X п имеют одну и туже плотность f (х), а значит, и ту же характеристическую функцию 0* (t ). Не нарушая общности, можно перенести начало отсчета всех случайных величин X v Х 2 , ...,Х п в их общее математическое ожидание т это равносильно их центрированию и, значит, тому, что м. о. каждой из них будет равно нулю.

Напомним, что характеристическая функция каждой из с. в. Х к (к= 1,2,..., п) по определению равна (см. (8.9.4))

где / =4=~ - мнимая единица. Характеристическая функция случайной величины Y n равна произведению п характеристических функций слагаемых (см. 8.9.9):

Разложим функцию (t ) в окрестности точки t = 0 в ряд Маклоре- на с тремя членами:

где производные берутся по t a (t) -> 0 при t -» 0.

Найдем значения &Д0); 9^(0); $"(0).

Полагая в формуле (10.2.3) /= 0, имеем:

по свойству плотности распределения/(х).

Продифференцируем (10.2.3) по t.

Полагая в (10.2.6) /= 0, получим:

где М [Х - математическое ожидание с. в. Хс плотностью/(х). В нашем случае все случайные величины Х х, Х 2 , ..., X п имеют плотность /(х), а их общее м. о. равно нулю, поэтому

Продифференцируем (10.2.6) еще раз:

Полагая / = 0, получим:

а это есть не что иное, как дисперсия центрированной с. в. Хс плотностью /(х) (со знаком «минус»).

Следовательно,

Подставляя в (10.2.5) Э х (0) = 1; 0" х (0) = 0и в”(0) = -сг 2 , получим

Обратимся к случайной величине Y n . Мы хотим доказать, что при увеличении п ее закон распределения приближается к нормальному. Для этого перейдем от нее к линейно связанной с Y n «нормированной» случайной величине

Эта величина удобна тем, что ее дисперсия не зависит от п и равна единице при любом п. В этом нетрудно убедиться, рассматривая Z n как линейную функцию независимых случайных величин Х х, Х 2 , ..., X п, каждая из которых имеет дисперсию а 2 .

Если мы докажем, что с. в. Z n имеет нормальное распределение, это будет означать, что и с. в. У„, линейно связанная с Z„, распределена нормально.

Вместо того чтобы доказывать, что закон распределения с. в. Z„ при увеличении п приближается к нормальному, докажем, что ее характеристическая функция, однозначно определяющая плотность, приближается к характеристической функции нормального закона с теми же, что у Z„, параметрами: m z = 0; o z =1 (8.9.16).

Найдем характеристическую функцию с. в. Z. Из свойства (8.9.7) характеристической функции (подраздел 8.9) имеем:

где - характеристическая функция с. в. Y n . Из (10.2.4) и (10.2.8) имеем:

Или, пользуясь формулой (*),

Прологарифмируем это выражение:

Введем обозначение

Будем неограниченно увеличивать п при этом величина к согласно (10.2.10) будет стремиться к нулю. Разложим In (1 - к) в ряд по степеням к и ограничимся одним членом разложения (остальные при я -> оо станут пренебрежимо малыми):

Но функция а(0 стремится к нулю при t -> 0; следовательно, lima (t/(oJn)) = 0и liming (t) = -t 2 / 2, откуда liming (t) = e~‘‘ 2 ,

tl -Л->0c n n-> OO "

а это есть не что иное, как характеристическая функция случайной величины, распределенной по нормальному закону с параметрами т = О, ст= 1 (см. (8.9.16)).

Таким образом, мы доказали центральную предельную теорему для частного случая одинаково распределенных слагаемых. Другие, более общие (и более сложные) формы центральной предельной теоремы мы приведем без доказательства.

Теорема Ляпунова. Пусть Х х, Х 2 , ..., Х п - независимые случайные величины с математическими ожиданиями m Xi , т Х2 ,..., т Хп и дисперсиями Z) , D r ,..., Z> , причем при п -» оо.

х х 2 х п

где Х к =Х к -т к.

А. М. Ляпунов доказал, что при п -> оо закон распределения случайной величины

неограниченно приближается к нормальному.

Смысл условий (10.2.12) состоит в том, чтобы в сумме (10.2.13) не было слагаемых, влияние которых на рассеивание суммы подавляюще велико по сравнению с влиянием всех остальных, а также не должно быть большого числа случайных слагаемых, влияние которых на рассеивание суммы исчезающе мало по сравнению с суммарным влиянием остальных.

Наиболее общим (необходимым и достаточным) условием справедливости центральной предельной теоремы является условие Линдебер- га: для любого т > 0

где f (х) - плотность распределения с. в. X h т-, = М [Х‘] (/" = 1, 2,п).

Однако пользование условием Линдеберга на практике затруднительно, так как нам редко бывают в точности известны законы распределения случайных величин X t (/ = 1, 2,п).

Исторически первой доказанной формой центральной предельной теоремы явилась теорема Лапласа , состоящая в следующем. Если производится п независимых опытов, в каждом из которых событие А появляется с вероятностью р, то при больших п справедливо приближенное равенство:

где Y n - число появлений события А в п опытах; q = 1 - р Ф (х) - функция Лапласа.

Выведем формулу (10.2.15) как следствие центральной предельной теоремы для одинаково распределенных слагаемых. «Нормированная» случайная величина

связанная с Нелинейной зависимостью, строго говоря, дискретна, также дискретна с. в. Y n , распределенная по биномиальному закону, но при большом п ее значения расположены на оси абсцисс так тесно, что можно ее рассматривать как непрерывную, с плотностью распределения /(г). Случайная величина Y n имеет биномиальное распределение с параметрами п, р ее математическое ожидание М [ Y n ] = пр ее дисперсия равна D [ Y n ] = npq. Найдем числовые характеристики случайной величины (10.2.16): м. о. и дисперсию линейной функции от с. в. Y n . Имеем:

Таким образом, случайная величина Z n (10.2.16) имеет не зависящие от п числовые характеристики т = 0, а = 1 (потому мы и перешли к с. в. Z n от Y n).

Учитывая, что Т„ = ^где Х (- индикатор события А в /-м опы- 1=1

те, убеждаемся, что с. в. Z n (10.2.16) есть сумма п независимых одинаково распределенных случайных величин. Применяя центральную предельную теорему для одинаково распределенных слагаемых, убеждаемся, что при большом числе опытов п с. в. Z n имеет распределение, близкое к нормальному, с параметрами т = 0; а = 1, откуда и следует справедливость формулы (10.2.15).

Теорема Лапласа дает возможность приближенно находить вероятности значений случайных величин, распределенных по биномиальному закону при больших значениях параметра п при этом вероятность р не должна быть ни слишком большой, ни слишком малой.

Практически можно судить о возможности замены биномиального распределения нормальным по тому, выполнены ли при данных п и р условия:

Если эти условия соблюдены, то можно вычислять вероятности Р к = Р {Y n = к) как приращение нормальной функции распределения на участке от к до к + 1:

где F(x) - функция распределения нормального закона:

Подставляя в (10.2.19) т - при а = yfnpq, получим:

Вычисляя приращение этой функции на участке от к до к + 1, получим:

Теорему Лапласа (10.2.15) можно записать в несколько ином виде, если перейти обратно от нормированной с. в. Z n (10.2.16) к с. в. Y n -

числу появлений события в п опытах - связанной с Z n линейной зависимостью:

Функция распределения случайной величины Y n при большом п будет сколь угодно близка к нормальной функции распределения с параметрами т у - пр; о „ = Jnpq:

а вероятность попадания случайной величины Y n на любой участок от а до р приближенно равна

откуда - другая форма записи теоремы Лапласа:

Рассмотрим ряд примеров, в каждом из которых для решения задачи следует применить ту или другую форму центральной предельной теоремы.

Пример 1. Имеется п идентичных технических устройств (ТУ), время безотказной работы каждого /-го из которых - случайная величина 7), распределенная по показательному закону с параметром X, одинаковым для всех ТУ. Число п собранных в такую систему ТУ достаточно велико. Случайные величины 7j, Т 2 , ..., T t , ..., ^независимы между собой. В случае отказа /-го ТУ происходит мгновенное и безотказное переключение на следующие по порядку (/ + )-е ТУ (/" + 1 п). Общее время Гбезотказной работы системы ТУ равно сумме времен Т;.

Найти приближенно вероятность того, что система ТУ проработает безотказно время, не меньшее лялянного т:

(поскольку с. в. Т непрерывна, знак равенства можно оторосить;.

Решение. Согласно центральной предельной теореме для одинаково распределенных слагаемых с. в. Т (10.2.23) будет распределяться приближенно по нормальному закону с параметрами:

Находим приближенно вероятность (10.2.24): где F(т) - функция нормального распределения с параметрами:

Для нормального закона функция распределения равна:

где Ф (х) - функция Лапласа.

Пример 2. Станок с числовым программным управлением выдает за смену п = 1000 изделий, из которых в среднем 2% дефектных. Найти приближенно вероятность того, что за смену будет изготовлено не менее 970 доброкачественных (недефектных) изделий, если изделия оказываются доброкачественными независимо друг от друга.

Решение. Вероятность р изготовления доброкачественного изделия: р = 0,98, Y- число доброкачественных изделий; число независимых опытов п = 1000. Проверяем, выполнены ли условия (10.2.17); находим:

Следовательно, пользоваться нормальным законом можно; применяя теорему Лапласа в форме (10.2.22), находим:

Итак, искомая вероятность достаточно велика (равна 0,988), но все же с вероятностью 0,012 можно ожидать, что число доброкачественных изделий за смену будет меньше, чем 970. ?

Пример 3. Для условий предыдущего примера определить, на сколько доброкачественных изделий у должен быть рассчитан заготовленный для них бункер, такой, чтобы вероятность его переполнения за смену не превысила 0,01.

Решение. Найдем у из условия

Ищем такое значение у = у, при котором функция распределения случайной величины Y n

т. е.

По таблице функции Лапласа (см. приложение 2) находим аргумент, при котором функция Лапласа равна 0,49; он приближенно равен 2,33, отсюда

Пример 4. Железнодорожный состав состоит из п вагонов; масса каждого вагона в тоннах - случайная величина Хс м. о. т х и с. к. о. о х. Число вагонов п - большое (несколько десятков). Локомотив может везти массу не больше q (т); если масса состава больше q (т), приходится прицеплять второй локомотив. Найти вероятность того, что одного локомотива не хватит для перевозки состава.

Решение. Обозначим Q = ^ J X j массу состава. На основании

центральной предельной теоремы при достаточно большом п с. в. Q распределена приближенно по нормальному закону с параметрами

m q - пт х, o q =^ = y = яД; D = n/X 2 . Следовательно, с. в. Хс нужным нам нормальным распределением определяется через Т {п) формулой

а величина X определится из условия откуда

Пример 9. Провести аппроксимацию нормального закона с параметрами ш х и D x с помощью суммы я независимых с. в. Х и ..., Х п, распределенных равномерно в интервале (0, 1).

Решение. На основании центральной предельной теоремы при большом п случайная величина

распределена приближенно по нормальному закону с параметрами:

Нужную нам случайную величину X представим как линейную функцию случайной величины Y n:

Откуда находим коэффициенты а и b в формуле (10.2.29)

Итак, чтобы получить случайную величину X, распределенную приближенно по нормальному закону, надо сложить достаточно большое число п независимых случайных величин, распределенных равномерно в интервале (0, 1) и подвергнуть их сумму линейному преобразованию (10.2.29).

В практике работы с ЭВМ при моделировании случайных явлений получают нормально распределенные случайные величины именно таким способом. Опыт показывает, что вполне удовлетворительную точность можно получить уже при п = 6; числа п = Юн- 12 вполне достаточно. ?

Пример 10. В кассе учреждения имеется сумма d = 3500 (руб.). В очереди стоит п = 20 лиц. Сумма X, которую надо выплатить отдельному лицу - случайная величина с математическим ожиданием т х = 150 (руб.) и средним квадратическим отклонением о* = 60 (руб.). Найти вероятность того, что суммы due хватит для выплаты денег всем людям, стоящим в очереди.

Решение. На основании центральной предельной теоремы для одинаково распределенных слагаемых при большом п (а п = 20 практически можно считать «большим») случайная величина или

где Xj - сумма, которую надо выплатить /-му лицу, имеет приближенно нормальное распределение с параметрами:

Итак, с вероятностью около 3% имеющейся в кассе суммы не хватит для выплаты всем, стоящим в очереди.

Пример 11. В условиях предыдущего примера: какую сумму а нужно иметь в кассе, чтобы вероятность того, что ее не хватит для выплаты всем стоящим, стала равна 0,005?

Решение. Имеем условие Р {Y n > а} = 0,5 - Ф ((а - 3000)/268) = = 0,005, т. е. Ф ((а - 3000)/268) = 0,495. По таблице Ф (х) приложения находим аргумент функции Лапласа, при котором она равна 0,495:

откуда а - 3691.

Итак, сравнительно небольшого увеличения суммы а (от 3500 до 3691) достаточно для того, чтобы гарантировать выплату всем с очень высокой вероятностью 0,995. ?

Пример 12. Монета подбрасывается п = 1000 раз. Рассматривается с. в. X- число выпавших гербов. Определить интервал возможных значений с. в. X, симметричный относительно м. о. этой с. в., в который она попадает с вероятностью 9 > = 0,997.

Решение. X = ^Х { , где Х { - число выпавших гербов при /-м бросании: »"=i

На основании центральной предельной теоремы с. в. Храспределе- на нормально, следовательно,

По таблицам Ф (х) - функции Лапласа находим:

Искомый интервал будет:

Итак, с очень большой вероятностью $Р= 0,997 можно утверждать, что число выпавших гербов будет заключено в пределах от 453 до 577 (об этом уже говорилось в подразделе 1Л). ?

Заметим, что этот аппарат был создан А.М. Ляпуновым специально для доказательствацентральной предельной теоремы.

Продемонстрируем основные выводы Центральной предельной теоремы с помощью MS EXCEL : построим выборочное распределение среднего, рассчитаем стандартную ошибку и сравним значения, полученные на основе выборки, с выводами ЦПТ.

стремится к нормальному распределению со средним значением μ и стандартным отклонением равным σ/√n

Примечание : Про статистики и их выборочные распределения можно прочитать в статье .

Покажем почему равно σ/√n.

Каждое отдельное наблюдение X i в выборке имеет дисперсию σ 2 . Из , следует, что сумма независимых случайных величин в выборке , т.е. х 1 +х 2 …+х n , имеет дисперсию n*σ 2 , а стандартное отклонение этой суммы равно КОРЕНЬ(n) *σ. Чтобы найти стандартное отклонение среднего выборки нужно разделить стандартное отклонение суммы на n. В результате получим, что стандартное отклонение выборочного среднего равно σ/√n.

Т.к. обычно стандартное отклонение исходного распределения, из которого взята выборка, неизвестно, то в расчетах вместо σ используют ее оценку s - стандартное отклонение выборки .

Соответствующая величина s/√n, где n – размер выборки , имеет специальное название: Стандартная ошибка (Standard Error of the Mean , SE M ).

Примечание : Термин SEM иногда также может использоваться для стандартного отклонения выборочного распределения среднего.

Примечание : Хотя Стандартная ошибка является, по сути, стандартным отклонением , ее специальное название обусловлено стремлением подчеркнуть, что она показывает величину неопределенности выборочного среднего . Стандартная ошибка оценивает насколько выборочное среднее Х ср отличается от среднего значения μ исходного распределения. А термин стандартное отклонение обычно используют для обозначения величины изменчивости отдельных элементов выборки от среднего .

Для применения ЦПТ необходимо, чтобы были выполнены следующие условия:

отдельные наблюдения в выборке должны быть независимыми;

наблюдения берутся из одной и той же генеральной совокупности , т.е. имеют одинаковое распределение с параметрами μ и σ;

размер выборки n должен быть «достаточно большим» (см. пояснения ниже).

Примечание : Выборочное среднее является случайной величиной. Есливыполнены вышеуказанные условия, то Выборочное среднее распределено по нормальному закону . При этом не требуется, чтобы исходное распределение, из которого делается выборка , должно быть нормальным .

Примечание : Несмотря, что отдельные значения x i подчиняются какому-то неизвестному нам закону распределения, процедура объединения многих значений для вычисления суммы или среднего , приводит к нормальному распределению (для которого мы умеем вычислять вероятности). Зачастую, имеет смысл говорить, является распределение нормальным или нет, только в отношении суммы или среднего .

Примеры расчета вероятности в MS EXCEL с использованием ЦПТ

Задача1 . Предприятие производит плавленые сырки. Номинальный вес сырка должен составлять 100 грамм. По естественным причинам, вес каждого сырка отличается от номинала. Из опыта известно, что средний вес сырка составляет 105г, а стандартное отклонение равно 15г. Чтобы избежать потери репутации фирмы вес сырка не должен быть слишком мал, но он не должен быть слишком велик, т.к. при этом увеличиваются расходы. Известно, что любую упаковку из 30 штук сырков отбраковывают, если средний вес сырка в ней меньше 95г и больше чем 110г. Какая часть упаковок будет отбракована при 100% контроле?

Чтобы найти вероятность (долю отбракованных упаковок), мы должны знать распределение случайной величины - веса упаковки. Хотя мы не знаем формы распределения отдельного сырка (это распределение не обязательно нормальное ), но из ЦПТ нам известно, что вес упаковки будет распределен по нормальному закону . Осталось определить параметры этого распределения.

Примечание : Хотя в ЦПТ сказано, что по нормальному закону распределено выборочное среднее , но очевидно, что выборочное распределение суммы также будет распределено по нормальному закону , но с другими параметрами.

Из условий задачи мы знаем, что среднее значение веса упаковки сырков равно 30шт *105г . Мы также можем вычислить стандартное отклонение этого выборочного распределения .

Стандартное отклонение известно только для сырка (15г ), но из (считаем, что веса сырков получаются случайным образом) можно вычислить Стандартное отклонение для упаковки:
Var(x 1 +…+x 30)= Var(x 1)+…+ Var(x 30)=30* Var(x)

Т.к. считаем, что все веса х i имеют одинаковое распределение, то случайную величину (вес сырка) обозначим просто х.

Следовательно, стандартное отклонение упаковки сырков =15*КОРЕНЬ(30)

Сначала определим вероятность, того что упаковка сырков будет весить менее 95*30г. В MS EXCEL это можно сделать с помощью формулы:
=НОРМ.РАСП(95*30; 105*30; 15*КОРЕНЬ(30); ИСТИНА)=0,013%

Теперь определим вероятность того, что упаковка сырков будет весить больше 110*30г.
=1-НОРМ.РАСП(110*30; 105*30; 15*КОРЕНЬ(30); ИСТИНА)=3,395%

Таким образом, отбраковано будет 3,395%+0,013%=3,407% продукции.

Тот же результат можно получить при расчете через среднее значение одного сырка:
=НОРМ.РАСП(95; 105; 15/КОРЕНЬ(30); ИСТИНА)+ 1-НОРМ.РАСП(110; 105; 15/КОРЕНЬ(30); ИСТИНА)

Задача2 . Из свойств нормального распределения можно ожидать, что примерно в 95% случаях выборочное среднее будет находиться в пределах 2-х стандартных ошибок от среднего генеральной совокупности (исходного распределения, из которого взята выборка ), т.е. в пределах:

2*s/КОРЕНЬ(n)<μ<2*s/КОРЕНЬ(n)

Например, пусть размер выборки n=30, среднее генеральной совокупности μ =0, а вычисленное на основе выборки стандартное отклонение s=5.

В этом случае стандартная ошибка = 5/КОРЕНЬ(30)

Покажем с помощью формулы MS EXCEL, что искомая вероятность действительно близка к 95%:
=1-((1-НОРМ.РАСП(2*5/КОРЕНЬ(30);0;5/КОРЕНЬ(30);ИСТИНА))+ НОРМ.РАСП(-2*5/КОРЕНЬ(30);0;5/КОРЕНЬ(30);ИСТИНА))=95,45%

Как работает ЦПТ при n=3 и n=10

Для демонстрации выводов ЦПТ проведем «оценку нормальности» распределения выборочного среднего при n=3 и n=10.

В качестве исходного распределения возьмем , описывающее вероятность выпадения определенной грани при бросании игральной кости.

Как известно, среднее значение этого распределения =(1+6)/2=3,5 ; а стандартное распределение =КОРЕНЬ(((6-1+1)^2-1)/12)=1,708

С помощью MS EXCEL произведем 100 серий по 3 броска кубика (n=3) и 100 серий по 10 бросков (n=10).

Для каждой серии бросков (т.е. для каждой выборки ) будем вычислять выборочное среднее. Затем вычислим среднее Выборочных средних и стандартную ошибку . Убедимся, что в соответствии с ЦПТ , эти значения равны 3,5 и 1,708/КОРЕНЬ(n) , соответственно.

Также построим , чтобы убедиться, что выборочное среднее распределено по , и для исходного равномерного распределения и распределения выборочного среднего.

файле примера на листе ЦПТ Классик .

При n=3 График проверки распределения на нормальность будет соответствовать прямой очень условно (сохраняется дискретность данных, унаследованная от исходного распределения), но для n=10 – соответствие нормальному распределению будет хорошим.

Примечание : В качестве иллюстрации сравним графики проверки распределения на нормальность при n=3 и исходного , т.е. для n=1 (красные точки на рисунке ниже). Как видно на рисунке, значения, взятые из равномерного распределения, располагаются четко выраженными группами.

Среднее и Стандартная ошибка Выборочного распределения среднего близки к расчетным значениям, предсказанным ЦПТ .

Для n=10 видно, что разброс значений выборочного среднего (гистограмма слева) не имеет ничего общего с гистограммой, полученной на основе выборки из исходного равномерного распределения (гистограмма справа).

Вывод : С помощью MS EXCEL мы продемонстрировали как работает ЦПТ : не смотря на то, что исходное распределение по форме не имеет ничего общего с нормальным , уже при небольшом n=10 выборочное среднее распределено по закону близкому к нормальному с тем же средним значением и со стандартным отклонением равным стандартной ошибке .

На практике часто требуется определить размер выборки n, достаточный, чтобы распределение выборочного среднего было достаточно близко к нормальному. Очевидно, что асимптотическое приближение распределения выборочного среднего зависит от исходного распределения, из которого берется выборка (если исходное распределение имеет , то распределение выборочного среднего будет медленнее приближаться к нормальному с ростом n). На практике исходное распределение неизвестно, поэтому обычно предполагается, что размер выборки должен быть n=>30.

Алгоритм решения задач с применением классической ЦПТ

Вы проводите аудит крупного банка. Банковский служащий сообщил Вам, что средний депозит в банке составляет 200 долл., а стандартное отклонение равно 45 долл. Вам нужно убедиться в истинности информации, сообщенной менеджером, поэтому Вы решаете взять данные по случайным 50 депозитам.
Дайте описание выборочного распределения среднего при n =50. Предполагая, что сообщенные менеджером характеристики распределения верны, вычислить вероятность, что рассчитанное Вами среднее значение выборки будет меньше 190 долл.

СОВЕТ : Отличное изложение материала по данной теме приведено на сайте http://brownmath.com/swt/chap08.htm (англ.)

Сначала дадим описание выборочного распределения среднего . Зачем нам это нужно? Дело в том, чтобы вычислить вероятность необходимо знать распределение вероятности. Т.е. нужно показать, что выборочное среднее распределено по нормальному закону.

Напомним, что для того, чтобы описать любое распределение необходимо вычислить его среднее , разброс и форму .

Форма распределения . Для того, чтобы решить задачу необходимо убедиться, что выборочное распределение среднего является нормальным (выполняются условия применимости ЦПТ). Как правило, для этого необходимо проверить 2 условия:

размер выборки не должен превышать 10% от генеральной совокупности ;

размер выборки достаточен, чтобы, несмотря на форму исходного распределения, распределение выборочного среднего было нормальным . Обычно достаточно, чтобы n было больше 30.

Будем считать, что первое условие выполнено (пусть известно, что в банке более 1000 депозитов), соответственно, 50 депозитов составляет менее 10% от общего количества депозитов банка. Исходное распределение, скорее всего, будет смещенным влево, т.к. обычно большинство депозитов небольшого и среднего размера, а крупных депозитов гораздо меньше. Размер выборки является достаточно большим (50>30), чтобы гарантировать, что форма распределения выборочного среднего является близкой к нормальному распределению .

Среднее . Среднее выборочного распределения , согласно ЦПТ , равно среднему исходного распределения, т.е. в нашем случае 200 долл.

Разброс . Стандартное отклонение выборочного среднего (стандартная ошибка ), согласно ЦПТ, равна =45/КОРЕНЬ(50)=6,36 .

Теперь переходим непосредственно к решению задачи. Сначала построим выборочного среднего N(200; 45/КОРЕНЬ(50)).

Зеленая вертикальная линия соответствует х=190 долл.

По условиям задачи мы взяли выборку из 50 депозитов и вычислили среднее этой выборки (Хср). Теперь рассчитаем вероятность того, что Хср будет меньше 190 долл. Это можно сделать с помощью формулы
=НОРМ.РАСП(190; 200; 45/КОРЕНЬ(50); ИСТИНА)=0,058

Таким образом, если Х ср, вычисленное по 50 депозитам, окажется меньше 190 долл., то, это может стать серьезным основанием для сомнений в истинности слов банковского служащего (утверждавшего, что средний банковский депозит равен 200 долл.), т.к. это является маловероятным событием (<6%).

Расчеты приведены в файле примера на листе Задача .

Примечание : Частой ошибкой при решении подобных задач является неправильное использование стандартного отклонения , т.е. когда вместо стандартной ошибки используют известное стандартное отклонение исходного распределения (45 долл.), которое не обязательно является нормальным . Но, даже если исходное распределение нормальное , то вычисленное значение вероятности (в нашем случае оно будет около 40%) всегда существенно выше правильного значения (примерно 6%). Это соответствует схеме расчета, если бы мы выбрали лишь 1 депозит (вместо 50) и попытались бы на основании его значения принять решение об истинности слов служащего банка.

Резюме : Чаще всего на практике распределение, из которого делается выборка не известно (можно лишь предположить, что распределение банковских депозитов, скорее всего, скошено влево, т.к. обычно небольшие вклады составляют наибольшее количество). Но, не зная математического выражения для распределения, мы не можем оценить вероятность извлечь определенное значение из него. Именно в таких случаях нам помогает ЦПТ .

Альтернативная формулировка ЦПТ

Теперь рассмотрим как работает ЦПТ в случае, когда случайная величина является суммой случайных величин, распределенных по различным законам с различными средними и стандартными отклонениями .

Если x 1 , x 2 , x 3 , … x n – случайные величины с известными значениями среднего μ i и стандартного отклонения σ i , и y= x 1 +x 2 +x 3 + … +x n , то распределение

приближается к N (0;1) при n стремящемуся к бесконечности.

Другими словами ЦПТ утверждает, что сумма n независимых случайных величин при достаточно большом n , будет распределена по нормальному закону со средним значением равным сумме средних значений этих случайных величин и дисперсией равной сумме их дисперсий , т.е. по закону

Как и в случае классической ЦПТ , для демонстрации выводов ЦПТ используем MS EXCEL. В качестве исходных распределений возьмем 4 B(0,1; 20), 3 U и 3 }