Меню
Бесплатно
Главная  /  Праздники  /  Закон распределения случайной величины

Закон распределения случайной величины

Как известно, случайной величиной называется переменная величина, которая может принимать те или иные значения в зависимости от случая. Случайные величины обозначают заглавными буквами латинского алфавита (X, Y, Z), а их значения – соответствующими строчными буквами (x, y, z). Случайные величины делятся на прерывные (дискретные) и непрерывные.

Дискретной случайной величиной называется случайная величина, принимающая лишь конечное или бесконечное (счетное) множество значений с определенными ненулевыми вероятностями.

Законом распределения дискретной случайной величины называется функция, связывающая значения случайной величины с соответствующими им вероятностями. Закон распределения может быть задан одним из следующих способов.

1 . Закон распределения может быть задан таблицей:

где λ>0, k = 0, 1, 2, … .

в) с помощью функции распределения F(x) , определяющей для каждого значения x вероятность того, что случайная величина X примет значение, меньшее x, т.е. F(x) = P(X < x).

Свойства функции F(x)

3 . Закон распределения может быть задан графически – многоугольником (полигоном) распределения (смотри задачу 3).

Отметим, что для решения некоторых задач не обязательно знать закон распределения. В некоторых случаях достаточно знать одно или несколько чисел, отражающих наиболее важные особенности закона распределения. Это может быть число, имеющее смысл «среднего значения» случайной величины, или же число, показывающее средний размер отклонения случайной величины от своего среднего значения. Числа такого рода называют числовыми характеристиками случайной величины.

Основные числовые характеристики дискретной случайной величины :

  • Mатематическое ожидание (среднее значение) дискретной случайной величины M(X)=Σ x i p i .
    Для биномиального распределения M(X)=np, для распределения Пуассона M(X)=λ
  • Дисперсия дискретной случайной величины D(X)= M 2 или D(X) = M(X 2)− 2 . Разность X–M(X) называют отклонением случайной величины от ее математического ожидания.
    Для биномиального распределения D(X)=npq, для распределения Пуассона D(X)=λ
  • Среднее квадратическое отклонение (стандартное отклонение) σ(X)=√D(X) .

Примеры решения задач по теме «Закон распределения дискретной случайной величины»

Задача 1.

Выпущено 1000 лотерейных билетов: на 5 из них выпадает выигрыш в сумме 500 рублей, на 10 – выигрыш в 100 рублей, на 20 – выигрыш в 50 рублей, на 50 – выигрыш в 10 рублей. Определить закон распределения вероятностей случайной величины X – выигрыша на один билет.

Решение. По условию задачи возможны следующие значения случайной величины X: 0, 10, 50, 100 и 500.

Число билетов без выигрыша равно 1000 – (5+10+20+50) = 915, тогда P(X=0) = 915/1000 = 0,915.

Аналогично находим все другие вероятности: P(X=0) = 50/1000=0,05, P(X=50) = 20/1000=0,02, P(X=100) = 10/1000=0,01, P(X=500) = 5/1000=0,005. Полученный закон представим в виде таблицы:

Найдем математическое ожидание величины Х: М(Х) = 1*1/6 + 2*1/6 + 3*1/6 + 4*1/6 + 5*1/6 + 6*1/6 = (1+2+3+4+5+6)/6 = 21/6 = 3,5

Задача 3.

Устройство состоит из трех независимо работающих элементов. Вероятность отказа каждого элемента в одном опыте равна 0,1. Составить закон распределения числа отказавших элементов в одном опыте, построить многоугольник распределения. Найти функцию распределения F(x) и построить ее график. Найти математическое ожидание, дисперсию и среднее квадратическое отклонение дискретной случайной величины.

Решение. 1. Дискретная случайная величина X={число отказавших элементов в одном опыте} имеет следующие возможные значения: х 1 =0 (ни один из элементов устройства не отказал), х 2 =1 (отказал один элемент), х 3 =2 (отказало два элемента) и х 4 =3 (отказали три элемента).

Отказы элементов независимы друг от друга, вероятности отказа каждого элемента равны между собой, поэтому применима формула Бернулли . Учитывая, что, по условию, n=3, р=0,1, q=1-р=0,9, определим вероятности значений:
P 3 (0) = С 3 0 p 0 q 3-0 = q 3 = 0,9 3 = 0,729;
P 3 (1) = С 3 1 p 1 q 3-1 = 3*0,1*0,9 2 = 0,243;
P 3 (2) = С 3 2 p 2 q 3-2 = 3*0,1 2 *0,9 = 0,027;
P 3 (3) = С 3 3 p 3 q 3-3 = р 3 =0,1 3 = 0,001;
Проверка: ∑p i = 0,729+0,243+0,027+0,001=1.

Таким образом, искомый биномиальный закон распределения Х имеет вид:

По оси абсцисс откладываем возможные значения х i , а по оси ординат – соответствующие им вероятности р i . Построим точки М 1 (0; 0,729), М 2 (1; 0,243), М 3 (2; 0,027), М 4 (3; 0,001). Соединив эти точки отрезками прямых, получаем искомый многоугольник распределения.

3. Найдем функцию распределения F(x) = Р(Х

Для x ≤ 0 имеем F(x) = Р(Х<0) = 0;
для 0 < x ≤1 имеем F(x) = Р(Х<1) = Р(Х = 0) = 0,729;
для 1< x ≤ 2 F(x) = Р(Х<2) = Р(Х=0) + Р(Х=1) =0,729+ 0,243 = 0,972;
для 2 < x ≤ 3 F(x) = Р(Х<3) = Р(Х = 0) + Р(Х = 1) + Р(Х = 2) = 0,972+0,027 = 0,999;
для х > 3 будет F(x) = 1, т.к. событие достоверно.

График функции F(x)

4. Для биномиального распределения Х:
- математическое ожидание М(X) = np = 3*0,1 = 0,3;
- дисперсия D(X) = npq = 3*0,1*0,9 = 0,27;
- среднее квадратическое отклонение σ(X) = √D(X) = √0,27 ≈ 0,52.

В чем состоит идея вероятностных рассуждений?

Первый, самый естественный шаг вероятностных рассуждений заключается в следующем: если вы имеете некоторую переменную, принимающую значения случайным образом, то вам хотелось бы знать, с какими вероятностями эта переменная принимает определенные значения. Совокупность этих вероятностей как раз и задает распределение вероятностей. Например, имея игральную кость, можно a priori считать, что с равными вероятностями 1/6 она упадет на любую грань. И это происходит при условии, что кость симметричная. Если кость несимметричная, то можно определить большие вероятности для тех граней, которые выпадают чаще, а меньшие вероятности - для тех граней, которые выпадают реже, исходя из опытных данных. Если какая-то грань вообще не выпадает, то ей можно присвоить вероятность 0. Это и есть простейший вероятностный закон, с помощью которого можно описать результаты бросания кости. Конечно, это чрезвычайно простой пример, но аналогичные задачи возникают, например, при актуарных расчетах, когда на основе реальных данных рассчитывается реальный риск при выдаче страхового полиса.

В этой главе мы рассмотрим вероятностные законы, наиболее часто возникающие на практике.

Графики этих распределений можно легко построить в STATISTICA.

Нормальное распределение

Нормальное распределение вероятностей особенно часто используется в статистике. Нормальное распределение дает хорошую модель для реальных явлений, в которых:

1) имеется сильная тенденция данных группироваться вокруг центра;

2) положительные и отрицательные отклонения от центра равновероятны;

3) частота отклонений быстро падает, когда отклонения от центра становятся большими.

Механизм, лежащий в основе нормального распределения, объясняемый с помощью так называемой центральной предельной теоремы, можно образно описать следующим образом. Представьте, что у вас имеются частицы цветочной пыльцы, которые вы случайным образом бросили в стакан воды. Рассматривая отдельную частицу под микроскопом, вы увидите удивительное явление - частица движется. Конечно, это происходит, потому что перемещаются молекулы воды и передают свое движение частицам взвешенной пыльцы.

Но как именно происходит движение? Вот более интересный вопрос. А это движение очень причудливо!

Имеется бесконечное число независимых воздействий на отдельную частицу пыльцы в виде ударов молекул воды, которые заставляют частицу двигаться по весьма странной траектории. Под микроскопом это движение напоминает многократно и хаотично изломанную линию. Эти изломы невозможно предсказать, в них нет никакой закономерности, что как раз и соответствует хаотическим ударам молекул о частицу. Взвешенная частица, испытав удар молекулы воды в случайный момент времени, меняет направление своего движения, далее некоторое время движется по инерции, затем вновь попадает под удар следующей молекулы и так далее. Возникает удивительный бильярд в стакане воды!

Поскольку движение молекул имеет случайное направление и скорость, то величина и направление изломов траектории также совершенно случайны и непредсказуемы. Это удивительное явление, называемое броуновским движением, открытое в XIX веке, заставляет нас задуматься о многом.

Если ввести подходящую систему и отмечать координаты частицы через некоторые моменты времени, то как раз и получим нормальный закон. Более точно, смещения частицы пыльцы, возникающие из-за ударов молекул, будут подчиняться нормальному закону.

Впервые закон движения такой частицы, называемого броуновским, на физическом уровне строгости описал А. Эйнштейн. Затем более простой и интуитивно ясный подход развил Ленжеван.

Математики в XX веке посвятили этой теории лучшие страницы, а первый шаг был сделан 300 лет назад, когда был открыт простейший вариант центральной предельной теоремы.

В теории вероятности центральная предельная теорема, первоначально известная в формулировке Муавра и Лапласа еще в XVII веке как развитие знаменитого закона больших чисел Я. Бернулли (1654-1705) (см. Я. Бернулли (1713), Ars Conjectandi), в настоящее время чрезвычайно развилась и достигла своих высот. в современном принципе инвариантности, в создании которого существенную роль сыграла русская математическая школа. Именно в этом принципе находит свое строгое математическое объяснение движение броуновской частицы.

Идея состоит в том, что при суммировании большого числа независимых величин (ударов молекул о частицы пыльцы) в определенных разумных условиях получаются именно нормально распределенные величины. И это происходит независимо, то есть инвариантно, от распределения исходных величин. Иными словами, если на некоторую переменную воздействует множество факторов, эти воздействия независимы, относительно малы и слагаются друг с другом, то получаемая в итоге величина имеет нормальное распределение.

Например, практически бесконечное количество факторов определяет вес человека (тысячи генов, предрасположенность, болезни и т. д.). Таким образом, можно ожидать нормальное распределение веса в популяции всех людей.

Если вы финансист и занимаетесь игрой на бирже, то, конечно, вам известны случаи, когда курсы акций ведут себя подобно броуновским частицам, испытывая хаотические удары многих факторов.

Формально плотность нормального распределения записывается так:

где а и õ 2 - параметры закона, интерпретируемые соответственно как среднее значение и дисперсия данной случайной величины (ввиду особой роли нормального распределения мы будем использовать специальную символику для обозначения его функции плотности и функции распределения). Визуально график нормальной плотности - это знаменитая колоколообразная кривая.

Соответствующая функция распределения нормальной случайной величины (а,õ 2) обозначается Ф(x; a,õ 2) и задается соотношением:


Нормальный закон с параметрами а = 0 и õ 2 = 1 называется стандартным.

Обратная функция стандартного нормального распределения, примененная к величине z, 0

Воспользуйтесь вероятностным калькулятором STATISTICA, чтобы по х вычислить z и наоборот.

Основные характеристики нормального закона:

Среднее, мода, медиана: Е=x mod =x med =a;

Дисперсия: D=õ 2 ;

Ассиметрия:

Эксцесс:

Из формул видно, что нормальное распределение описывается двумя параметрами:

а - mean - среднее;

õ - stantard deviation - стандартное отклонение, читается: «сигма».

Иногда стандартное отклонение называют среднеквадратическим отклонением , но это уже устаревшая терминология.

Приведем некоторые полезные факты относительно нормального распределения.

Среднее значение определяет меру расположения плотности. Плотность нормального распределения симметрична относительно среднего. Среднее нормального распределения совпадает с медианой и модой (см. графики).

Плотность нормального распределения с дисперсией 1 и средним 1

Плотность нормального распределения со средним 0 и дисперсией 0,01

Плотность нормального распределения со средним 0 и дисперсией 4

При увеличении дисперсии плотность нормального распределения расплывается или растекается вдоль оси ОХ, при уменьшении дисперсии она, наоборот, сжимается, концентрируясь вокруг одной точки - точки максимального значения, совпадающей со средним значением. В предельном случае нулевой дисперсии случайная величина вырождается и принимает единственное значение, равное среднему.

Полезно знать правила 2- и 3-сигма, или 2- и 3-стандартных отклонений, которые связаны с нормальным распределением и используются в разнообразных приложениях. Смысл этих правил очень простой.

Если от точки среднего или, что то же самое, от точки максимума плотности нормального распределения отложить вправо и влево соответственно два и три стандартных отклонения (2- и 3-сигма), то площадь под графиком нормальной плотности, подсчитанная по этому промежутку, будет соответственно равна 95,45% и 99,73% всей площади под графиком (проверьте на вероятностном калькуляторе STATISTICA!).

Другими словами, это можно выразить следующим образом: 95,45% и 99,73% всех независимых наблюдений из нормальной совокупности, например размеров детали или цены акций, лежит в зоне 2- и 3-стандартных отклонений от среднего значения.

Равномерное распределение

Равномерное распределение полезно при описании переменных, у которых каждое значение равновероятно, иными словами, значения переменной равномерно распределены в некоторой области.

Ниже приведены формулы плотности и функции распределения равномерной случайной величины, принимающей значения на отрезке [а, b].

Из этих формул легко понять, что вероятность того, что равномерная случайная величина примет значения из множества [с, d] [а, b], равна (d - c)/(b - a).

Положим а=0,b=1. Ниже показан график равномерной плотности вероятности, сосредоточенной на отрезке .

Числовые характеристики равномерного закона:

Экспоненциальное распределение

Имеют место события, которые на обыденном языке можно назвать редкими. Если Т - время между наступлениями редких событий, происходящих в среднем с интенсивностью X, то величина
T имеет экспоненциальное распределение с параметром (лямбда). Экспоненциальное распределение часто используется для описания интервалов между последовательными случайными событиями, например, интервалов между заходами на непопулярный сайт, так как эти посещения являются редкими событиями.

Это распределение обладает очень интересным свойством отсутствия последействия, или, как еще говорят, марковским свойством, в честь знаменитого русского математика Маркова А. А., которое можно объяснить следующим образом. Если распределение между моментами наступления некоторых событий является показательным, то распределение, отсчитанное от любого момента t до следующего события, также имеет показательное распределение (с тем же самым параметром).

Иными словами, для потока редких событий время ожидания следующего посетителя всегда распределено показательно независимо от того, сколько времени вы его уже ждали.

Показательное распределение связано с пуассоновским распределением: в единичном интервале времени количество событий, интервалы между которыми независимы и показательно распределены, имеет распределение Пуассона. Если интервалы между посещениями сайта имеют экспоненциальное распределение, то количество посещений, например в течение часа, распределено по закону Пуассона.

Показательное распределение представляет собой частный случай распределения Вейбулла.

Если время не непрерывно, а дискретно, то аналогом показательного распределения является геометрическое распределение.

Плотность экспоненциального распределения описывается формулой:

Это распределение имеет только один параметр, который и определяет его характеристики.

График плотности показательного распределения имеет вид:

Основные числовые характеристики экспоненциального распределения:

Распределение Эрланга

Это непрерывное распределение сосредоточено на (0,1) и имеет плотность:

Математическое ожидание и дисперсия равны соответственно

Распределение Эрланга названо в честь А. Эрланга (A. Erlang), впервые применившего его в задачах теории массового обслуживания и телефонии.

Распределение Эрланга с параметрами µ и n является распределением суммы п независимых, одинаково распределенных случайных величин, каждая из которых имеет показательное распределение с параметром nµ

При n = 1 распределение Эрланга совпадает с показательным или экспоненциальным распределением.

Распределение Лапласа

Функция плотности распределения Лапласа, или, как его еще называют, двойного экспоненциального, используется, например, для описания распределения ошибок в моделях регрессии. Взглянув на график этого распределения, вы увидите, что оно состоит из двух экспоненциальных распределений, симметричных относительно оси OY.

Если параметр положения равен 0, то функция плотности распределения Лапласа имеет вид:

Основные числовые характеристики этого закона распределения в предположении, что параметр положения нулевой, выглядят следующим образом:

В общем случае плотность распределения Лапласа имеет вид:

а - среднее распределения; b - параметр масштаба; е - число Эйлера (2,71...).

Гамма-распределение

Плотность экспоненциального распределения имеет моду в точке 0, и это иногда неудобно для практических применений. Во многих примерах заранее известно, что мода рассматриваемой случайной переменной не равна 0, например, интервалы между приходами покупателей в магазин электронной торговли или заходами на сайт имеют ярко выраженную моду. Для моделирования таких событий используется гамма-распределение.

Плотность гамма-распределения имеет вид:

где Г - Г-функция Эйлера, а > 0 - параметр «формы» и b > 0 - параметр масштаба.

В частном случае имеем распределение Эрланга и экспоненциальное распределение.

Основные характеристики гамма-распределения:

Ниже приведены два графика плотности гамма-распределения с параметром масштаба, равным 1, и параметрами формы, равными 3 и 5.

Полезное свойство гамма-распределения: сумма любого числа независимых гамма-распределенных случайных величин (с одинаковым параметром масштаба b)

(a l ,b) + (a 2 ,b) + --- +(a n ,b) также подчиняется гамма-распределению, но с параметрами а 1 + а 2 + + а n и b.

Логнормальное распределение

Случайная величина h называется логарифмически нормальной, или логнормальной, если ее натуральный логарифм (lnh) подчинен нормальному закону распределения.

Логнормальное распределение используется, например, при моделировании таких переменных, как доходы, возраст новобрачных или допустимое отклонение от стандарта вредных веществ в продуктах питания.

Итак, если величина x имеет нормальное распределение, то величина у = е x имеет Логнормальное распределение.

Если вы подставите нормальную величину в степень экспоненты, то легко поймете, что логнормальная величина получается в результате многократных умножений независимых величин, так же как нормальная случайная величина есть результат многократного суммирования.

Плотность логнормального распределения имеет вид:

Основные характеристики логарифмически нормального распределения:


Хи-квадрат-распределение

Сумма квадратов т независимых нормальных величин со средним 0 и дисперсией 1 имеет хи-квадрат-распределение с т степенями свободы. Это распределение наиболее часто используется при анализе данных.

Формально плотность ям-квадрат -распределения с т степенями свободы имеет вид:

При отрицательных х плотность обращается в 0.

Основные числовые характеристики хи -квадрат-распределения:

График плотности приводится на рисунке ниже:

Биномиальное распределение

Биномиальное распределение является наиболее важным дискретным распределением, которое сосредоточено всего лишь в нескольких точках. Этим точкам биномиальное распределение приписывает положительные вероятности. Таким образом, биномиальное распределение отличается от непрерывных распределений (нормального, хи-квадрат и др.), которые приписывают нулевые вероятности отдельно выбранным точкам и называются непрерывными.

Лучше понять биномиальное распределение можно, рассмотрев следующую игру.

Представьте, что вы бросаете монету. Пусть вероятность выпадения герба есть р, а вероятность выпадения решки есть q = 1 - р (мы рассматриваем самый общий случай, когда монета несимметрична, имеет, например, смещенный центр тяжести-в монете сделана дырка).

Выпадение герба считается успехом, а выпадение решки - неудачей. Тогда число выпавших гербов (или решек) имеет биномиальное распределение.

Отметим, что рассмотрение несимметричных монет или неправильных игральных костей имеет практический интерес. Как отметил Дж. Нейман в своей изящной книге «Вводный курс теории вероятностей и математической статистики», люди давно догадались, что частота выпадений очков на игральной кости зависит от свойств самой этой кости и может быть искусственно изменена. Археологи обнаружили в гробнице фараона две пары костей: «честные» - с равными вероятностями выпадения всех граней, и фальшивые - с умышленным смещением центра тяжести, что увеличивало вероятность выпадения шестерок.

Параметрами биномиального распределения являются вероятность успеха р (q = 1 - р) и число испытаний п.

Биномиальное распределение полезно для описания распределения биномиальных событий, таких, например, как количество мужчин и женщин в случайно выбранных компаниях. Особую важность имеет применение биномиального распределения в игровых задачах.

Точная формула для вероятности т успехов в n испытаниях записывается так:

p-вероятность успеха

q равно 1-p, q>=0, p+q==1

n- число испытаний, m =0,1...m

Основные характеристики биноминального распределения:

График этого распределения при различном числе испытаний п и вероятностях успеха р имеет вид:

Биномиальное распределение связано с нормальным распределением и распределением Пуассона (см. ниже); при определенных значениях параметров при большом числе испытаний оно превращается в эти распределения. Это легко продемонстрировать с помощью STATISTICA.

Например, рассматривая график биномиального распределения с параметрами р=0,7,n = 100 (см. рисунок), мы использовали STATISTICA BASIC, - вы можете заметить, что график очень похож на плотность нормального распределения (так оно и есть на самом деле!).

График биномиального распределения с параметрами р=0,05, n= 100 очень похож на график пуассоновского распределения.

Как уже было сказано, биномиальное распределение возникло из наблюдений за простейшей азартной игрой - бросание правильной монеты. Во многих ситуациях эта модель служит хорошим первым приближением для более сложных игр и случайных процессов, возникающих при игре на бирже. Замечательно, что существенные черты многих сложных процессов можно понять, исходя из простой биномиальной модели.

Например, рассмотрим следующую ситуацию.

Отметим выпадение герба как 1, а выпадение решки - минус 1 и будем суммировать выигрыши и проигрыши в последовательные моменты времени. На графиках показаны типичные траектории такой игры при 1 000 бросков, при 5 000 бросков и при 10 000 бросков. Обратите внимание, какие длинные отрезки времени траектория находится выше или ниже нуля, иными словами, время, в течение которого один из игроков находится в выигрыше в абсолютно справедливой игре, очень продолжительно, а переходы от выигрыша к проигрышу относительно редки, и это с трудом укладывается в неподготовленном сознании, для которого выражение «абсолютно справедливая игра» звучит как магическое заклинание. Итак, хотя игра и справедлива по условиям, поведение типичной траектории вовсе не справедливо и не демонстрирует равновесия!

Конечно, эмпирически этот факт известен всем игрокам, с ним связана стратегия, когда игроку не дают уйти с выигрышем, а заставляют играть дальше.


Рассмотрим количество бросков, в течение которых один игрок находится в выигрыше (траектория выше 0), а второй - в проигрыше (траектория ниже 0). На первый взгляд кажется, что количество таких бросков примерно одинаково. Однако (см. захватывающую книгу: Феллер В. «Введение в теорию вероятностей и ее приложения». Москва: Мир, 1984, с.106) при 10 000 бросках идеальной монеты (то есть для испытаний Бернулли с р = q = 0,5, n=10 000) вероятность того, что одна из сторон будет лидировать на протяжении более 9 930 испытаний, а вторая - менее 70, превосходит 0,1.

Удивительно, что в игре, состоящей из 10 000 бросаний правильной монеты, вероятность того, что лидерство поменяется не более 8 раз, превышает 0,14, а вероятность более 78 изменений лидерства приблизительно равна 0,12.

Итак, мы имеем парадоксальную ситуацию: в симметричном блуждании Бернулли «волны» на графике между последовательными возвращениями в нуль (см. графики) могут быть поразительно длинными. С этим связано и другое обстоятельство, а именно то, что для Т n /n (доли времени, когда график находится выше оси абсцисс) наименее вероятными оказываются значения, близкие к 1/2.

Математиками был открыт так называемый закон арксинуса, согласно которому при каждом 0 < а <1 вероятность неравенства , где Т n - число шагов, в течение которых первый игрок находится в выигрыше, стремится к

Распределение арксинуса

Это непрерывное распределение сосредоточено на интервале (0, 1) и имеет плотность:

Распределение арксинуса связано со случайным блужданием. Это распределение доли времени, в течение которого первый игрок находится в выигрыше при бросании симметричной монеты, то есть монеты, которая с равными вероятностями S падает на герб и решку. По-другому такую игру можно рассматривать как случайное блуждание частицы, которая, стартуя из нуля, с равными вероятностями делает единичные скачки вправо или влево. Так как скачки частицы - выпадения герба или решки - равновероятны, то такое блуждание часто называется симметричным. Если бы вероятности были разными, то мы имели бы несимметричное блуждание.

График плотности распределения арксинуса приведен на следующем рисунке:

Самое интересное - это качественная интерпретация графика, из которой можно сделать удивительные выводы о сериях выигрышей и проигрышей в справедливой игре. Взглянув на график, вы можете заметить, что минимум плотности находится в точке 1/2.« Ну и что?!» - спросите вы. Но если вы задумаетесь над этим наблюдением, то вашему удивлению не будет границ! Оказывается, определенная как справедливая, игра в действительности вовсе не такая справедливая, как может показаться на первый взгляд.

Траектории симметричного случайного, в которых частица равное время проводит как на положительной, так и на отрицательной полуоси, то есть правее или левее нуля, являются как раз наименее вероятными. Переходя на язык игроков, можно сказать, что при бросании симметричной монеты игры, в которых игроки находятся равное время в выигрыше и проигрыше, наименее вероятны.

Напротив, игры, в которых один игрок значительно чаще находится в выигрыше, а другой соответственно в проигрыше, являются наиболее вероятными. Удивительный парадокс!

Чтобы рассчитать вероятность того, что доля времени т, в течение которой первый игрок находится в выигрыше, лежит в пределах от t1 до t2, нужно из значения функции распределения F(t2) вычесть значение функции распределения F(t1).

Формально получаем:

P{t1

Опираясь на этот факт, можно вычислить с помощью STATISTICА, что при 10 000 шагов частица остается на положительной стороне более чем 9930 моментов времени с вероятностью 0,1, то есть, грубо говоря, подобное положение будет наблюдаться не реже чем в одном случае из десяти (хотя, на первый взгляд, оно кажется абсурдным; см. замечательную по ясности заметку Ю. В. Прохорова «Блуждание Бернулли» в энциклопедии «Вероятность и математическая статистика», с. 42-43, М.: Большая Российская Энциклопедия, 1999).

Отрицательное биномиальное распределение

Это дискретное распределение, приписывающее целым точкам k = 0,1,2,... вероятности:

p k =P{X=k}=C k r+k-1 p r (l-p) k ", где 0<р<1,r>0.

Отрицательное биномиальное распределение встречается во многих приложениях.

При целом r > 0 отрицательное биномиальное распределение интерпретируется как распределение времени ожидания r-го «успеха» в схеме испытаний Бернулли с вероятностью «успеха» р, например, количество бросков, которые нужно сделать до второго выпадения герба, в этом случае оно иногда называется распределением Паскаля и является дискретным аналогом гамма-распределения.

При r = 1 отрицательное биномиальное распределение совпадает с геометрическим распределением.

Если Y - случайная величина, имеющая распределение Пуассона со случайным параметром , который, в свою очередь, имеет гамма-распределение с плотностью

То Убудет иметь отрицательно биномиальное распределение с параметрами;

Распределение Пуассона

Распределение Пуассона иногда называют распределением редких событий. Примерами переменных, распределенных по закону Пуассона, могут служить: число несчастных случаев, число дефектов в производственном процессе и т. д. Распределение Пуассона определяется формулой:

Основные характеристики пуассоновской случайной величины:

Распределение Пуассона связано с показательным распределением и с распределением Бернулли.

Если число событий имеет распределение Пуассона, то интервалы между событиями имеют экспоненциальное или показательное распределение.

График распределения Пуассона:

Сравните график пуассоновского распределения с параметром 5 с графиком распределения Бернулли при p=q=0,5,n=100.

Вы увидите, что графики очень похожи. В общем случае имеется следующая закономерность (см. например, превосходную книгу: Ширяев А. Н. «Вероятность». Москва: Наука, с. 76): если в испытаниях Бернулли n принимает большие значения, а вероятность успеха/? относительно мала, так что среднее число успехов (произведение и нар) и не мало и не велико, то распределение Бернулли с параметрами n, р можно заменить распределением Пуассона с параметром = np.

Распределение Пуассона широко используется на практике, например, в картах контроля качества как распределение редких событий.

В качестве другого примера рассмотрим следующую задачу, связанную с телефонными линиями и взятую из практики (см.: Феллер В. Введение в теорию вероятностей и ее приложения. Москва: Мир, 1984, с. 205, а также Molina E. С. (1935) Probability in engineering, Electrical engineering, 54, p. 423-427; Bell Telephone System Technical Publications Monograph B-854). Эту задачу легко перевести на современный язык, например на язык мобильной связи, что и предлагается сделать заинтересованным читателям.

Задача формулируется следующим образом. Пусть имеется две телефонные станции - А и В.

Телефонная станция А должна обеспечить связь 2 000 абонентов со станцией В. Качество связи должно быть таким, чтобы только 1 вызов из 100 ждал, когда освободится линия.

Спрашивается: сколько нужно провести телефонных линий, чтобы обеспечить заданное качество связи? Очевидно, что глупо создавать 2 000 линий, так как длительное время многие из них будут свободными. Из интуитивных соображений ясно, что, по-видимому, имеется какое-то оптимальное число линий N. Как рассчитать это количество?

Начнем с реалистической модели, которая описывает интенсивность обращения абонента к сети, при этом заметим, что точность модели, конечно, можно проверить, используя стандартные статистические критерии.

Итак, предположим, что каждый абонент использует линию в среднем 2 минуты в час и подключения абонентов независимы (однако, как справедливо замечает Феллер, последнее имеет место, если не происходит некоторых событий, затрагивающих всех абонентов, например, войны или урагана).

Тогда мы имеем 2000 испытаний Бернулли (бросков монеты) или подключений к сети с вероятностью успеха p=2/60=1/30.

Нужно найти такое N, когда вероятность того, что к сети одновременно подключается больше N пользователей, не превосходит 0,01. Эти расчеты легко можно решить в системе STATISTICA.

Решение задачи на STATISTICA.

Шаг 1. Откройте модульОсновные статистики . Создайте файл binoml.sta, содержащий 110 наблюдений. Назовите первую переменную БИНОМ , вторую переменную - ПУАССОН .

Шаг 2. БИНОМ , откройте окно Переменная 1 (см. рис.). Введите в окно формулу, как показано на рисунке. Нажмите кнопку ОК .


Шаг 3. Дважды щелкнув мышью на заголовке ПУАССОН , откройте окно Переменная 2 (см. рис.)

Введите в окно формулу, как показано на рисунке. Обратите внимание, что мы вычисляем параметр распределения Пуассона по формуле =n×p. Поэтому = 2000 × 1/30. Нажмите кнопку ОК .


STATISTICA рассчитает вероятности и запишет их в созданный файл.

Шаг 4. Прокрутите построенную таблицу до наблюдений с номером 86. Вы увидите, что вероятность того, что в течение часа из 2000 пользователей сети одновременно работают 86 или более, равна 0,01347, если используется биномиальное распределение.

Вероятность того, что в течение часа из 2000 пользователей сети одновременно работают 86 или более человек, равна 0,01293, если используется пуассоновское приближение для биномиального распределения.

Так как нам нужна вероятность не более 0,01, то 87 линий будет достаточно, чтобы обеспечить нужное качество связи.

Близкие результаты можно получить, если использовать нормальное приближение для биномиального распределения (проверьте это!).

Заметим, что В. Феллер не имел в своем распоряжении систему STATISTICA и использовал таблицы для биномиального и нормального распределения.

С помощью таких же рассуждений можно решить следующую задачу, обсуждаемую В. Феллером. Требуется проверить, больше или меньше линий потребуется для надежного обслуживания пользователей при разбиении их на 2 группы по 1000 человек в каждой.

Оказывается, при разбиении пользователей на группы потребуется дополнительно 10 линий, чтобы достичь качества того же уровня.

Можно также учесть изменение интенсивности подключения к сети в течение дня.

Геометрическое распределение

Если проводятся независимые испытания Бернулли и подсчитывается количество испытаний до наступления следующего «успеха», то это число имеет геометрическое распределение. Таким образом, если вы бросаете монету, то число подбрасываний, которое вам нужно сделать до выпадения очередного герба, подчиняется геометрическому закону.

Геометрическое распределение определяется формулой:

F(x) = p(1-p) x-1

р - вероятность успеха, х = 1, 2,3...

Название распределения связано с геометрической прогрессией.

Итак, геометрическое распределение задает вероятность того, что успех наступил на определенном шаге.

Геометрическое распределение представляет собой дискретный аналог показательного распределения. Если время изменяется квантами, то вероятность успеха в каждый момент времени описывается геометрическим законом. Если время непрерывно, то вероятность описывается показательным или экспоненциальным законом.

Гипергеометрическое распределение

Это дискретное распределение вероятностей случайной величины X, принимающей целочисленные значения т = 0, 1,2,...,n с вероятностями:

где N, М и n - целые неотрицательные числа и М < N, n < N.

Гипергеометрическое распределение обычно связано с выбором без возвращения и определяет, например, вероятность найти ровно т черных шаров в случайной выборке объема n из генеральной совокупности, содержащей N шаров, среди которых М черных и N - М белых (см., например, энциклопедию «Вероятность и математическая статистика», М.: Большая Российская Энциклопедия, с. 144).

Математическое ожидание гипергеометрического распределения не зависит от N и совпадает с математическим ожиданием µ=np соответствующего биномиального распределения.

Дисперсия гипергеометрического распределения не превосходит дисперсии биномиального распределения npq. При моменты любого порядка гипергеометрического распределения стремятся к соответствующим значениям моментов биномиального распределения.

Это распределение чрезвычайно часто возникает в задачах, связанных с контролем качества.

Полиномиальное распределение

Полиномиальное, или мультиномиальное, распределение естественно обобщает распределение. Если биномиальное распределение возникает при бросании монеты с двумя исходами (решетка или герб), то полиномиальное распределение возникает, когда бросается игральная кость и имеется больше двух возможных исходов. Формально - это совместное распределение вероятностей случайных величин X 1 ,...,X k , принимающих целые неотрицательные значения n 1 ,...,n k , удовлетворяющие условию n 1 + ... + n k = n, c вероятностями:

Название «полиномиальное распределение» объясняется тем, что мультиномиальные вероятности возникают при разложении полинома (р 1 + ... + p k) n

Бета-распределение

Бета-распределение имеет плотность вида:


Стандартное бета-распределение сосредоточено на отрезке от 0 до 1. Применяя линейные преобразования, бета-величину можно преобразовать так, что она будет принимать значения на любом интервале.

Основные числовые характеристики величины, имеющей бета-распределение:


Распределение экстремальных значений

Распределение экстремальных значений (тип I) имеет плотность вида:

Это распределение иногда также называют распределением крайних значений.

Распределение экстремальных значении используется при моделировании экстремальных событий, например, уровней наводнений, скоростей вихрей, максимума индексов рынков ценных бумаг за данный год и т. д.

Это распределение используется в теории надежности, например, для описания времени отказа электрических схем, а также в в актуарных расчетах.

Распределения Релея

Распределение Релея имеет плотность вида:

где b - параметр масштаба.

Распределение Релея сосредоточено в интервале от 0 до бесконечности. Вместо значения 0 STATISTICA позволяет ввести другое значение порогового параметра, которое будет вычтено из исходных данных перед подгонкой распределения Релея. Следовательно, значение порогового параметра должно быть меньше всех наблюдаемых значений.

Если две переменные у 1 и у 2 являются независимыми друг от друга и нормально распределены с одинаковой дисперсией, то переменная будет иметь распределение Релея.

Распределение Релея используется, например, в теории стрельбы.


Распределение Вейбулла

Распределение Вейбулла названо в честь шведского исследователя Валодди Вейбулла (Waloddi Weibull), применявшего это распределение для описания времен отказов разного типа в теории надежности.

Формально плотность распределения Вейбулла записывается в виде:

Иногда плотность распределения Вейбулла записывается также в виде:

B - параметр масштаба;

С - параметр формы;

Е - константа Эйлера (2,718...).

Параметр положения. Обычно распределение Вейбулла сосредоточено на полуоси от 0 до бесконечности. Если вместо границы 0 ввести параметр а, что часто бывает необходимо на практике, то возникает так называемое трехпараметрическое распределение Вейбулла.

Распределение Вейбулла интенсивно используется в теории надежности и страховании.

Как описывалось выше, экспоненциальное распределение часто используется как модель, оценивающая время наработки до отказа в предположении, что вероятность отказа объекта постоянна. Если вероятность отказа меняется с течением времени, применяется распределение Вейбулла.

При с =1 или, в другой параметризации, при распределение Вейбулла, как легко видеть из формул, переходит в экспоненциальное распределение, а при - в распределение Релея.

Разработаны специальные методы оценки параметров распределения Вейбулла (см. например, книгу: Lawless (1982) Statistical models and methods for lifetime data, Belmont, CA: Lifetime Learning, где описаны методы оценивания, а также проблемы, возникающие при оценке параметра положения для трехпараметрического распределения Вейбулла).

Часто при проведении анализа надежности необходимо рассматривать вероятность отказа в течение малого интервала времени после момента времени t при условии, что до момента t отказа не произошло.

Такая функция называется функцией риска, или функцией интенсивности отказов, и формально определяется следующим образом:

H(t) - функция интенсивности отказов или функция риска в момент времени t;

f(t) - плотность распределения времен отказов;

F(t) - функция распределения времен отказов (интеграл от плотности по интервалу ).

В общем виде функция интенсивности отказов записывается так:

При функция риска равна константе, что соответствует нормальной эксплуатации прибора (см. формулы).

При функция риска убывает, что соответствует приработке прибора.

При функция риска убывает, что соответствует старению прибора. Типичные функции риска показаны на графике.


Ниже показаны графики плотности распределения Вейбулла с различными параметрами. Нужно обратить внимание на три области значений параметра а:

В первой области функция риска убывает (период настройки), во второй области функция риска равна константе, в третьей области функция риска возрастает.

Вы легко поймете сказанное на примере покупки нового автомобиля: вначале идет период адаптации машины, затем длительный период нормальной эксплуатации, далее детали автомобиля изнашиваются и функция риска выхода его из строя резко возрастает.

Важно, что все периоды эксплуатации можно описать одним и тем же семейством распределения. В этом и состоит идея распределения Вейбулла.


Приведем основные числовые характеристики распределения Вейбулла.


Распределение Парето

В различных задачах прикладной статистики довольно часто встречаются так называемые усеченные распределения.

Например, это распределение используется в страховании или в налогообложении, когда интерес представляют доходы, которые превосходят некоторую величину c 0

Основные числовые характеристики распределения Парето:


Логистическое распределение

Логистическое распределение имеет функцию плотности:

А - параметр положения;

B - параметр масштаба;

Е - число Эйлера (2,71...).


Хотеллинга Т 2 -распределение

Это непрерывное распределение, сосредоточенное на интервале (0, Г), имеет плотность:

где параметры n и k, n >_k >_1, называются степенями свободы.

При k = 1 Хотеллинга Р-распределение сводится к распределению Стьюдента, а при любом k >1 может рассматриваться как обобщение распределения Стьюдента на многомерный случай.

Распределение Хотеллинга строится исходя из нормального распределения.

Пусть k-мерный случайный вектор Y имеет нормальное распределение с нулевым вектором средних и ковариационной матрицей .

Рассмотрим величину

где случайные векторы Z i независимы между собой и Y и распределены так же, как Y.

Тогда случайная величина Т 2 =Y T S -1 Y имеет T 2 -распределение Хотеллинга с n степенями свободы (Y - вектор-столбец, Т - оператор транспонирования).

где случайная величина t n имеет распределение Стьюдента с n степенями свободы (см. «Вероятность и математическая статистика», Энциклопедия, с. 792).

Если Y имеет нормальное распределение с ненулевым средним, то соответствующее распределение называется нецентральным Хотеллинга T 2 -распределением с n степенями свободы и параметром нецентральности v.

Хотеллинга T 2 -распределение используют в математической статистике в той же ситуации, что и ^-распределение Стьюдента, но только в многомерном случае. Если результаты наблюдений X 1 ,..., Х n представляют собой независимые, нормально распределенные случайные векторы с вектором средних µ и невырожденной ковариационной матрицей , то статистика


имеет Хотеллинга T 2 -распределение с n - 1 степенями свободы. Этот факт положен в основу критерия Хотеллинга.

В STATISTICA критерий Хотеллинга доступен, например, в модуле Основные статистики и таблицы (см. приведенное ниже диалоговое окно).


Распределение Максвелла

Распределение Максвелла возникло в физике при описании распределения скоростей молекул идеального газа.

Это непрерывное распределение сосредоточено на (0, ) и имеет плотность:

Функция распределения имеет вид:

где Ф(x) - функция стандартного нормального распределения. Распределение Максвелла имеет положительный коэффициент асимметрии и единственную моду в точке (то есть распределение унимодально).

Распределение Максвелла имеет конечные моменты любого порядка; математическое ожидание и дисперсия равны соответственно и

Распределение Максвелла естественным образом связано с нормальным распределением.

Если Х 1 , Х 2 , Х 3 - независимые случайные величины, имеющие нормальное распределение с параметрами 0 и õ 2 , то случайная величина имеет распределение Максвелла. Таким образом, распределение Максвелла можно рассматривать как распределение длины случайного вектора, координаты которого в декартовой системе координат в трехмерном пространстве независимы и нормально распределены со средним 0 и дисперсией õ 2 .

Распределение Коши

У этого удивительного распределения иногда не существует среднего значения, т. к. плотность его очень медленно стремится к нулю при увеличении x по абсолютной величине. Такие распределения называют распределениями с тяжелыми хвостами. Если вам нужно придумать распределение, не имеющее среднего, то сразу называйте распределение Коши.

Распределение Коши унимодально и симметрично относительно моды, которая одновременно является и медианой, и имеет функцию плотности вида:

где с > 0 - параметр масштаба и а - параметр центра, определяющий одновременно значения моды и медианы.

Интеграл от плотности, то есть функция распределения задается соотношением:

Распределение Стьюдента

Английский статистик В. Госсет, известный под псевдонимом «Стьюдент» и начавший свою карьеру со статистического исследования качества английского пива, получил в 1908 г. следующий результат. Пусть x 0 , x 1 ,.., х m - независимые, (0, s 2) - нормально распределенные случайные величины:


Это распределение, известное теперь как распределение Стьюдента (кратко обозначается как t(m) -распределения, где т, число степеней свободы), лежит в основе знаменитого t-критерия, предназначенного для сравнения средних двух совокупностей.

Функция плотности f t (x) не зависит от дисперсии õ 2 случайных величин и, кроме того, является унимодальной и симметричной относительно точки х = 0.

Основные числовые характеристики распределения Стьюдента:

t-распределение важно в тех случаях, когда рассматриваются оценки среднего и неизвестна дисперсия выборки. В этом случае используют выборочную дисперсию и t-распределение.

При больших степенях свободы (больших 30) t-распределение практически совпадает со стандартным нормальным распределением.

График функции плотности t-распределения деформируется при возрастании числа степеней свободы следующим образом: пик увеличивается, хвосты более круто идут к 0, и кажется, будто графики функции плотности t-распределения сжимается с боков.


F-распределение

Рассмотрим m 1 + m 2 независимых и (0, s 2) нормально распределенных величин

и положим

Очевидно, та же самая случайная величина может быть определена и как отношение двух независимых и соответствующим образом нормированных хи-квадрат-распределенных величин и , то есть

Знаменитый английский статистик Р. Фишер в 1924 году показал, что плотность вероятности случайной величины F(m 1 , m 2) задается функцией:


где Г (у) - значение гамма-функции Эйлера в. точке у, а сам закон называется F-pacпределением с числами степеней свободы числителя и знаменателя, равными соответственно т,1л т7

Основные числовые характеристики F-распределения:


F-распределение возникает в дискриминантом, регрессионном и дисперсионном анализе, а также в других видах многомерного анализа данных.

Распределение вероятностей - вероятностная мера на измеримом пространстве.

Пусть W - непустое множество произвольной природы и Ƒ -s- алгебра на W, то есть совокупность подмножеств W, содержащая само W, пустое множество Æ, и замкнутая относительно не более, чем счетного множества теоретико-множественных операций (это означает, что для любого A Î Ƒ множество = W\A вновь принадлежит Ƒ и если A 1 , A 2 ,…Î Ƒ , то Ƒ и Ƒ ). Пара (W,Ƒ ) называется измеримым пространством. Неотрицательная функция P(A ), определенная для всех A Î Ƒ , называется вероятностной мерой, вероятностью, Р. вероятностей или просто Р., если P(W) = 1 и P является счетно-аддитивной, то есть для любой последовательности A 1 , A 2 ,…Î Ƒ такой, что A i A j = Æ для всех i ¹ j , справедливо равенство P() = P(A i ). Тройка (W, Ƒ , P) называется вероятностным пространством. Вероятностное пространство является исходным понятием аксиоматической теории вероятностей , предложенной А.Н. Колмогоровым в начале 1930 гг.

На каждом вероятностном пространстве можно рассматривать (действительные) измеримые функции X = X (w), wÎW, то есть такие функции, что {w: X (w) Î B } Î Ƒ для любого борелевского подмножества B действительной прямой R . Измеримость функции X эквивалентна тому, что {w: X (w) < x } Î Ƒ для любого действительного x . Измеримые функции называются случайными величинами. Каждая случайная величина X , опреде-ленная на вероятностном пространстве (W, Ƒ , P), порождает Р. вероятностей

P X (B ) = P(X ÎB ) = P({w: X (w) Î B }), B ÎƁ ,
на измеримом пространстве (R , Ɓ ), где Ɓ R , и функцию распределения

F X (x ) = P(X < x ) = P({w: X (w) < x }), -¥ < x <¥,
которые называются Р. вероятностей и функцией распределения случайной величины X .

Функция распределения F любой случайной величины обладает свойствами

1. F (x ) неубывает,

2. F (- ¥) = 0, F (¥) = 1,

3. F (x ) непрерывна слева в каждой точке x .

Иногда в определении функции распределения неравенство < заменяется неравенством £; в этом случае функция распределения является непрерывной справа. В содержательных утверждениях теории вероятностей не важно, непрерывна функция распределения слева или справа, важны лишь положения ее точек разрыва x (если они есть) и величины приращений F (x +0) - F (x -0) в этих точках; если F X , то это приращение есть P(X = x ).

Любая функция F , обладающая свойствами 1. - 3. называется функцией распреде-ления. Соответствие между распределениями на (R , Ɓ ) и функциями распределения взаимно однозначно. Для любого Р. P на (R , Ɓ ) его функция распределения определяется равенством F (x ) = P ((-¥, x )), -¥ < x <¥, а для любой функции распределения F соответствующее ей Р. P определяется на алгебре £ множеств, состоящей из объединений конечного числа непересекающихся промежутков функция F 1 (x ) линейно возрастает от 0 до 1. Для построения функции F 2 (x ) отрезок разбиваеся на отрезок , интервал (1/3, 2/3) и отрезок . Функция F 2 (x ) на интервале (1/3, 2/3) равна 1/2 и линейно возрастает от 0 до 1/2 и от 1/2 до 1 на отрезках и соответственно. Этот процесс продолжается и функция F n +1 получается с помощью следующего преобразования функции F n , n ³ 2. На интервалах, где функция F n (x ) постоянна, F n +1 (x ) совпадает с F n (x ). Каждый отрезок , где функция F n (x ) линейно возрастает от a до b , разбивается на отрезок , интервал (a + (a - b)/3, a + 2(b - a)/3) и отрезок . На указанном интервале F n +1 (x ) равна (a + b )/2, а на указанных отрезках F n +1 (x ) линейно возрастает от a до (a + b )/2и от (a + b )/2 до b соответственно. Для каждого 0 £ x £ 1 последовательность F n (x ), n = 1, 2,..., сходится к некоторому числу F (x ). Последо-вательность функций распределения F n , n = 1, 2,..., равностепенно непрерывна, поэтому предельная функция распределения F (x ) является непрерывной. Эта функция постоянна на счетном множестве интервалов (значения функции на разных интервалах различны), на которых нет ее точек роста, а суммарная длина этих интервалов равна 1. Поэтому мера Лебега множества supp F равна нулю, то есть F сингулярна.

Каждая функция распределения может быть представлена в виде

F (x ) = p ac F ac (x ) + p d F d (x ) + p s F s (x ),
где F ac , F d и F s абсолютно непрерывная, дискретная и сингулярная функции распреде-ления, а сумма неотрицательных чисел p ac , p d и p s равна единице. Это представление называется разложением Лебега, а функции F ac , F d и F s - компонентами разложения.

Функция распределения называется симметричной, если F (-x ) = 1 - F (x + 0) для
x > 0. Если симметричная функция распределения абсолютно непрерывна, то ее плотность - четная функция. Если случайная величина X имеет симметричное распределение, то случайные величины X и -X одинаково распределены. Если симметричная функция распределения F (x ) непрерывна в нуле, то F (0) = 1/2.

Среди часто используемых в теории вероятностей абсолютно непрерывных Р. - равномерное Р., нормальное Р. (Р. Гаусса), экспоненциальное Р. и Р. Коши.

Р. называется равномерным на интервале (a , b ) (или на отрезке [a , b ], или на промежутках [a , b ) и (a , b ]), если его плотность постоянна (и равна 1/(b - a )) на (a , b ) и равна нулю вне (a , b ). Чаще всего используется равномерное Р. на (0, 1), его функция распределения F (x ) равна нулю при x £ 0, равна единице при x >1 и F (x ) = x при 0 < x £ 1. Равномерное Р. на (0, 1) имеет случайная величина X (w) = w на вероятностном прост-ранстве, состоящем из интервала (0, 1), совокупности борелевских подмножеств этого интервала и меры Лебега. Это вероятностное пространство соответствует эксперименту «бросание точки w наудачу на интервал (0, 1)», где слово «наудачу» означает равноправие («равновозможность») всех точек из (0, 1). Если на вероятностном пространстве (W, Ƒ , P) существует случайная величина X с равномерным Р. на (0, 1), то на нем для любой функ-ции распределения F существует случайная величина Y , для которой функция распределе-ния F Y совпадает с F . Например, функция распределения случайной величины Y = F -1 (X ) совпадает с F . Здесь F -1 (y ) = inf{x : F (x ) > y }, 0 < y < 1; если функция F (x ) непрерывна и строго монотонна на всей действительной прямой, то F -1 - функция, обратная F .

Нормальным Р. с параметрами (a , s 2), -¥ < a < ¥, s 2 > 0, называется Р. с плотностью, -¥ < x < ¥. Чаще всего используется нормальное Р. с параметрами a = 0 и s 2 = 1, которое называется стандартным нормальным Р., его функция распределения F(x ) через суперпозиции элементарные функций не выражается и приходится использовать ее интегральное представление F(x ) =, -¥ < x < ¥. Для фунции распределения F(x ) составлены подробные таблицы, которые были необходимы до того как появилась современная вычислительная техника (значения функции F(x ) можно получать и с помощью таблиц спец. функции erf(x )), значения F(x ) для x > 0 можно получать с помощью суммы ряда

,
а для x < 0 можно воспользоваться симметричностью F(x ). Значения нормальной функции распределения с параметрами a и s 2 можно получать, пользуясь тем, что она совпадает с F((x - a )/s). Если X 1 и X 2 независимые нормально распределенные с параметрами a 1 , s 1 2 и a 2 , s 2 2 случайные величины, то распределение их суммы X 1 + X 2 также нормально с параметрами a = a 1 + a 2 и s 2 = s 1 2 + s 2 2 . Верно и утверждение, в некотором смысле, обратное: если случайная величина X нормально распределена с параметрами a и s 2 , и
Х = X 1 + X 2 , где X 1 и X 2 - независимые случайные величины, отличные от постоянных, то X 1 и X 2 имеют нормальные распределения (теорема Крамера). Параметры a 1 , s 1 2 и a 2 , s 2 2 распределений нормальных случайных величин X 1 и X 2 связаны с a и s 2 равенствами, приведенными выше. Стандартное нормальное распределение является предельным в центральной предельной теореме .

Экспоненциальным Р. называется распределение с плотностью p (x ) = 0 при x < 0 и p (x ) = le - lx при x ³ 0, где l > 0 - параметр, его функция распределения F (x ) = 0 при x £ 0 и F (x ) = 1 - e - lx при x > 0 (иногда используются экспоненциальные Р., отличающиеся от указанного сдвигом по действительной оси). Это Р. обладает свойством, которое называ-ется отсутствием последействия: если X - случайная величина с экспоненциальным Р., то для любых положительных x и t

P(X > x + t | X > x ) = P(X > t ).
Если X - время работы некоторого прибора до отказа, то отсутствие последействия озна-чает, что вероятность того, что прибор, включенный в момент времени 0, не откажет до момента x + t при условии, что он не отказал до момента x , не зависит от x . Это свойство интерпретируется как отсутствие «старения». Отсутствие последействия является харак-теризационным свойством экспоненциального Р.: в классе абсолютно непрерывных распределений указанное выше равенство справедливо только для экспоненциального Р. (с некоторым параметром l > 0). Экспоненциальное Р. появляется как предельное Р. в схеме минимума. Пусть X 1 , X 2 ,… - неотрицательные независимые одинаково распреде-ленные случайны величины и для их общей функция распределения F точка 0 является точкой роста. Тогда при n ®¥ распределения случайных величин Y n = min(X 1 ,…, X n ) слабо сходятся к вырожденному распределению с единственной точкой роста 0 (это - аналог закона больших чисел). Если дополнительно предположить, что для некоторого e > 0 функция распределения F (x ) на интервале (0, e) допускает представление и p (u )®l при u ¯ 0, то функции распределения случайных величин Z n = n min(X 1 ,…, X n ) при n ®¥ равномерно по -¥ < x < ¥ сходятся к экспоненциальной функции распределения с параметром l (это - аналог центральной предельной теоремы).

Р. Коши называется Р. с плотностью p (x ) = 1/(p(1 + x 2)), -¥ < x < ¥, его функция рас-пределения F (x ) = (arctg x + p/2)/p. Это Р. появилось в работе С.Пуассона в 1832 г. в связи с решением следующей задачи: существуют ли независимые одинаково распределенные случайные величины X 1 , X 2 ,… такие, что средние арифметические (X 1 + … + X n )/n при каждом n имеют то же Р., что и каждая из случайных величин X 1 , X 2 ,…? С. Пуассон обна-ружил, что таким свойством обладают случайные величины с указанной плотностью. Для этих случайных величин не выполняется утверждение закона больших чисел, в котором средние арифметические (X 1 +…+ X n )/n при росте n вырождаются. Однако, это не проти-воречит закону больших чисел, поскольку в нем на распределения исходных случайных величин налагаются ограничения, которые для указанного распределения не выполнены (для этого распределения существуют абсолютные моменты всех положительных поряд-ков, меньших единицы, но математическое ожидание не существует). В работах О.Коши Р., носящее его имя, появилось в 1853 г. Р. Коши имеет отношение X /Y независимых случайных величин со стандартным нормальным Р.

Среди часто используемых в теории вероятностей дискретных Р. - Р. Бернулли, биномиальное Р. и Р. Пуассона.

Р. Бернулли называется любое распределение с двумя точками роста. Чаще всего используется Р. случайной величины X , принимающей значения 0 и 1 с вероятностями
q = 1 - p и p соответственно, где 0 < p < 1 - параметр. Первые формы закона больших чисел и центральной предельной теоремы были получены для случайных величин, имею-щих Р. Бернулли. Если на вероятностном пространстве (W, Ƒ , P) существует последова-тельность X 1 , X 2 ,… независимых случайных величин, принимающих значения 0 и 1 с вероятностями 1/2 каждое, то на этом вероятностном пространстве существует слчайная величина с равномерным Р. на (0, 1). В частности, случайная величина имеет равномерное распределение на (0, 1).

Биномиальным Р. с параметрами n и p , n - натуральное, 0 < p < 1, называется Р., с точками роста 0, 1,..., n , в которых сосредоточены вероятности C n k p k q n -k , k = 0, 1,…, n ,
q = 1 - p . Оно является Р. суммы n независимых случайных величин, имеющих Р. Бернулли с точками роста 0 и 1, в которых сосредоточены вероятности q и p . Изучение этого распределения привело Я.Бернулли к открытию закона больших чисел, а А.Муавра - к открытию центральной предельной теоремы.

Р. Пуассона называется Р., носитель которого - последовательность точек 0, 1,..., в которых сосредоточены вероятности l k e - l /k !, k = 0, 1,…, где l > 0 - параметр. Сумма двух независимых случайных величин, имеющих Р. Пуассона с параметрами l и m вновь имеет Р. Пуассона с параметром l + m. Р. Пуассона является предельным для Р. Бернулли с пара-метрами n и p = p (n ) при n ®¥, если n и p связаны соотношением np ®l при n ®¥ (теорема Пуассона). Если последовательность 0 < T 1 < T 2 < T 3 <… есть последовательность моментов времени, в которые происходят некоторые события (так. наз поток событий) и величины T 1 , T 2 -T 1 , T 3 - T 2 ,… являются независимыми одинаково распределенными случайными величинами и их общее Р. - экспоненциальное с параметром l > 0, то случайная величина X t , равная числу событий, наступивших на интервале (0, t ), имеет Р. Пуассона с параметром.lt (такой поток называется пуассоновским).

Понятие Р. имеет многочисленные обобщения, в частности, оно распространяется на многомерный случай и на алгебраические структуры.

Несмотря на экзотические названия, распространённые распределения связаны друг с другом достаточно интуитивными и интересными способами, позволяющими легко их вспоминать и уверенно о них рассуждать. Некоторые естественно следуют, например, из распределения Бернулли. Время показать карту этих связей.

Каждое распределение иллюстрируется примером её функции плотности распределения (ФПР). Эта статья только о тех распределениях, у которых исходы – одиночные числа. Поэтому, горизонтальная ось каждого графика – набор возможных чисел-исходов. Вертикальная – вероятность каждого исхода. Некоторые распределения дискретны - у них исходы должны быть целыми числами, типа 0 или 5. Таковые обозначаются редкими линиями, по одной на каждый исход, с высотой, соответствующей вероятности данного исхода. Некоторые – непрерывны, у них исходы могут принять любое численное значение, типа -1.32 или 0.005. Эти показаны плотными кривыми с областями под секциями кривой, которые дают вероятности. Сумма высот линий и областей под кривыми - всегда 1.

Распечатайте, отрежьте по пунктирной линии и носите с собой в кошельке. Это - ваш путеводитель в стране распределений и их родственников.

Бернулли и равномерное

Вы уже встретились с распределением Бернулли выше, с двумя исходами – орлом или решкой. Представьте его теперь как распределение над 0 и 1, 0 – орёл, 1 – решка. Как уже понятно, оба исхода равновероятны, и это отражено на диаграмме. ФПР Бернулли содержит две линии одинаковой высоты, представляющие 2 равновероятных исхода: 0 и 1 соответственно.

Распределение Бернулли может представлять и неравновероятные исходы, типа броска неправильной монетки. Тогда вероятность орла будет не 0.5, а какая-то другая величина p, а вероятность решки – 1-p. Как и многие другие распределения, это на самом деле целое семейство распределений, задаваемых определёнными параметрами, как p выше. Когда будете думать «Бернулли » – думайте про «бросок (возможно, неправильной) монетки».

Отсюда весьма небольшой шаг до того, чтобы представить распределение поверх нескольких равновероятных исходов: равномерное распределение , характеризуемое плоской ФПР. Представьте правильный игральный кубик. Его исходы 1-6 равновероятны. Его можно задать для любого количества исходов n, и даже в виде непрерывного распределения.

Думайте о равномерном распределении как о «правильном игральном кубике».

Биномиальное и гипергеометрическое

Биномиальное распределение можно представить как сумму исходов тех вещей, которые следуют распределению Бернулли.

Киньте честную монету два раза – сколько раз будет орёл? Это число, подчиняющееся биномиальному распределению. Его параметры – n, число испытаний, и p – вероятность «успеха» (в нашем случае – орла или 1). Каждый бросок – распределённый по Бернулли исход, или испытание . Используйте биномиальное распределение, когда считаете количество успехов в вещах типа броска монеты, где каждый бросок не зависит от других и имеет одинаковую вероятность успеха.

Или представьте урну с одинаковым количество белых и чёрных шаров. Закройте глаза, вытащите шар, запишите его цвет и верните назад. Повторите. Сколько раз вытащился чёрный шар? Это число также подчиняется биномиальному распределению.

Эту странную ситуацию мы представили, чтобы было легче понять смысл гипергеометрического распределения . Это распределение того же числа, но в ситуации если бы мы не возвращали шары обратно. Оно, безусловно, двоюродный брат биномиального распределения, но не такое же, так как вероятность успеха изменяется с каждым вытащенным шаром. Если количество шаров достаточно велико по сравнению с количеством вытаскиваний – то эти распределения практически одинаковы, так как шанс успеха изменяется с каждым вытаскиванием крайне незначительно.

Когда где-то говорят о вытаскивании шаров из урн без возврата, практически всегда безопасно ввернуть «да, гипергеометрическое распределение», потому что в жизни я ещё не встречал никого, кто реально наполнял бы урны шарами и потом вытаскивал их и возвращал, или наоборот. У меня даже знакомых нет с урнами. Ещё чаще это распределение должно всплывать при выборе значимого подмножества некоторой генеральной совокупности в качестве выборки.

Прим. перев.

Тут может быть не очень понятно, а раз туториал и экспресс-курс для новичков - надо бы разъяснить. Генеральная совокупность - есть нечто, что мы хотим статистически оценить. Для оценки мы выбираем некоторую часть (подмножество) и производим требуемую оценку на ней (тогда это подмножество называется выборкой), предполагая, что для всей совокупности оценка будет похожей. Но чтобы это было верно, часто требуются дополнительные ограничения на определение подмножества выборки (или наоборот, по известной выборке нам надо оценить, описывает ли она достаточно точно совокупность).

Практический пример - нам нужно выбрать от компании в 100 человек представителей для поездки на E3. Известно, что в ней 10 человек уже ездили в прошлом году (но никто не признаётся). Сколько минимум нужно взять, чтобы в группе с большой вероятностью оказался хотя бы один опытный товарищ? В данном случае генеральная совокупность - 100, выборка - 10, требования к выборке - хотя бы один, уже ездивший на E3.

В википедии есть менее забавный, но более практичный пример про бракованные детали в партии.

Пуассон

Что насчёт количества заказчиков, звонящих по горячей линии в техподдержку каждую минуту? Это исход, чьё распределение на первый взгляд биномиальное, если считать каждую секунду как испытание Бернулли, в течение которой заказчик либо не позвонит (0), либо позвонит (1). Но электроснабжающие организации прекрасно знают: когда выключают электричество – за секунду могут позвонить двое или даже больше сотни людей. Представить это как 60000 миллисекундных испытаний тоже не поможет – испытаний больше, вероятность звонка в миллисекунду меньше, даже если не учитывать двух и более одновременно, но, технически – это всё ещё не испытание Бернулли. Тем не менее, срабатывает логическое рассуждение с переходом к бесконечности. Пусть n стремится к бесконечности, а p – к 0, и так, чтобы np было постоянным. Это как делить на всё более малые доли времени со всё менее малой вероятностью звонка. В пределе мы получим распределение Пуассона .

Так же, как и биномиальное, распределение Пуассона – это распределение количества: количества раз того, как что-то произойдёт. Оно параметризуется не вероятностью p и количеством испытаний n, но средней интенсивностью λ, что, в аналогии с биномиальным, просто постоянное значение np. Распределение Пуассона – то, о чём надо вспоминать, когда идёт речь о подсчёте событий за определённое время при постоянной заданной интенсивности.

Когда есть что-то, типа прихода пакетов на роутер или появления покупателей в магазине или что-то, ожидающее в очереди – думайте «Пуассон ».

Геометрическое и отрицательное биномиальное

Из простых испытаний Бернулли появляется другое распределение. Сколько раз монетка выпадет решкой, прежде, чем выпасть орлом? Число решек подчиняется геометрическому распределению . Как и распределение Бернулли, оно параметризуется вероятностью успешного исхода, p. Оно не параметризуется числом n, количеством бросков-испытаний, потому что число неудачных испытаний как раз и есть исход.

Если биномиальное распределение это «сколько успехов», то геометрическое это «Сколько неудач до успеха?».

Отрицательное биномиальное распределение – простое обобщение предыдущего. Это количество неудач до того, как будет r, а не 1, успехов. Поэтому оно дополнительно параметризуется этим r. Иногда его описывают как число успехов до r неудач. Но, как говорит мой лайф-коуч: «Ты сам решаешь, что есть успех, а что - неудача», так что это тоже самое, если при этом не забыть, что вероятность p тоже должна правильной вероятностью успеха или неудачи соответственно.

Если нужна будет шутка для снятия напряжения, можно упомянуть, что биномиальное и гипергеометрическое распределение – это очевидная пара, но и геометрическое и отрицательное биномиальное так же весьма похожи, после чего заявить «Ну и кто же так их все называет, а?»

Экспоненциальное и Вейбула

Снова о звонках в техподдержку: сколько пройдёт до следующего звонка? Распределение этого времени ожидания как будто бы геометрическое, потому что каждая секунда, пока никто не звонит – это как неуспех, до секунды, пока, наконец, звонок не произойдёт. Количество неудач –это как количество секунд, пока никто не звонил, и это практически время до следующего звонка, но «практически» нам недостаточно. Суть в том, что это время будет суммой целых секунд, и, таким образом, не получится посчитать ожидание внутри этой секунды до непосредственно звонка.

Ну и, как и раньше, переходим в геометрическом распределении к пределу, относительно временных долей – и вуаля. Получаем экспоненциальное распределение , которое точно описывает время до звонка. Это непрерывное распределение, первое такое у нас, потому что исход не обязательно в целых секундах. Как и распределение Пуассона, оно параметризуется интенсивностью λ.

Повторяя связь биномиального с геометрическим, Пуассоновское «сколько событий за время?» связано с экспоненциальным «сколько до события?». Если есть события, количество которых на единицу времени подчиняется распределению Пуассона, то время между ними подчиняется экспоненциальному распределению с тем же параметром λ. Это соответствие между двумя распределениями необходимо отмечать, когда обсуждается любое из них.

Экспоненциальное распределение должно приходить на ум при размышлении о «времени до события», возможно, «времени до отказа». По факту, это такая важная ситуация, что существуют более обобщённые распределения чтобы описать наработку-на-отказ, типа распределения Вейбула . В то время, как экспоненциальное распределение подходит, когда интенсивность - износа, или отказов, например – постоянна, распределение Вейбула может моделировать увеличивающуюся (или уменьшающуюся) со временем интенсивность отказов. Экспоненциальное, в общем-то, частный случай.

Думайте «Вейбул » когда разговор заходит о наработке-на-отказ.

Нормальное, логнормальное, Стьюдента и хи-квадрат

Нормальное , или гауссово , распределение, наверное, одно из важнейших. Его колоколообразная форма узнаётся сразу. Как и , это особенно любопытная сущность, которая проявляется везде, даже из внешне самых простых источников. Возьмите набор значений, подчиняющихся одному распределению – любому! – и сложите их. Распределение их суммы подчиняется (приблизительно) нормальному распределению. Чем больше вещей суммируется – тем ближе их сумма соответствует нормальному распределению (подвох: распределение слагаемых должно быть предсказуемым, быть независимым, оно стремится только к нормальному). То, что это так, несмотря на исходное распределение – это потрясающе.

Прим. перев.

Меня удивило, что автор не пишет про необходимость сопоставимого масштаба суммируемых распределений: если одно существенно доминирует надо остальными - сходиться будет крайне плохо. И, в общем-то, абсолютная взаимная независимость необязательна, достаточна слабая зависимость.

Ну сойдёт, наверное, для вечеринок, как он написал.


Это называется «центральная предельная теорема », и надо знать, что это, почему так названо и что означает, иначе моментально засмеют.

В её разрезе, нормальное связано со всеми распределениями. Хотя, в основном, его связывают с распределениями всяких сумм. Сумма испытаний Бернулли следует биномиальному распределению и, с увеличением количества испытаний, это биномиальное распределение становится всё ближе в нормальному распределению. Аналогично и его двоюродный брат – гипергеометрическое распределение. Распределение Пуассона – предельная форма биномиального – так же приближается к нормальному с увеличением параметра интенсивности.

Исходы, которые подчиняются логнормальному распределению , дают значения, логарифм которых нормально распределён. Или по-другому: экспонента нормально распределённого значения логнормально распределена. Если суммы – нормально распределены, то запомните так же, что произведения распределены логнормально.

t-Распределение Стьюдента – это основа t-теста , который многие нестатистики изучают в других областях. Оно используется для предположений о среднем нормального распределения и так же стремится к нормальному распределению с увеличением своего параметра. Отличительная особенность t-распределения – его хвосты, которые толще, чем у нормального распределения.

Если толстохвостый анекдот недостаточно раскачал вашего соседа – переходите в довольно забавной байке про пиво. Больше 100 лет назад Гиннесс использовал статистику, чтобы улучшить свой стаут. Тогда Вильям Сили Госсет и изобрёл полностью новую статистическую теорию для улучшенного выращивания ячменя. Госсет убедил босса, что другие пивовары не поймут, как использовать его идеи, и получил разрешение на публикацию, но под псевдонимом «Стьюдент». Самое известное достижение Госсета – как раз это самое t-распределение, которое, можно сказать, названо в честь него.

Наконец, распределение хи-квадрат – распределение сумм квадратов нормально-распределенных величин. На этом распределении построен тест хи-квадрат , который сам основан на сумме квадратов разниц, которые должны быть нормально распределены.

Гамма и бета

В этом месте, если вы уже заговорили о чём-то хи-квадратном, разговор начинается всерьёз. Вы уже, возможно, говорите с настоящими статистиками, и, наверное, стоит уже откланиваться, поскольку могут всплыть вещи типа гамма-распределения . Это обобщение и экспоненциального, и хи-квадрат распределения. Как и экспоненциальное распределение, оно используется для сложных моделей времен ожидания. Например, гамма-распределение появляется, когда моделируется время до следующих n событий. Оно появляется в машинном обучении как «сопряжённое априорное распределение » к парочке других распределений.

Не вступайте в разговор об этих сопряжённых распределениях, но если всё-таки придётся, не забудьте сказать о бета-распределении , потому что оно сопряжённое априорное к большинству упомянутых здесь распределений. Data-scientist-ы уверены, что оно именно для этого и сделано. Упомяните об этом ненароком и идите к двери.

Начало мудрости

Распределения вероятности - это то, о чём нельзя знать слишком много. По настоящему заинтересованные могут обратиться к этой супердетализированной карте всех распределений вероятности Добавить метки

Теория вероятностей – это раздел математики, изучающий закономерности случайных явлений: случайные события, случайные величины, их свойства и операции над ними.

Долгое время теория вероятностей не имела четкого определения. Оно было сформулировано лишь в 1929 году. Возникновение теории вероятностей как науки относят к средним векам и первым попыткам математического анализа азартных игр (орлянка, кости, рулетка). Французские математики XVII века Блез Паскаль и Пьер Ферма, исследуя прогнозирование выигрыша в азартных играх, открыли первые вероятностные закономерности, возникающие при бросании костей.

Теория вероятности возникла как наука из убеждения, что в основе массовых случайных событий лежат определенные закономерности. Теория вероятности изучает данные закономерности.

Теория вероятностей занимается изучением событий, наступление которых достоверно неизвестно. Она позволяет судить о степени вероятности наступления одних событий по сравнению с другими.

Например: определить однозначно результат выпадения «орла» или «решки» в результате подбрасывания монеты нельзя, но при многократном подбрасывании выпадает примерно одинаковое число «орлов» и «решек», что означает, что вероятность того, что выпадет «орел» или «решка», равна 50%.

Испытанием в этом случае называется реализация определенного комплекса условий, то есть в данном случае подбрасывание монеты. Испытание может воспроизводиться неограниченное количество раз. При этом комплекс условий включает в себя случайные факторы.

Результатом испытания является событие . Событие бывает:

  1. Достоверное (всегда происходит в результате испытания).
  2. Невозможное (никогда не происходит).
  3. Случайное (может произойти или не произойти в результате испытания).

Например, при подбрасывании монеты невозможное событие - монета станет на ребро, случайное событие - выпадение «орла» или «решки». Конкретный результат испытания называется элементарным событием . В результате испытания происходят только элементарные события. Совокупность всех возможных, различных, конкретных исходов испытаний называется пространством элементарных событий .

Основные понятия теории

Вероятность - степень возможности происхождения события. Когда основания для того, чтобы какое-нибудь возможное событие произошло в действительности, перевешивают противоположные основания, то это событие называют вероятным, в противном случае - маловероятным или невероятным.

Случайная величина - это величина, которая в результате испытания может принять то или иное значение, причем неизвестно заранее, какое именно. Например: число на пожарную станцию за сутки, число попадания при 10 выстрелах и т.д.

Случайные величины можно разделить на две категории.

  1. Дискретной случайной величиной называется такая величина, которая в результате испытания может принимать определенные значения с определенной вероятностью, образующие счетное множество (множество, элементы которого могут быть занумерованы). Это множество может быть как конечным, так и бесконечным. Например, количество выстрелов до первого попадания в цель является дискретной случайной величиной, т.к. эта величина может принимать и бесконечное, хотя и счетное количество значений.
  2. Непрерывной случайной величиной называется такая величина, которая может принимать любые значения из некоторого конечного или бесконечного промежутка. Очевидно, что количество возможных значений непрерывной случайной величины бесконечно.

Вероятностное пространство - понятие, введенное А.Н. Колмогоровым в 30-х годах XX века для формализации понятия вероятности, которое дало начало бурному развитию теории вероятностей как строгой математической дисциплине.

Вероятностное пространство - это тройка (иногда обрамляемая угловыми скобками: , где

Это произвольное множество, элементы которого называются элементарными событиями, исходами или точками;
- сигма-алгебра подмножеств , называемых (случайными) событиями;
- вероятностная мера или вероятность, т.е. сигма-аддитивная конечная мера, такая что .

Теорема Муавра-Лапласа - одна из предельных теорем теории вероятностей, установлена Лапласом в 1812 году. Она утверждает, что число успехов при многократном повторении одного и того же случайного эксперимента с двумя возможными исходами приблизительно имеет нормальное распределение. Она позволяет найти приближенное значение вероятности.

Если при каждом из независимых испытаний вероятность появления некоторого случайного события равна () и - число испытаний, в которых фактически наступает, то вероятность справедливости неравенства близка (при больших ) к значению интеграла Лапласа.

Функция распределения в теории вероятностей - функция, характеризующая распределение случайной величины или случайного вектора; вероятность того, что случайная величина X примет значение, меньшее или равное х, где х - произвольное действительное число. При соблюдении известных условий полностью определяет случайную величину.

Математическое ожидание - среднее значение случайной величины (это распределение вероятностей случайной величины, рассматривается в теории вероятностей). В англоязычной литературе обозначается через , в русской - . В статистике часто используют обозначение .

Пусть задано вероятностное пространство и определенная на нем случайная величина . То есть, по определению, - измеримая функция. Тогда, если существует интеграл Лебега от по пространству , то он называется математическим ожиданием, или средним значением и обозначается .

Дисперсия случайной величины - мера разброса данной случайной величины, т. е. ее отклонения от математического ожидания. Обозначается в русской литературе и в зарубежной. В статистике часто употребляется обозначение или . Квадратный корень из дисперсии называется среднеквадратичным отклонением, стандартным отклонением или стандартным разбросом.

Пусть - случайная величина, определенная на некотором вероятностном пространстве. Тогда

где символ обозначает математическое ожидание.

В теории вероятностей два случайных события называются независимыми , если наступление одного из них не изменяет вероятность наступления другого. Аналогично, две случайные величины называют зависимыми , если значение одной из них влияет на вероятность значений другой.

Простейшая форма закона больших чисел – это теорема Бернулли, утверждающая, что если вероятность события одинакова во всех испытаниях, то с увеличением числа испытаний частота события стремится к вероятности события и перестает быть случайной.

Закон больших чисел в теории вероятностей утверждает, что среднее арифметическое конечной выборки из фиксированного распределения близко к теоретическому среднему математическому ожиданию этого распределения. В зависимости от вида сходимости различают слабый закон больших чисел, когда имеет место сходимость по вероятности, и усиленный закон больших чисел, когда имеет место сходимость почти наверняка.

Общий смысл закона больших чисел - совместное действие большого числа одинаковых и независимых случайных факторов приводит к результату, в пределе не зависящему от случая.

На этом свойстве основаны методы оценки вероятности на основе анализа конечной выборки. Наглядным примером является прогноз результатов выборов на основе опроса выборки избирателей.

Центральные предельные теоремы - класс теорем в теории вероятностей, утверждающих, что сумма достаточно большого количества слабо зависимых случайных величин, имеющих примерно одинаковые масштабы (ни одно из слагаемых не доминирует, не вносит в сумму определяющего вклада), имеет распределение, близкое к нормальному.

Так как многие случайные величины в приложениях формируются под влиянием нескольких слабо зависимых случайных факторов, их распределение считают нормальным. При этом должно соблюдаться условие, что ни один из факторов не является доминирующим. Центральные предельные теоремы в этих случаях обосновывают применение нормального распределения.