Эмпирическая функция распределения в excel как построить
Перейти к содержимому

Эмпирическая функция распределения в excel как построить

  • автор:

Задание 3. Эмпирическая функция распределения.

Построить график эмпирической функции распределения с подогнанной ожидаемой функцией распределения.

Теоретические основы.

См. стр. 31-32 пособия [4].

Вычисления.

Если попытаться построить ЭФР средствами Excel, упорядочив сначала данные и сопоставив затем каждому упорядоченному значению x(k) значение , то вместо горизонтальных получим наклонные ступеньки. Чтобы избежать этого недостатка, можно каждое значение вариационного ряда повторить дважды, при этом первому из этих значений сопоставить ЭФР, а второму .

Вычисление нормальной функции распределения описано ниже в главе “Встроенные функции Excel”. Здесь кратко только скажем, что для этого можно использовать функцииНОРМРАСПиНОРМСТРАСПиз категории “Статистические”.

Функция распределения экспоненциального закона вычисляется с помощью простой функции EXP.

Кроме того, предполагается, что уже вычислены среднее значение и дисперсия выборки (задание 1).

Пример.

Порядок вычислений.

Скопировать исходные данные в буфер обмена;

перейти на лист “ЭФР” и, установив курсор в ячейку A3, вставить данные из буфера обмена;

повторить процесс восстановления данных, начиная с ячейки A104

установить курсор в ячейку A104;

вставить данные из буфера обмена

– всего получится 202 значения с 3-й по 204-ю ячейки;

упорядочить значения в столбце A

кликнуть мышкой по кнопке ;

ввести в ячейку B3 формулу

– функция «СТРОКА» возвращает номер строки указанного аргумента, то есть в данном случае в ячейке B3 получится значение (3-1)/202-1/101 = 0;

ввести в ячейку B4 формулу

– получится значение (3-1)/202 = 1/101;

выделить обе ячейки B3 и B4 и скопировать их параллельно всем данным до ячейки B204

– в последней ячейке должно получиться значение 1;

добавить в ячейку A2 значение, на единицу меньшее значения ячейки A3 и сопоставить ему значение 0 в ячейке B2;

добавить в ячейку A205 значение, на единицу большее значения ячейки A204 и сопоставить ему значение 1 в ячейке B205.

Ввести формулы вычисления нормального распределения:

в ячейки F4, F5 (те, которые скрыты графиком) скопировать среднее и стандартное отклонение, соответственно

в ячейку C2 ввести формулу нормального распределения

в ячейку D2 ввести формулу вычисления расхождения между ЭФР и ожидаемой функцией распределения

скопировать обе ячейки C2 и D2 вплоть до 205-й строки;

вычислить максимальное расхождение, например, в ячейке F6

Теперь уже можно рисовать графики:

выделить все значения в ячейках A2:C205;

вызвать “Мастера Диаграмм”;

выбрать «Точечную» диаграмму – без маркеров со сглаживающей линией (третья по порядку среди точечных диаграмм);

при выборе представления диаграммы, после двух нажатий кнопки , удалить “Легенду” и добавить “Заголовок по оси Х”:

МАКСИМАЛЬНОЕ РАСХОЖДЕНИЕ D=…

(указав здесь полученное значение Δ из ячейки F6);

;

установить параметры диаграммы, как в примере.

Замечание. Если бы параметры нормальной модели не оценивались по выборочным данным, а были бы в точности равны этим оценкам, то при полученном здесь расхождении Δ=0,097 гипотезу нормальности следовало бы принять с критическим уровнем значимости > 0,20 (см. таблицу 6.2 сборника таблиц [1]). Это надо воспринимать как хороший знак и не более того. Если неизвестные значения параметров оцениваются по выборке, то критический уровень значимости становится зависящим от неизвестных параметров и трудно ожидать, что даже в предположениях гипотезы критерий будет иметь приемлемый размер.

Контрольные вопросы.

Сформулируйте статистическую задачу.

Что такое вариационный ряд?

Дайте определение эмпирической функции распределения?

Почему некоторые ступеньки ЭФР высокие, а некоторые низкие?

Почему одни ступеньки ЭФР длинные, а другие короткие?

Постройте ЭФР по следующим данным: 1; 2; 1; 3; 1; 5; 1; 3.

Выпишите формулу для функции распределения нормального закона (равномерного, экспоненциального).

Можно ли утверждать, что ЭФР является состоятельной оценкой истинной функции распределения? Что сие означает?

Можно ли утверждать, что ЭФР является несмещенной оценкой истинной функции распределения? Что сие означает?

Докажите несмещенность ЭФР.

Можно ли по значению максимального расхождения между ЭФР и ожидаемой функцией распределения принять или отвергнуть гипотезу о виде истинной функции распределения?

Как построить эмпирическую функцию распределения в excel

Как построить эмпирическую функцию распределения в excel

1. Откройте новый документ в Microsoft Excel.

2. Введите набор данных в столбец. Например, давайте предположим, что у нас есть следующие данные: 1, 2, 3, 4, 5.

3. Создайте новый столбец, в который будете записывать значения функции распределения. Для этого вы можете задать диапазон значений, например, от 0 до 1 с шагом 0.1.

4. Введите формулу для эмпирической функции распределения в первой ячейке нового столбца. Формула будет выглядеть так: «=СЧЁТЕСЛИ(A:A;»

Эмпирическая функция распределения в excel как построить

Это статистический аналог функции распределения из теорвера. Данная функция определяется, как отношение:
, где – количество вариант СТРОГО МЕНЬШИХ, чем ,
при этом «икс» «пробегает» все значения от «минус» до «плюс» бесконечности.

Построим эмпирическую функцию распределения для нашей задачи. Чтобы было нагляднее, отложу варианты и их количество на числовой оси:

На интервале – по той причине, что левее ЛЮБОЙ точки этого интервала вариант нет. Кроме того, функция равна нулю ещё и в точке . Почему? Потому, что значение определяет количество вариант (см. определение), которые СТРОГО меньше двух, а это количество равно нулю.

На промежутке – и опять обратите внимание, что значение не учитывает рабочих 3-го разряда, т.к. речь идёт о вариантах, которые СТРОГО меньше трёх (по определению).

На промежутке – и далее процесс продолжается по принципу накопления частот:
– если , то ;
– если , то ;
– и, наконец, если , то – и в самом деле, для ЛЮБОГО «икс» из интервала ВСЕ частоты расположены СТРОГО левее этого значения «икс» (см. чертёж выше).

Накопленные относительные частоты удобно заносить в отдельный столбец таблицы, при этом алгоритм вычислений очень прост: сначала сносим слева частоту (красная стрелка), и каждое следующее значение получаем как сумму предыдущего и относительной частоты из текущего левого столбца (зелёные обозначения):

Вот ещё, кстати, один довод за вертикальную ориентацию данных – справа по надобности можно приписывать дополнительные столбцы.

Построенную функцию принято записывать в кусочном виде:

а её график представляет собой ступенчатую фигуру:

Эмпирическая функция распределения не убывает и принимает значения лишь из промежутка , и если у вас вдруг получится что-то не так, то ищите ошибку.

Теперь смотрим видео, о том, как построить эту функцию в Экселе (Ютуб).

И, конечно, вспомним основной метод математической статистики. Эмпирическая функция распределения строится по выборке и приближает теоретическую функцию распределения . Легко догадаться, что последняя появляется в результате исследования всей генеральной совокупности, но если рабочих в цехе ещё пересчитать можно, то звёзды на небе – уже вряд ли. Вот поэтому и важнА функция эмпирическая, и ещё важнее, чтобы выборка была репрезентативна, дабы приближение было хорошим.

Миниатюрное задание для закрепления материала:

Пример 5

Дано статистическое распределение совокупности:

Составить эмпирическую функцию распределения, выполнить чертёж

Решаем самостоятельно – все числа уже в Экселе! Свериться с образцом можно в конце книги. По поводу красоты чертежа сильно не запаривайтесь, главное, чтобы было правильно – этого обычно достаточно для зачёта.

Как построить эмпирическую функцию распределения в excel

Из таблицы n=40, т.е.
n=4+10+6+8+7+5=40
Вычислим функцию распределения выборки

Эмпирическая функция распределения имеет вид

Построим график кусочно-постоянной эмпирической функции распределения

таким образом, по данным выборки можно приближенно построить функцию для неизвестной функции выборки.

2 комментария

У вас опечатка, где вы написали n=30, n=4+10+6+8+7+5=30 и F_30, так как n=40.

Построить эмпирическое распределение результатов тестирования в баллах для следующей выборки: 69, 85, 78, 85, 83, 81, 95, 88, 97, 92, 74, 83, 89, 77, 93.

В ячейку А1 введите слова Результаты, в диапазон А2:А16 – результаты тестирования.

Выберите ширину интервала 5 баллов. Тогда при крайних результатах 69 и 97 баллов, получится 7 интервалов. В ячейку С1 введите название интервалов Границы. В диапазон С2:С8 введите граничные значения интервалов: 70, 75, 80, 85, 90, 95, 100.

Введите заголовки создаваемой таблицы: в ячейку D1 – Абсолютные частоты, в ячейку Е1 – Относительные частоты, в F1 – Накопленные частоты.

Заполните столбец абсолютных частот. Для этого выделите для них блок ячеек D2:D8, вызовите Мастер функций, категория – Статистические, функция – Частота, в поле Массив данных введите диапазон данных тестирования А2:А16, в поле Массив интервалов введите диапазон интервалов С2:С8, нажмите комбинацию клавиш Ctrl+Shift+Enter. В столбце D2:D8 появится массив абсолютных частот.

В ячейке D9 найдите общее количество результатов тестирования, с помощью Автосумма.

Заполните столбец относительных частот. В ячейку Е2 введите формулу =$D2/$D$9 .

Протягиванием скопируйте полученное значение в диапазон Е3:Е8. Получим массив относительных частот.

Заполните столбец накопленных частот. В ячейку F2 скопируйте значение относительной частоты из ячейки Е2. В ячейку F3 введите формулу =F2+E3. Протягиванием скопируйте полученное значение в диапазон F4:F8. Получим массив накопленных частот.

В результате получим таблицу, представленную на рисунке 1.

Пусть Nх — число наблюдений, при которых значение при­знака Х меньше Х. При объеме выборки, равном П, относитель­ная частота события Х XK.

Сама же функция F*(X) служит для оценки теоретической функции распределения F(X) генеральной совокупности.

Пример 3. Построить эмпирическую функцию по заданному распределению выборки:

Решение. Находим объем выборки: П = 10 + 15 + 25 = 50. Наименьшая варианта равна 2, поэтому F*(X) = 0 при Х ≤ 2. Значение Х 6. Напишем формулу искомой эмпирической функции:

4. Рассмотрим любой из критериев оценки качеств педагога-профессионала, например, «успешное решение задач обучения и воспитания». Ответ на этот вопрос анкеты типа «да», «нет» достаточно груб. Чтобы уменьшить относительную ошибку такого измерения, необходимо увеличить число возможных ответов на конкретный критериальный вопрос. В табл. 1 представлены возможные варианты ответов.

Обозначим этот параметр через х. Тогда в процессе ответа на вопрос величина х примет дискретное значение х, принадлежащее определенному интервалу значений. Поставим в соответствие каждому из ответов определенное числовое значение параметра х (см. табл. 1).

Эмпирическая функция распределения в excel как построить

Построить график эмпирической функции распределения с подогнанной ожидаемой функцией распределения.

Теоретические основы.

См. стр. 31-32 пособия [4].

Вычисления.

Если попытаться построить ЭФР средствами Excel, упорядочив сначала данные и сопоставив затем каждому упорядоченному значению x(k) значение , то вместо горизонтальных получим наклонные ступеньки. Чтобы избежать этого недостатка, можно каждое значение вариационного ряда повторить дважды, при этом первому из этих значений сопоставить ЭФР, а второму .

Вычисление нормальной функции распределения описано ниже в главе “Встроенные функции Excel”. Здесь кратко только скажем, что для этого можно использовать функцииНОРМРАСПиНОРМСТРАСПиз категории “Статистические”.

Функция распределения экспоненциального закона вычисляется с помощью простой функции EXP.

Кроме того, предполагается, что уже вычислены среднее значение и дисперсия выборки (задание 1).

Пример.

Скопировать исходные данные в буфер обмена;

перейти на лист “ЭФР” и, установив курсор в ячейку A3, вставить данные из буфера обмена;

повторить процесс восстановления данных, начиная с ячейки A104

установить курсор в ячейку A104;

вставить данные из буфера обмена

– всего получится 202 значения с 3-й по 204-ю ячейки;

упорядочить значения в столбце A

кликнуть мышкой по кнопке ;

ввести в ячейку B3 формулу

– функция «СТРОКА» возвращает номер строки указанного аргумента, то есть в данном случае в ячейке B3 получится значение (3-1)/202-1/101 = 0;

ввести в ячейку B4 формулу

– получится значение (3-1)/202 = 1/101;

выделить обе ячейки B3 и B4 и скопировать их параллельно всем данным до ячейки B204

– в последней ячейке должно получиться значение 1;

добавить в ячейку A2 значение, на единицу меньшее значения ячейки A3 и сопоставить ему значение 0 в ячейке B2;

добавить в ячейку A205 значение, на единицу большее значения ячейки A204 и сопоставить ему значение 1 в ячейке B205.

Ввести формулы вычисления нормального распределения:

в ячейки F4, F5 (те, которые скрыты графиком) скопировать среднее и стандартное отклонение, соответственно

в ячейку C2 ввести формулу нормального распределения

в ячейку D2 ввести формулу вычисления расхождения между ЭФР и ожидаемой функцией распределения

скопировать обе ячейки C2 и D2 вплоть до 205-й строки;

вычислить максимальное расхождение, например, в ячейке F6

Теперь уже можно рисовать графики:

выделить все значения в ячейках A2:C205;

вызвать “Мастера Диаграмм”;

выбрать «Точечную» диаграмму – без маркеров со сглаживающей линией (третья по порядку среди точечных диаграмм);

при выборе представления диаграммы, после двух нажатий кнопки , удалить “Легенду” и добавить “Заголовок по оси Х”:

МАКСИМАЛЬНОЕ РАСХОЖДЕНИЕ D=…

(указав здесь полученное значение Δ из ячейки F6);

;

установить параметры диаграммы, как в примере.

Замечание. Если бы параметры нормальной модели не оценивались по выборочным данным, а были бы в точности равны этим оценкам, то при полученном здесь расхождении Δ=0,097 гипотезу нормальности следовало бы принять с критическим уровнем значимости > 0,20 (см. таблицу 6.2 сборника таблиц [1]). Это надо воспринимать как хороший знак и не более того. Если неизвестные значения параметров оцениваются по выборке, то критический уровень значимости становится зависящим от неизвестных параметров и трудно ожидать, что даже в предположениях гипотезы критерий будет иметь приемлемый размер.

Контрольные вопросы.

Сформулируйте статистическую задачу.

Что такое вариационный ряд?

Дайте определение эмпирической функции распределения?

Почему некоторые ступеньки ЭФР высокие, а некоторые низкие?

Почему одни ступеньки ЭФР длинные, а другие короткие?

Постройте ЭФР по следующим данным: 1; 2; 1; 3; 1; 5; 1; 3.

Выпишите формулу для функции распределения нормального закона (равномерного, экспоненциального).

Можно ли утверждать, что ЭФР является состоятельной оценкой истинной функции распределения? Что сие означает?

Можно ли утверждать, что ЭФР является несмещенной оценкой истинной функции распределения? Что сие означает?

Докажите несмещенность ЭФР.

Можно ли по значению максимального расхождения между ЭФР и ожидаемой функцией распределения принять или отвергнуть гипотезу о виде истинной функции распределения?

Эмпирическая функция распределения в excel как построить

Построим эмпирическую функцию распределения для нашей задачи. Чтобы было нагляднее, отложу варианты и их количество на числовой оси:

На интервале – по той причине, что левее ЛЮБОЙ точки этого интервала вариант нет. Кроме того, функция равна нулю ещё и в точке . Почему? Потому, что значение определяет количество вариант (см. определение), которые СТРОГО меньше двух, а это количество равно нулю.

Накопленные относительные частоты удобно заносить в отдельный столбец таблицы, при этом алгоритм вычислений очень прост: сначала сносим слева частоту (красная стрелка), и каждое следующее значение получаем как сумму предыдущего и относительной частоты из текущего левого столбца (зелёные обозначения):

Вот ещё, кстати, один довод за вертикальную ориентацию данных – справа по надобности можно приписывать дополнительные столбцы.

а её график представляет собой ступенчатую фигуру:

Эмпирическая функция распределения не убывает и принимает значения лишь из промежутка , и если у вас вдруг получится что-то не так, то ищите ошибку.

Дано статистическое распределение совокупности:

Как построить эмпирическую функцию распределения в excel

Из таблицы n=40, т.е.
n=4+10+6+8+7+5=40
Вычислим функцию распределения выборки

4. Рассмотрим любой из критериев оценки качеств педагога-профессионала, например, «успешное решение задач обучения и воспитания». Ответ на этот вопрос анкеты типа «да», «нет» достаточно груб. Чтобы уменьшить относительную ошибку такого измерения, необходимо увеличить число возможных ответов на конкретный критериальный вопрос. В табл. 1 представлены возможные варианты ответов.

Обозначим этот параметр через х. Тогда в процессе ответа на вопрос величина х примет дискретное значение х, принадлежащее определенному интервалу значений. Поставим в соответствие каждому из ответов определенное числовое значение параметра х (см. табл. 1).

VII Международная студенческая научная конференция Студенческий научный форум — 2015

ВАРИАЦИОННЫЕ РЯДЫ. ВЫБОРОЧНАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ

Краткая теория

Для решения задач, связанных с анализом данных при наличии случайных непредсказуемых воздействий, разработан математический аппарат ‒ математическая статистика, что позволяет выявлять закономерности на основе случайностей, делать на их основе обоснованные выводы и прогнозы.

Важнейшими понятиями математической статистики являются понятия генеральной совокупности и выборки.

Генеральной совокупностью наблюдаемого признака (случайной величины) Х называют множество всевозможных значений, принимаемых наблюдаемым признаком Х.

Часть отобранных объектов из генеральной совокупности называется выборочной совокупностью, или выборкой. Результаты измерений изучаемого признака nобъектов выборочной совокупности порождают nзначений х1, х2, … , хn случайной величины X . Число nназывается объемом выборки.

Выборку можно рассматривать двояко:

а) как случайный вектор длины n, каждая компонента которого имеет такое же распределение, как и наблюдаемый признак;

б) как на результаты измерений, т.е. набор n чисел.

Случайная величина Х называется дискретной случайной величиной, если она принимает свое значение из некоторого конечного фиксированного набора, например, случайная величина Х ‒ число появления шестерки при двух бросках игрального кубика

Случайная величина Х называется непрерывной случайной величиной, если она принимает любое значение из некоторого интервала (в том числе ‒ ∞ и +∞), например, рост человека.

После получения выборки имеем данные, которые представляют собой множество чисел, расположенных в беспорядке. Анализ таких данных весьма затруднителен, и для изучения скрытых закономерностей их подвергают определенной обработке.

Простейшая операция – ранжирование опытных данных, результатом которого являются значения, расположенные в порядке неубывания. Если среди элементов встречаются одинаковые, то они объединяются в одну группу. Значение случайной величины, соответствующее отдельной группе сгруппированного ряда наблюдаемых данных, называется вариантом, а изменение этого значения – варьированием. Варианты будем обозначать строчными буквами с соответствующими порядковому номеру группы индексами x (1) , x (2) , . x(N) , где N – число групп. При этом x (1) < x (2) < . < x(N).

Численность отдельной группы сгруппированного ряда данных называется частотой ni , где i – индекс варианта, а отношение частоты данного варианта к общей сумме частот называется частностью (или относительной частотой) и обозначается ωi , i = 1, . N , т.е.

при этом j=1Nnj=n ‒ объему выборки.

Дискретным вариационным рядомназывается ранжированная совокупность вариантов x( i ) с соответствующими им частотами niили частностями ωi .

Если число возможных значений дискретной случайной величины достаточно велико или наблюдаемая случайная величина является непрерывной, то строят интервальный вариационный ряд, под которым понимают упорядоченную совокупность интервалов варьирования значений случайной величины с соответствующими частотами или частностями попаданий в каждый из них значений случайной величины.

Как правило, частичные интервалы, на которые разбивается весь интервал варьирования, имеют одинаковую длину Δ, которая может быть вычислена по следующей формуле

где R – размах варьирования (изменения) случайной величины;

xmax , xmin – наибольшее и наименьшее значения исследуемой случайной величины;

N – число частичных интервалов группировки.

Некоторые авторы рекомендуют пользоваться следующими эмпирическими формулами для определения числа интервалов:

N = 1 + 3,322 . lg(n) ‒ формула Стерджеса.

В рекомендациях по стандартизации Р 50.1.033-2001 "Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа хи-квадрат" рекомендует следующие значения N в зависимости от объема выборки n:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *