Меню

Доверительный интервал для оценки среднего (дисперсия известна) в MS EXCEL. Вычисление доверительного интервала в Microsoft Excel

Сделай сам

Часто оценщику приходится анализировать рынок недвижимости того сегмента, в котором располагается объект оценки. Если рынок развит, проанализировать всю совокупность представленных объектов бывает сложно, поэтому для анализа используется выборка объектов. Не всегда эта выборка получается однородной, иногда требуется очистить ее от экстремумов - слишком высоких или слишком низких предложений рынка. Для этой цели применяется доверительный интервал . Цель данного исследования - провести сравнительный анализ двух способов расчета доверительного интервала и выбрать оптимальный вариант расчета при работе с разными выборками в системе estimatica.pro.

Доверительный интервал - вычисленный на основе выборки интервал значений признака, который с известной вероятностью содержит оцениваемый параметр генеральной совокупности.

Смысл вычисления доверительного интервала заключается в построении по данным выборки такого интервала, чтобы можно было утверждать с заданной вероятностью, что значение оцениваемого параметра находится в этом интервале. Другими словами, доверительный интервал с определенной вероятностью содержит неизвестное значение оцениваемой величины. Чем шире интервал, тем выше неточность.

Существуют разные методы определения доверительного интервала. В этой статье рассмотрим 2 способа:

  • через медиану и среднеквадратическое отклонение;
  • через критическое значение t-статистики (коэффициент Стьюдента).

Этапы сравнительного анализа разных способов расчета ДИ:

1. формируем выборку данных;

2. обрабатываем ее статистическими методами: рассчитываем среднее значение, медиану, дисперсию и т.д.;

3. рассчитываем доверительный интервал двумя способами;

4. анализируем очищенные выборки и полученные доверительные интервалы.

Этап 1. Выборка данных

Выборка сформирована с помощью системы estimatica.pro. В выборку вошло 91 предложение о продаже 1 комнатных квартир в 3-ем ценовом поясе с типом планировки «Хрущевка».

Таблица 1. Исходная выборка

Цена 1 кв.м., д.е.

Рис.1. Исходная выборка



Этап 2. Обработка исходной выборки

Обработка выборки методами статистики требует вычисления следующих значений:

1. Среднее арифметическое значение

2. Медиана - число, характеризующее выборку: ровно половина элементов выборки больше медианы, другая половина меньше медианы

(для выборки, имеющей нечетное число значений)

3. Размах - разница между максимальным и минимальным значениями в выборке

4. Дисперсия - используется для более точного оценивания вариации данных

5. Среднеквадратическое отклонение по выборке (далее - СКО) - наиболее распространённый показатель рассеивания значений корректировок вокруг среднего арифметического значения.

6. Коэффициент вариации - отражает степень разбросанности значений корректировок

7. коэффициент осцилляции - отражает относительное колебание крайних значений цен в выборке вокруг средней

Таблица 2. Статистические показатели исходной выборки

Коэффициент вариации, который характеризует однородность данных, составляет 12,29%, однако коэффициент осцилляции слишком велик. Таким образом, мы можем утверждать, что исходная выборка не является однородной, поэтому перейдем к расчету доверительного интервала.

Этап 3. Расчёт доверительного интервала

Способ 1. Расчёт через медиану и среднеквадратическое отклонение.

Доверительный интервал определяется следующим образом: минимальное значение - из медианы вычитается СКО; максимальное значение - к медиане прибавляется СКО.

Таким образом, доверительный интервал (47179 д.е.; 60689 д.е.)

Рис. 2. Значения, попавшие в доверительный интервал 1.



Способ 2. Построение доверительного интервала через критическое значение t-статистики (коэффициент Стьюдента)

С.В. Грибовский в книге «Математические методы оценки стоимости имущества» описывает способ вычисления доверительного интервала через коэффициент Стьюдента. При расчете этим методом оценщик должен сам задать уровень значимости ∝, определяющий вероятность, с которой будет построен доверительный интервал. Обычно используются уровни значимости 0,1; 0,05 и 0,01. Им соответствуют доверительные вероятности 0,9; 0,95 и 0,99. При таком методе полагают истинные значения математического ожидания и дисперсии практически неизвестными (что почти всегда верно при решении практических задач оценки).

Формула доверительного интервала:

n - объем выборки;

Критическое значение t- статистики (распределения Стьюдента) с уровнем значимости ∝,числом степеней свободы n-1,которое определяется по специальным статистическим таблицам либо с помощью MS Excel ( →"Статистические"→ СТЬЮДРАСПОБР);

∝ - уровень значимости, принимаем ∝=0,01.

Рис. 2. Значения, попавшие в доверительный интервал 2.

Этап 4. Анализ разных способов расчета доверительного интервала

Два способа расчета доверительного интервала - через медиану и коэффициент Стьюдента - привели к разным значениям интервалов. Соответственно, получилось две различные очищенные выборки.

Таблица 3. Статистические показатели по трем выборкам.

Показатель

Исходная выборка

1 вариант

2 вариант

Среднее значение

Дисперсия

Коэф. вариации

Коэф. осциляции

Количество выбывших объектов, шт.

На основании выполненных расчетов можно сказать, что полученные разными методами значения доверительных интервалов пересекаются, поэтому можно использовать любой из способов расчета на усмотрение оценщика.

Однако мы считаем, что при работе в системе estimatica.pro целесообразно выбирать метод расчета доверительного интервала в зависимости от степени развитости рынка:

  • если рынок неразвит, применять метод расчета через медиану и среднеквадратическое отклонение, так как количество выбывших объектов в этом случае невелико;
  • если рынок развит, применять расчет через критическое значение t-статистики (коэффициент Стьюдента), так как есть возможность сформировать большую исходную выборку.

При подготовке статьи были использованы:

1. Грибовский С.В., Сивец С.А., Левыкина И.А. Математические методы оценки стоимости имущества. Москва, 2014 г.

2. Данные системы estimatica.pro

Пусть у нас имеется большое количество предметов, с нормальным распределением некоторых характеристик (например, полный склад однотипных овощей, размер и вес которых варьируется). Вы хотите знать средние характеристики всей партии товара, но у Вас нет ни времени, ни желания измерять и взвешивать каждый овощ. Вы понимаете, что в этом нет необходимости. Но сколько штук надо было бы взять на выборочную проверку?

Прежде, чем дать несколько полезных для этой ситуации формул напомним некоторые обозначения.

Во-первых, если бы мы все-таки промерили весь склад овощей (эт о множество элементов называется генеральной совокупностью), то мы узнали бы со всей доступной нам точностью среднее значение веса всей партии. Назовем это среднее значение Х ср.г ен . - генеральным средним. Мы уже знаем, что определяется полностью, если известно его среднее значение и отклонение s . Правда, пока мы ни Х ср.ген., ни s генеральной совокупности не знаем. Мы можем только взять некоторую выборку, замерить нужные нам значения и посчитать для этой выборки как среднее значение Х ср.в ыб., так и среднее квадратическое отклонение S выб.

Известно, что если наша выборочная проверка содержит большое количество элементов (обычно n больше 30), и они взяты действительно случайным образом , то s генеральной совокупности почти не будет отличаться от S выб ..

Кроме того, для случая нормального распределения мы можем пользоваться следующими формулами:

С вероятностью 95%


С вероятностью 99%



В общем виде c вероятностью Р (t)


Связь значения t со значением вероятности Р (t), с которой мы хотим знать доверительный интервал, можно взять из следующей таблицы:


Таким образом, мы определили, в каком диапазоне находится среднее значение для генеральной совокупности (с данной вероятностью).

Если у нас нет достаточно большой выборки, мы не можем утверждать, что генеральная совокупность имеет s = S выб. Кроме того, в этом случае проблематична близость выборки к нормальному распределению. В этом случае также пользуются S выб вместо s в формуле:




но значение t для фиксированной вероятности Р (t) будет зависеть от количества элементов в выборке n. Чем больше n, тем ближе будет полученный доверительный интервал к значению, даваемому формулой (1). Значения t в этом случае берутся из другой таблицы (t-критерий Стьюдента), которую мы приводим ниже:

Значения t-критерия Стьюдента для вероятности 0,95 и 0,99


Пример 3. Из работников фирмы случайным образом отобрано 30 человек. По выборке оказалось, что средняя зарплата (в месяц) составляет 30 тыс. рублей при среднем квадратическом отклонении 5 тыс. рублей. С вероятностью 0,99 определить среднюю зарплату в фирме.

Решение: По условию имеем n = 30, Х ср. =30000, S=5000, Р = 0,99. Для нахождения доверительного интервала воспользуемся формулой, соответствующей критерию Стьюдента. По таблице для n = 30 и Р = 0,99 находим t=2,756, следовательно,


т.е. искомый доверительный интервал 27484 < Х ср.ген < 32516.

Итак, вероятностью 0,99 можно утверждать, что интервал (27484; 32516) содержит внутри себя среднюю зарплату в фирме.

Мы надеемся, что Вы будете пользоваться этим методом, при этом не обязательно, чтобы при Вас каждый раз была таблица. Подсчеты можно проводить в Excel автоматически. Находясь в файле Excel, нажмите в верхнем меню кнопку fx. Затем, выберите среди функций тип "статистические", и из предложенного перечня в окошке - СТЬЮДРАСПОБР. Затем, по подсказке, поставив курсор в поле "вероятность" наберите значение обратной вероятности (т.е. в нашем случае вместо вероятности 0,95 надо набирать вероятность 0,05). Видимо, электронная таблица составлена так, что результат отвечает на вопрос, с какой вероятностью мы можем ошибиться. Аналогично в поле "степень свободы" введите значение (n-1) для своей выборки.

Любая выборка дает лишь приближенное представление о генеральной совокупности, и все выборочные статистические характеристики (средняя, мода, дисперсия…) являются некоторым приближением или говорят оценкой генеральных параметров, которые вычислить в большинстве случаев не представляется возможным из-за недоступности генеральной совокупности (Рисунок 20).

Рисунок 20. Ошибка выборки

Но можно указать интервал, в котором с определенной долей вероятности лежит истинное (генеральное) значение статистической характеристики. Этот интервал называется д оверительный интервал (ДИ).

Так генеральное среднее значение с вероятностью 95% лежит в пределах

от до, (20)

где t – табличное значение критерия Стъюдента для α =0,05 и f = n -1

Может быть найден и 99% ДИ, в этом случае t выбирается для α =0,01.

Какое практическое значение имеет доверительный интервал?

    Широкий доверительный интервал показывает, что выборочная средняя неточно отражает генеральную среднюю. Обычно это связано с недостаточным объемом выборки, или же с ее неоднородностью, т.е. большой дисперсией. И то и другое дают большую ошибку среднего и, соответственно, более широкий ДИ. И это является основанием вернуться на этап планирования исследования.

    Верхние и нижние пределы ДИ дают оценку, будут ли результаты клинически значимы

Остановимся несколько подробнее на вопросе о статистической и клинической значимости результатов исследования групповых свойств. Вспомним, что задачей статистики является обнаружение хоть каких-либо отличий в генеральных совокупностях, опираясь на выборочные данные. Задачей клиницистов является обнаружение таких (не любых) различий, которые помогут диагностике или лечению. И не всегда статистические выводы являются основанием для клинических выводов. Так, статистически значимое снижение гемоглобина на 3 г/л не является поводом для беспокойства. И, наоборот, если какая-то проблема в организме человека не имеет массового характера на уровне всей популяции, это не основание для того, чтобы этой проблемой не заниматься.

Это положение рассмотрим на примере .

Исследователи задались вопросом, не отстают ли в росте от своих сверстников мальчики, перенесшие некое инфекционное заболевание. С этой целью было проведено выборочное исследование, в котором приняли участие 10 мальчиков, перенесших эту болезнь. Результаты представлены в таблице 23.

Таблица 23. Результаты статобработки

нижний предел

верхний предел

Нормативы (см)

среднего

Из этих расчетов следует, что выборочный средний рост мальчиков 10 лет, перенесших некое инфекционное заболевание, близок к норме (132,5 см). Однако нижний предел доверительного интервала (126,6 см) свидетельствует о наличии 95% вероятности того, что истинный средний рост этих детей соответствует понятию «низкий рост», т.е. эти дети отстают в росте.

В этом примере результаты расчетов доверительного интервала клинически значимы.

Инструкция

Учтите, что интервал (l1 или l2), центральной областью которого будет являться оценка l*, а также в котором с вероятностью заключена истинная величина параметра, как раз и будет доверительным интервал ом или соответствующим значением доверительной вероятности альфа. При этом сама l* будет относиться к точечным оценкам. Например, по результатам каких-либо выборочных величин случайного значения Х {x1, x2,..., xn} необходимо вычислить неизвестный параметр показателя l, от которого будет зависеть распределение. В этом случае получение оценки заданного параметра l* будет заключаться в том, что для каждой выборки нужно будет поставить некоторое значение параметра в соответствие, то есть создать функцию результатов наблюдения показателя Q, значение которого и будет принято равным оценочной величине параметра l* в виде формулы: l*=Q*(x1, x2,..., xn).

Обратите внимание, что любая функция по результатам наблюдения называется статистикой. При этом, если она полностью описывает рассматриваемый параметр (явление), тогда ее именуют достаточной статистикой. А потому как результаты наблюдений случайные, то l* будет являться также случайной величиной. Задача расчета статистики должна быть произведена с учетом критериев ее качества. Здесь необходимо учитывать, что закон распределения оценки является вполне определенным, распределение плотности вероятности W(x, l).

Можете рассчитать доверительный интервал достаточно просто, если вам известен закон о распределении оценки. К примеру, доверительный интервал оценки в отношении математического ожидания (средней величины случайного значения) mx* =(1/n)*(x1+x2+ …+xn) . Эта оценка будет являться несмещенной, то есть математическое ожидание или среднее значение показателя будет равным истинной величине параметра (М{ mx*} = mx).

Можете установить, что дисперсия оценки по математическому ожиданию: бх*^2=Dx/n. На основании предельной центральной теоремы можно сделать соответствующий вывод о том, что закон распределения данной оценки гауссовский (нормальный). Поэтому для проведения расчетов можете использовать показатель Ф(z) - интеграл вероятностей. В таком случае, выберите длину доверительного интервал а 2lд, так вы получите: альфа = P{mx-lд (с применением свойства интеграла вероятностей по формуле: Ф(-z)=1- Ф(z)).

Постройте доверительный интервал оценки математического ожидания:- найдите значение формулы (альфа+1)/2;- выберите по таблице интеграла вероятности значение, равное lд/sqrt(Dx/n);- возьмите оценку истинной дисперсии: Dx*=(1/n)*((x1 - mx*)^2+(x2 - mx*)^2+…+(xn - mx*)^2);- определите lд;- найдите доверительный интервал по формуле: (mx*-lд, mx*+lд).

Доверительный интервал для математического ожидания - это такой вычисленный по данным интервал, который с известной вероятностью содержит математическое ожидание генеральной совокупности. Естественной оценкой для математического ожидания является среднее арифметическое её наблюденных значений. Поэтому далее в течение урока мы будем пользоваться терминами "среднее", "среднее значение". В задачах рассчёта доверительного интервала чаще всего требуется ответ типа "Доверительный интервал среднего числа [величина в конкретной задаче] находится от [меньшее значение] до [большее значение]". С помощью доверительного интервала можно оценивать не только средние значения, но и удельный вес того или иного признака генеральной совокупности. Средние значения, дисперсия, стандартное отклонение и погрешность, через которые мы будем приходить к новым определениям и формулам, разобраны на уроке Характеристики выборки и генеральной совокупности .

Точечная и интервальная оценки среднего значения

Если среднее значение генеральной совокупности оценивается числом (точкой), то за оценку неизвестной средней величины генеральной совокупности принимается конкретное среднее, которое рассчитано по выборке наблюдений. В таком случае значение среднего выборки - случайной величины - не совпадает со средним значением генеральной совокупности. Поэтому, указывая среднее значение выборки, одновременно нужно указывать и ошибку выборки. В качестве меры ошибки выборки используется стандартная ошибка , которая выражена в тех же единицах измерения, что и среднее. Поэтому часто используется следующая запись: .

Если оценку среднего требуется связать с определённой вероятностью, то интересующий параметр генеральной совокупности нужно оценивать не одним числом, а интервалом. Доверительным интервалом называют интервал, в котором с определённой вероятностью P находится значение оцениваемого показателя генеральной совокупности. Доверительный интервал, в котором с вероятностью P = 1 - α находится случайная величина , рассчитывается следующим образом:

,

α = 1 - P , которое можно найти в приложении к практически любой книге по статистике.

На практике среднее значение генеральной совокупности и дисперсия не известны, поэтому дисперсия генеральной совокупности заменяется дисперсией выборки , а среднее генеральной совокупности - средним значением выборки . Таким образом, доверительный интервал в большинстве случаев рассчитывается так:

.

Формулу доверительного интервала можно использовать для оценки среднего генеральной совокупности, если

  • известно стандартное отклонение генеральной совокупности;
  • или стандартное отклонение генеральной совокупности не известно, но объём выборки - больше 30.

Среднее значение выборки является несмещённой оценкой среднего генеральной совокупности . В свою очередь, дисперсия выборки не является несмещённой оценкой дисперсии генеральной совокупности . Для получения несмещённой оценки дисперсии генеральной совокупности в формуле дисперсии выборки объём выборки n следует заменить на n -1.

Пример 1. Собрана информация из 100 случайно выбранных кафе в некотором городе о том, что среднее число работников в них составляет 10,5 со стандартным отклонением 4,6. Определить доверительный интервал 95% числа работников кафе.

где - критическое значение стандартного нормального распределения для уровня значимости α = 0,05 .

Таким образом, доверительный интервал 95% среднего числа работников кафе составил от 9,6 до 11,4.

Пример 2. Для случайной выборки из генеральной совокупности из 64 наблюдений вычислены следующие суммарные величины:

сумма значений в наблюдениях ,

сумма квадратов отклонения значений от среднего .

Вычислить доверительный интервал 95 % для математического ожидания.

вычислим стандартное отклонение:

,

вычислим среднее значение:

.

Подставляем значения в выражение для доверительного интервала:

где - критическое значение стандартного нормального распределения для уровня значимости α = 0,05 .

Получаем:

Таким образом, доверительный интервал 95% для математического ожидания данной выборки составил от 7,484 до 11,266.

Пример 3. Для случайной выборки из генеральной совокупности из 100 наблюдений вычислено среднее значение 15,2 и стандартное отклонение 3,2. Вычислить доверительный интервал 95 % для математического ожидания, затем доверительный интервал 99 %. Если мощность выборки и её вариация остаются неизменными, а увеличивается доверительный коэффициент, то доверительный интервал сузится или расширится?

Подставляем данные значения в выражение для доверительного интервала:

где - критическое значение стандартного нормального распределения для уровня значимости α = 0,05 .

Получаем:

.

Таким образом, доверительный интервал 95% для среднего данной выборки составил от 14,57 до 15,82.

Вновь подставляем данные значения в выражение для доверительного интервала:

где - критическое значение стандартного нормального распределения для уровня значимости α = 0,01 .

Получаем:

.

Таким образом, доверительный интервал 99% для среднего данной выборки составил от 14,37 до 16,02.

Как видим, при увеличении доверительного коэффициента увеличивается также критическое значение стандартного нормального распределения, а, следовательно, начальная и конечная точки интервала расположены дальше от среднего, и, таким образом, доверительный интервал для математического ожидания увеличивается.

Точечная и интервальная оценки удельного веса

Удельный вес некоторого признака выборки можно интерпретировать как точечную оценку удельного веса p этого же признака в генеральной совокупности. Если же эту величину нужно связать с вероятностью, то следует рассчитать доверительный интервал удельного веса p признака в генеральной совокупности с вероятностью P = 1 - α :

.

Пример 4. В некотором городе два кандидата A и B претендуют на пост мэра. Случайным образом были опрошены 200 жителей города, из которых 46% ответили, что будут голосовать за кандидата A , 26% - за кандидата B и 28% не знают, за кого будут голосовать. Определить доверительный интервал 95% для удельного веса жителей города, поддерживающих кандидата A .