Меню

Многомерный статистический анализ. Многомерный статистический анализ: сущность и виды Оценивание линейной прогностической функции

Права и обязанности водителя


выборочной табл. сопряженности макс, правдоподобных оценок:

G 2 = -2 ^ п щ Щт т ■ п ш)

имеет асимптотическое χ 2 -распределе­ние. На этом основана стат. проверка гипотезы о взаимосвязях.

Опыт обработки данных с помощью А.л. показал его эффективность как спо­соба целенаправленного анализа много­мерной табл. сопряженности, содержа­щей (в случае содержательно разумного выбора переменных) огромный, по срав­нению с двухмерными табл., объем ин­тересующей социолога информации. Метод позволяет сжато описать эту табл. (в виде гипотезы о связях) и в то же вре­мя детально проанализировать конкр. взаимосвязь. Ал. обычно применяется многоэтапно, в форме диалога социо­лог-ЭВМ. Т.о., А.л. обладает значитель­ной гибкостью, представляет возмож­ность формулировать разнообразного вида предположения о взаимосвязях, включать опыт социолога в процедуру формального анализа данных.

Лит.: Аптоп Г. Анализ табл. сопря­женности. М., 1982; Типология и клас­сификация в социол. иссл-ях. М., 1982; Bishop Y.M.M. et ai. Discrete Multivariate Analysis. N.Y., 1975; Agresti A. An Introduction to Categorical Data Analysis. N.Y., 1966.

А.А. Мирзоев

АНАЛИЗ МНОГОМЕРНЫЙ СТАТИ­СТИЧЕСКИЙ - разд. статистики ма­тематической, посвященный матем. ме­тодам, направленным на выявление ха­рактера и структуры взаимосвязей между компонентами исследуемого признака многомерного и предназначенным для получения науч. и практических выво­дов. Исходным массивом многомерных данных для проведения А.м.с. обычно служат рез-ты измерения компонент многомерного признака для каждого из объектов исследуемой совокупности, т.е. последовательность многомерных на­блюдений (см. Наблюдение в статисти­ке). Многомерный признак чаще всего интерпретируется как многомерная вели-


чина случайная, а последовательность многомерных наблюдений - как выбор­ка из генеральной совокупности. В этом случае выбор метода обработки исход­ных стат. данных производится на осно­ве тех или иных допущений относитель­но природы закона распределения изучае­мого многомерного признака (см. Рас­пределение вероятностей).

1. А.м.с. многомерных распределений и их осн. характеристик охватывает си­туации, когда обрабатываемые наблюде­ния имеют вероятностную природу, т.е. интерпретируются как выборка из соотв. генеральной совокупности. К осн. зада­чам этого подраздела относятся; оцени­вание статистическое исследуемых мно­гомерных распределений и их осн. пара­метров; иссл-е свойств используемых стат. оценок; иссл-е распределений веро­ятностей для ряда статистик, с помощью к-рых строятся стат. критерии проверки разл. гипотез о вероятностной природе анализируемых многомерных данных (см. Проверка статистических гипотез).

2. А.м.с. характера и структуры взаи­мосвязей компонент исследуемого мно­гомерного признака объединяет понятия и рез-ты, присущие таким методам и моделям, как анализ регрессионный, ана­лиз дисперсионный, анализ ковариацион­ный, анализ факторный, анализ латентно-структурный, анализ логяшейный, поиск взаимодействий. Методы, принадлежа­щие к этой гр., включают как алгорит­мы, осн. на предположении о вероятно­стной природе данных, так и методы, не укладывающиеся в рамки к.-л. вероят­ностной модели (последние чаще отно­сят к методам анализа данных).

3. А.м.с. геометрической структуры исследуемой совокупности многомерных наблюдений объединяет понятия и рез-ты, свойственные таким моделям и методам, как анализ дискриминантиый, анализ кластерный (см. Методы класси­фикации, Шкала). Узловым для этих мо­делей явл. понятие расстояния либо ме­ры близости между анализируемыми элементами как точками нек-рого про-

АНАЛИЗ ПРИЧИННЫЙ


странства. При этом анализироваться могут как объекты (как точки, задавае­мые в признаковом пространстве), так и признаки (как точки, задаваемые в «объ­ектном» пространстве).

Прикладное значение А.м.с. состоит в осн. в обслуживании след. трех про­блем: стат. иссл-я зависимостей между рассматриваемыми показателями; клас­сификации элементов (объектов) или признаков; снижения размерности рас­сматриваемого признакового простран­ства и отбора наиб, информативных признаков.

Лит.: Стат. методы анализа социол. информации. М., 1979; Типология и клас­сификация в социол. иссл-ях. М., 1982; Интерпретация и анализ данных в соци­ол, иссл-ях. М., 1987; Айвазян С.А., Мхи-тарян В. С. Прикладная статистика и ос­новы эконометрики: Учеб. М., 1998; Сош-никова Л.А. и др. Многомерный стат. ана­лиз в экономике. М., 1999; Дубров А.М., Мхитарян В. С, Трошин Л.И. Многомер­ные стат. методы для экономистов и ме­неджеров. М., 2000; Ростовцев B.C., Кова­лева Т.Д. Анализ социол. данных с приме­нением стат. пакета SPSS. Новосибирск, 2001; Тюрин Ю.Н., Макаров А. А. Анализ данных на компьютере. Ы., 2003; Крыш-тановский А. О. Анализ социол. данных с помощью пакета SPSS. Μ., 2006.

ЮН. Толстова

АНАЛИЗ ПРИЧИННЫЙ - методы мо­делирования причинных отношений меж­ду признаками с помощью систем стат. уравнений, чаще всего регрессионных (см. Анализ регрессионный). Существуют и др. названия этой довольно обширной и постоянно изменяющейся области ме­тодов: путевой анализ, как впервые на­звал его основоположник С. Райт; мето­ды структурных эконометрических урав­нений, как принято в эконометрике, и др. Осн. понятиями А.п. явл.: путевая (структурная, причинная) диаграмма, причинный (путевой) коэффициент, прямые, косвенные и мнимые компо­ненты связи между признаками. Ис­пользуемое в А.п. понятие «причинное отношение* не затрагивает сложных фи-


лос. проблем, связанных с понятием «причинность». Причинный коэффици­ент опред. вполне операционально. Ма-тем. аппарат дает возможность проверки наличия прямых и косвенных причин­ных связей между признаками, а также выявления тех компонент корреляцион­ных коэффициентов (см. Корреляция), к-рые связаны с прямыми, косвенными и мнимыми связями.

Путевая диаграмма отражает графи­чески гипотетически предполагаемые причинные, направленные связи между признаками. Система признаков с одно­направленными связями называется ре­курсивной. Нерекурсивные причинные системы учитывают также и обратные связи, напр., два признака системы мо­гут быть одновременно и причиной, и следствием по отношению друг к другу. Все признаки делятся на признаки-след­ствия (зависимые, эндогенные) и при­знаки-причины (независимые, экзоген­ные). Однако в системе уравнений эндо­генные признаки одного из уравнений могут быть экзогенными признаками др. уравнений. В случае четырех признаков рекурсивная диаграмма всех возможных связей между признаками имеет вид:

х 2
/ N
*1 К
г
к S

Построение диаграммы связей явл. необходимой предпосылкой матем. фор­мулирования системы стат. уравнений, отражающей влияния, представленные на диаграмме. Осн. принципы построе­ния системы регрессионных уравнений проиллюстрируем на примере тех же че­тырех признаков. Идя по ходу стрелок, начиная с Хи находим первый эндоген-

АНАЛИЗ ПРИЧИННЫЙ


ный признак и отмечаем те признаки, к-рые на него влияют как прямо (непо­средственно), так и косвенно (опосредо­ванно) и через др. признаки. Первое стан­дартизированное регрессионное уравне­ние соответствует первому эндогенному признаку Xj и выражает зависимость Χι от тех признаков, к-рые на него влияют, т.е. от Χγ. Т.о., первое уравнение имеет вид: Χι = bi\X\.

Затем выявляем второй эндогенный признак, к-рый имеет направленные на него связи. Это признак Aj, ему соответ­ствуют экзогенные переменные Х\ и Χι, поэтому второе регрессионное уравнение в стандартизированном виде формулиру­ется так: Aj = ЬцХ\ + ЬпХг и т.д. С учетом ошибок измерения U система стандарти­зованных регрессионных моделей для нашей конкретной причинной диа­граммы имеет вид: Х\ = Ui, А? =

- Ь->\Х\ + Ui, Хт, = 631ΑΊ + byiXi + Uy, Χα -

- baXi + binXi + Й43А3 + Щ. Чтобы оце­нить коэффициенты b, s , необходимо ее решить. Решение существует при усло­вии, что данные удовлетворяют нек-рым естеств. стат. требованиям. Ь$ называют­ся причинными коэффициентами и час­то обозначаются как Ру. Т.о., Р# показы­вает ту долю изменения вариации эндо­генного признака;, к-рая происходит при изменении экзогенного признака j на единицу стандартного отклонения этого признака при условии, что влия­ние остальных признаков уравнения ис­ключается (см. Анализ регрессионный). Иначе говоря, Р,у есть прямой эффект признака j на признак г. Косвенный эф­фект признака j на;) вычисляется на ос­нове учета всех путей влияния j на i за исключением прямого.

На диаграмме прямое влияние перво­го признака на четвертый схематически представление прямой стрелой, непо­средственно идущей от Χι к Xt, символи­чески изображаемое как 1->4; оно равно коэффициенту причинного влияния Р, Х 2 , ..., Х Р. Строго регрессионную зависимость можно определить след. об­разом.

Пусть У, Х\, Хг, ..., Х р - случайные
величины с заданным совместным рас­
пределением вероятностей.
Если для каж­
дого набора значений Χ λ =х\, Х 2 = хг, ...,
Х р = х р определено условное матем. ожи­
дание Υ(χ\, Х2, ..., Хр) - E(Y/(X] = xj,
Χι = Х2, ..., Х р = Хр)), то функция Υ(Χ],
Х2,
..., Хр) называется регрессией величи­
ны У по величинам Х\, Хг, ..., Х р, а ее
график - линией регрессии У по Х\, Хг,
..., Х р,
или уравнением регрессии. Зави­
симость У от ΛΊ, Хг ....... Х р проявляется в

изменении средних значений Упри из­
менении Х\, Хг ........ Хр. Хотя при каждом

фиксированном наборе значений X] - xj, Хг = хг, » , Хр ~ Хр величина Τ остается случайной величиной с опред. рассеяни­ем. Для выяснения вопр., насколько точно регрессия оценивает изменение У при изменении ΑΊ, Хг, ..., Х р, использует­ся средняя величина дисперсии У при разных наборах значений Х\, Хг, ..., Хр (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).

На практике линия регрессии чаще всего ищется в виде линейной функции У = Ьй + biXi + ЬгХг + - + ЬрХр (линейная регрессия), наилучшим образом прибли­жающей искомую кривую. Делается это с помощью метода наименьших квадра­тов, когда минимизируется сумма квад­ратов отклонений реально наблюдаемых У от их оценок У (имеются в виду оцен­ки с помощью прямой линии, претен­дующей на то, чтобы представлять ис­комую регрессионную зависимость): w

У (У -У) => min (Ν - объем выборки), ы

Этот подход основан на том известном факте, что фигурирующая в приведен­ном выражении сумма принимает ми-ним. значение именно для того случая, когда У= Υ(χ\, хг, --, х Р). Применение

Внедрение ПЭВМ в управление народным хозяйством предполагает переход от традиционных методов анализа деятельности предприятий в более совершенных моделей управления экономикой, которые позволяют раскрыть ее глубинные процессы.

Широкое использование в экономических исследованиях методов математической статистики дает возможность углубить экономический анализ, повысить качество информации в планировании и прогнозировании показателей производства и анализа его эффективности.

Сложность и разнообразие связей экономических показателей обусловливают многомерность признаков и в связи с этим требуют применения наиболее сложного математического аппарата - методов многомерного статистического анализа.

Понятие "многомерный статистический анализ" подразумевает объединение ряда методов, призванных исследовать сочетание взаимосвязанных признаков. Речь идет о расчленении (разбиение) рассматриваемой совокупности, которая представлена многомерными признаками на относительно небольшую их количество.

При этом переход от большого количества признаков к меньшей преследует цель снижения их размерности и повышения информативной емкости. Такая цель достигается путем выявления информации, повторяется, порождаемой взаимосвязанными признаками, установлением возможности агрегирования (объединения, суммирование) по некоторым признакам. Последнее предполагает превращение фактической модели в модель с меньшим количеством факторных признаков.

Метод многомерного статистического анализа позволяет выявлять объективно существующие, но явно не выражены закономерности, которые проявляются в тех или иных социально - экономических явлениях. С этим приходится сталкиваться при решении ряда практических задач в области экономики. В частности, сказанное имеет место, если необходимо накапливать (фиксировать) одновременно значения нескольких количественных характеристик (признаков) по изучаемому объекту наблюдения, когда каждая характеристика склонна к неконтролируемой вариации (в разрезе объектов), несмотря на однородность объектов наблюдения.

Например, исследуя однородные (по природно-экономическими условиями и типом специализации) предприятия по ряду показателей эффективности производства, убеждаемся, что при переходе от одного объекта к другому почти каждый из отобранных характеристик (идентичных) имеет неодинаковое числовое значение, то есть находит так сказать неконтролируемый (случайный) разброс. Такое "случайное" варьирования признаков, как правило, подчиняется некоторым (закономерным) тенденциям как в плане достаточно определенных размеров признаков, вокруг которых осуществляется вариация, так и в плане степени и взаимозависимости самого варьирования.

Сказанное выше приводит к определению многомерной случайной величины как набора количественных признаков, значение каждой из которых подвергается неконтролируемом разброса при повторениях данного процесса, статистического наблюдения, опыта, эксперимента и др.

Ранее было сказано, что многомерный анализ объединяет ряд методов; назовем их: факторный анализ, метод главных компонент, кластерный анализ, распознавание образов, дискриминантный анализ и и др. Первые три из названных методов рассматриваться в следующих параграфах.

Как и другие математико - статистические методы, многомерный анализ может быть эффективным в своем применении при условии высокого качества исходной информации и массовости данных наблюдений, обрабатываются с помощью ПЭВМ.

Основные понятия метода факторного анализа, суть решаемых им задач

При анализе (в равной степени и исследованы) социально - экономических явлений приходится часто встречаться со случаями, когда среди разнообразия (багатопараметричности) объектов наблюдения необходимо исключать долю параметров, или заменить их меньшим количеством тех или других функций, не причинив вреда целостности (полноте) информации. Решение такой задачи имеет смысл в рамках определенной модели и обусловлено ее структурой. Примером такой модели, которая наиболее подходит ко многим реальным ситуациям, является модель факторного анализа, методы которого позволяют сконцентрировать признаки (информацию о них) путем "конденсации" большого числа в меньше, информационное более емкое. При этом полученный "конденсат" информации должен быть представлен наиболее существенными и определяющими количественными характеристиками.

Понятие "факторный анализ" не надо смешивать с широким понятием анализа причинно - следственных связей, когда изучается влияние различных факторов (их сочетаний, комбинаций) на результативный признак.

Суть метода факторного анализа заключается в исключении описания множественных характеристик изучаемых и замене его меньшим количеством информационно более емких переменных, которые называются факторами и отражают наиболее существенные свойства явлений. Такие переменные являются некоторыми функциями исходных признаков.

Анализ, по словам Я. Окуня 9, позволяет иметь первые приближенные характеристики закономерностей, лежащих в основе явления, сформулировать первые, общие выводы о направлениях, в которых нужно вести дальнейшее исследование. Далее он указывает на основное предположение факторного анализа, которое сводиться к тому, что явление, несмотря на свою разнородность и изменчивость можно описывать небольшим количеством функциональных единиц, параметров или факторов. Эти сроки называют по - разному: влияние, причины, параметры, функциональные единицы, способности, основные или независимые показатели. Использование того или иного срока обусловлено

Окунь Я. Факторный анализ: Пер. с. пол. М.: Статистика, 1974.- С.16.

контекстом о факторе и знанием сути изучаемого явления.

Этапами факторного анализа являются последовательные сопоставления различных наборов факторов и вариантов группам с их включением, выключением и оценкой достоверности различий между группами.

В.М.Жуковська и И.Б.Мучник 10, говоря о сути задач факторного анализа, утверждают, что последний не требует априорного подразделения переменных на зависимые и независимые, поскольку все переменные в нем рассматриваются как равноправные.

Задача факторного анализа сводится к определенному понятию, числа и природы наиболее существенных и относительно независимых функциональных характеристик явления, его измерителей или базовых параметров - факторов. По мнению авторов, важной отличительной особенностью факторного анализа является то, что он позволяет одновременно исследовать большое число взаимосвязанных переменных без допущения о "неизменности всех других условий", так необходимого при использовании ряда других методов анализа. В этом большое преимущество факторного анализа как ценного инструмента исследования явления, обусловленного сложной разнообразием и взаемопереплетенням связей.

Анализ опирается в основном на наблюдения над естественным варьированием переменных.

1. При использовании факторного анализа совокупность переменных, которые изучаются с точки зрения связей между ними, не выбирается произвольно: этот метод позволяет выявлять основные факторы, которые осуществляют существенное влияние в данной области.

2. Анализ не требует предварительных гипотез, наоборот, он сам может служить методом выдвижения гипотез, а также выступать критерием гипотез, опирающихся на данные, полученные другими методами.

3. Анализ не требует априорных догадок относительно того, какие переменные независимы, а зависимые, он не гипертрофирует причинные связи и решает вопрос об их мере в процессе дальнейших исследований.

Перечень конкретных задач, решаемых с использованием методов факторного анализа будет таким (по В.М.Жуковською). Назовем основные из них в области социально-экономических исследований:

Жуковская В.М., Мучник И.Б. Факторный анализ в социально-Экономическим исследованиях. -Статистика, 1976. С.4.

1. Определение основных аспектов различий между объектами наблюдения (минимизация описание).

2. Формулировка гипотез о природе различий между объектами.

3. Выявление структуры взаимосвязей между признаками.

4. Проверка гипотез о взаимосвязи и взаимозаменяемости признаков.

5. Сопоставление структур наборов признаков.

6. Расчленение объектов наблюдения за типичными признаками.

Изложенное свидетельствует о больших возможностях факторного анализа в

исследовании общественных явлений, где, как правило, невозможно проконтролировать (экспериментально) влияние отдельных факторов.

Достаточно эффективным является использование результатов факторного анализа в моделях множественной регрессии.

Имея предварительно сформированную корреляционно-регрессионную модель изучаемого явления в виде коррелированных признаков, с помощью факторного анализа можно такой набор признаков превратить в значительно меньшую их количество путем агрегирования. При этом следует отметить, что такое преобразование ни в коей мере не ухудшает качество и полноту информации об изучаемом явлении. Созданные агрегированные признаки некоррелированы и представляют линейную комбинацию первичных признаков. С формальной математической стороны постановка задач в таком случае может иметь бесконечную множественную решений. Но нужно помнить, что при изучении социально - экономических явлений полученные агрегированные признаки должны иметь экономически обоснованное трактовки. Иначе говоря, в каком - либо случае использования математического аппарата в первую очередь выходят из знаний экономической сути изучаемых явлений.

Таким образом, сказанное выше позволяет резюмировать, что факторный анализ является специфическим методом исследования, который осуществляется на базе арсенала приемов математической статистики.

Свое практическое применение факторный анализ впервые нашел в области психологии. Возможность свести большое количество психологических тестов к небольшому количеству факторов позволило объяснить способности человеческого интеллекта.

При исследовании социально-экономических явлений, где есть трудности в изолировании влияния отдельных переменных, успешно может быть использован факторный анализ. Применение его приемов позволяет путем определенных расчетов "профильтровать" несущественные признаки и продолжить исследования в направлении его углубления.

Эффективность этого метода очевидна при исследовании таких вопросов (проблем): в экономике - специализация и концентрация производства, интенсивность ведения хозяйства, бюджет семей работников, построение различных обобщающих показателей. и т.д

Учебное пособие создано на основе опыта преподавания автором курсов многомерного статистического анализа и эконометрики. Содержит материалы по дискриминантному, факторному, регрессионному анализу, анализу соответствий и теории временных рядов. Изложены подходы к задачам многомерного шкалирования и некоторым другим задачам многомерной статистики.

Группировка и цензурирование.
Задача формирования групп выборочных данных таким образом, чтобы сгруппированные данные могли предоставить практически тот же объем информации для принятия решения, что и выборка до группировки, решается исследователем в первую очередь. Целями группировки, как правило, служат снижение объемов информации, упрощение вычислений и придание наглядности данным. Некоторые статистические критерии изначально ориентированы на работу со сгруппированной выборкой. В определенных аспектах задача группировки очень близка задаче классификации, о которой подробнее речь пойдет ниже. Одновременно с задачей группировки исследователь решает и задачу цензурирования выборки, т.е. исключения из нее резко выпадающих данных, как правило, являющихся следствием грубых ошибок наблюдений. Естественно, желательно обеспечить отсутствие таких ошибок еще в процессе самих наблюдений, по сделать это удается не всегда. Простейшие методы решения упомянутых двух задач рассмотрены в этой главе.

Оглавление
1 Предварительные сведения
1.1 Анализ и алгебра
1.2 Теория вероятностей
1.3 Математическая статистика
2 Многомерные распределения
2.1 Случайные векторы
2.2 Независимость
2.3 Числовые характеристики
2.4 Нормальное распределение в многомерном случае
2.5 Корреляционная теория
3 Группировка и цензурирование
3.1 Одномерная группировка
3.2 Одномерное цензурирование
3.3 Таблицы сопряженности
3.3.1 Гипотеза независимости
3.3.2 Гипотеза однородности
3.3.3 Поле корреляции
3.4 Многомерная группировка
3.5 Многомерное цензурирование
4 Нечисловые данные
4.1 Вводные замечания
4.2 Шкалы сравнений
4.3 Экспертные оценки
4.4 Группы экспертов
5 Доверительные множества
5.1 Доверительные интервалы
5.2 Доверительные множества
5.2.1 Многомерный параметр
5.2.2 Многомерная выборка
5.3 Толерантные множества
5.4 Малая выборка
6 Регрессионный анализ
6.1 Постановка задачи
6.2 Поиск ОМНК
6.3 Ограничения
6.4 Матрица плана
6.5 Статистический прогноз
7 Дисперсионный анализ
7.1 Вводные замечания
7.1.1 Нормальность
7.1.2 Однородность дисперсий
7.2 Один фактор
7.3 Два фактора
7.4 Общий случай
8 Снижение размерности
8.1 Зачем нужна классификация
8.2 Модель и примеры
8.2.1 Метод главных компонент
8.2.2 Экстремальная группировка признаков
8.2.3 Многомерное шкалирование
8.2.4 Отбор показателей для дискриминантного анализа
8.2.5 Отбор показателей в модели регрессии
9 Дискриминантный анализ
9.1 Применимость модели
9.2 Линейное прогностическое правило
9.3 Практические рекомендации
9.4 Один пример
9.5 Более двух классов
9.6 Проверка качества дискриминации
10 Эвристические методы
10.1 Экстремальная группировка
10.1.1 Критерий квадратов
10.1.2 Критерий модулей
10 2 Метод плеяд
11 Метод главных компонент
11 1 Постановка задачи
112 Вычисление главных компонент
11.3 Пример
114 Свойства главных компонент
11.4.1 Самовоспроизводимость
11.4.2 Геометрические свойства
12 Факторный анализ
12.1 Постановка задачи
12.1.1 Связь с главными компонентами
12.1.2 Однозначность решения
12.2 Математическая модель
12.2.1 Условия на Аt А
12.2.2 Условия на матрицу нагрузок. Центроидный метод
12.3 Латентные факторы
12.3.1 Метод Бартлетта
12.3.2 Метод Томсона
12.4 Пример
13 Оцифровка
13.1 Анализ соответствий
13.1.1 Расстояние хи-квадрат
13.1.2 Оцифровка для задач дискриминантного анализа
13.2 Более двух переменных
13.2.1 Использование бинарной матрицы данных в качестве матрицы соответствий
13.2.2 Максимальные корреляции
13.3 Размерность
13.4 Пример
13.5 Случай смешанных данных
14 Многомерное шкалирование
14.1 Вводные замечания
14.2 Модель Торгерсона
14.2.1 Стресс-критерий
14.3 Алгоритм Торгерсона
14.4 Индивидуальные различия
15 Временные ряды
15.1 Общие положения
15.2 Критерии случайности
15.2.1 Пики и ямы
15.2.2 Распределение длины фазы
15.2.3 Критерии, основанные на ранговой корреляции
15.2.4 Коррелограмма
15.3 Тренд и сезонность
15.3.1 Полиномиальные тренды
15.3.2 Выбор степени тренда
15.3.3 Сглаживание
15.3.4 Оценка сезонных колебаний
А Нормальное распределение
В Распределение X2
С Распределение Стьюдента
D Распределение Фишера.


Бесплатно скачать электронную книгу в удобном формате, смотреть и читать:
Скачать книгу Многомерный статистический анализ, Дронов С.В., 2003 - fileskachat.com, быстрое и бесплатное скачивание.

Скачать pdf
Ниже можно купить эту книгу по лучшей цене со скидкой с доставкой по всей России.

По эконометрике

Многомерный статистический анализ


В многомерном статистическом анализе выборка состоит из элементов многомерного пространства. Отсюда и название этого раздела эконометрических методов. Из многих задач многомерного статистического анализа рассмотрим две - восстановления зависимости и классификации.

Оценивание линейной прогностической функции

Начнем с задачи точечного и доверительного оценивания линейной прогностической функции одной переменной.

Исходные данные – набор n пар чисел (t k , x k), k = 1,2,…,n, где t k – независимая переменная (например, время), а x k – зависимая (например, индекс инфляции, курс доллара США, объем месячного производства или размер дневной выручки торговой точки). Предполагается, что переменные связаны зависимостью

x k = a (t k - t ср)+ b + e k , k = 1,2,…,n,

где a и b – параметры, неизвестные статистику и подлежащие оцениванию, а e k – погрешности, искажающие зависимость. Среднее арифметическое моментов времени

t ср = (t 1 + t 2 +…+t n) / n

введено в модель для облегчения дальнейших выкладок.

Обычно оценивают параметры a и b линейной зависимости методом наименьших квадратов. Затем восстановленную зависимость используют для точечного и интервального прогнозирования.

Как известно, метод наименьших квадратов был разработан великим немецким математиком К. Гауссом в 1794 г. Согласно этому методу для расчета наилучшей функции, приближающей линейным образом зависимость x от t, следует рассмотреть функцию двух переменных


Оценки метода наименьших квадратов - это такие значения a* и b*, при которых функция f(a,b) достигает минимума по всем значениям аргументов.

Чтобы найти эти оценки, надо вычислить частные производные от функции f(a,b) по аргументам a и b, приравнять их 0, затем из полученных уравнений найти оценки: Имеем:

Преобразуем правые части полученных соотношений. Вынесем за знак суммы общие множители 2 и (-1). Затем рассмотрим слагаемые. Раскроем скобки в первом выражении, получим, что каждое слагаемое разбивается на три. Во втором выражении также каждое слагаемое есть сумма трех. Значит, каждая из сумм разбивается на три суммы. Имеем:


Приравняем частные производные 0. Тогда в полученных уравнениях можно сократить множитель (-2). Поскольку

(1)

уравнения приобретают вид

Следовательно, оценки метода наименьших квадратов имеют вид

(2)

В силу соотношения (1) оценку а* можно записать в более симметричном виде:

Эту оценку нетрудно преобразовать и к виду

Следовательно, восстановленная функция, с помощью которой можно прогнозировать и интерполировать, имеет вид

x*(t) = a*(t - t ср)+ b*.

Обратим внимание на то, что использование t ср в последней формуле ничуть не ограничивает ее общность. Сравним с моделью вида

x k = c t k + d + e k , k = 1,2,…,n.

Ясно, что

Аналогичным образом связаны оценки параметров:

Для получения оценок параметров и прогностической формулы нет необходимости обращаться к какой-либо вероятностной модели. Однако для того, чтобы изучать погрешности оценок параметров и восстановленной функции, т.е. строить доверительные интервалы для a*, b* и x*(t), подобная модель необходима.

Непараметрическая вероятностная модель. Пусть значения независимой переменной t детерминированы, а погрешности e k , k = 1,2,…,n, - независимые одинаково распределенные случайные величины с нулевым математическим ожиданием и дисперсией

неизвестной статистику.

В дальнейшем неоднократно будем использовать Центральную Предельную Теорему (ЦПТ) теории вероятностей для величин e k , k = 1,2,…,n (с весами), поэтому для выполнения ее условий необходимо предположить, например, что погрешности e k , k = 1,2,…,n, финитны или имеют конечный третий абсолютный момент. Однако заострять внимание на этих внутриматематических "условиях регулярности" нет необходимости.

Асимптотические распределения оценок параметров. Из формулы (2) следует, что

(5)

Согласно ЦПТ оценка b* имеет асимптотически нормальное распределение с математическим ожиданием b и дисперсией

оценка которой приводится ниже.

Из формул (2) и (5) вытекает, что

Последнее слагаемое во втором соотношении при суммировании по i обращается в 0, поэтому из формул (2-4) следует, что

(6)

Формула (6) показывает, что оценка

является асимптотически нормальной с математическим ожиданием и дисперсией

Отметим, что многомерная нормальность имеет быть, когда каждое слагаемое в формуле (6) мало сравнительно со всей суммой, т.е.


Из формул (5) и (6) и исходных предположений о погрешностях вытекает также несмещенность оценок параметров.

Несмещенность и асимптотическая нормальность оценок метода наименьших квадратов позволяют легко указывать для них асимптотические доверительные границы (аналогично границам в предыдущей главе) и проверять статистические гипотезы, например, о равенстве определенным значениям, прежде всего 0. Предоставляем читателю возможность выписать формулы для расчета доверительных границ и сформулировать правила проверки упомянутых гипотез.

Асимптотическое распределение прогностической функции. Из формул (5) и (6) следует, что

т.е. рассматриваемая оценка прогностической функции является несмещенной. Поэтому

При этом, поскольку погрешности независимы в совокупности и

, то

Таким образом,

МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ

Раздел математич. статистики, посвященный математич. методам построения оптимальных планов сбора, систематизации и обработки многомерных статистич. данных, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практич. выводов. Под многомерным признаком понимается р-мерный показателей (признаков, переменных) среди к-рых могут быть: количественные, т. е. скалярно измеряющие в определенной шкале проявления изучаемого свойства объекта, п о-рядковые (или ординальные), т. е. позволяющие упорядочивать анализируемые объекты по степени проявления в них изучаемого свойства; и классификационные (или номинальные), т. е. позволяющие разбивать исследуемую совокупность объектов на не поддающиеся упорядочиванию однородные (по анализируемому свойству) классы. Результаты измерения этих показателей

на каждом из побъектов исследуемой совокупности образуют многомерных наблюдений, или исходный массив многомерных данных для проведения М. с. а. Значительная часть М. с. а. обслуживает ситуации, в к-рых исследуемый многомерный признак интерпретируется как многомерная и соответственно последовательность многомерных наблюдений (1) - как из генеральной совокупности. В этом случае выбор методов обработки исходных статистич. данных и анализ их свойств производится на основе тех или иных допущений относительно природы многомерного (совместного) закона распределения вероятностей

Многомерный статистический анализ многомерных распределений и их основных характеристик охватывает лишь ситуации, в к-рых обрабатываемые наблюдения (1) имеют вероятностную природу, т. е. интерпретируются как выборка из соответствующей генеральной совокупности. К основным задачам этого подраздела относятся: статистич. оценивание исследуемых многомерных распределений, их основных числовых характеристик и параметров; исследование свойств используемых статистич. оценок; исследование распределений вероятностей для ряда статистик, с помощью к-рых строятся статистич. критерии проверки различных гипотез о вероятностной природе анализируемых многомерных данных. Основные результаты относятся к частному случаю, когда исследуемый признак подчинен многомерному нормальному закону распределения функция плотности к-рого задается соотношением

где - вектор математич. ожиданий компонент случайной величины , т. е.- ковариационная матрица случайного вектора , т. е.- ковариации компонент вектора (рассматривается невырожденный случай, когда ; в противном случае, т. е. при ранге , все результаты остаются справедливыми, но применительно к подпространству меньшей размерности , в к-рой оказывается сосредоточенным исследуемого случайного вектора ).

Так, если (1) - последовательность независимых наблюдений, образующих случайную выборку из то оценками максимального правдоподобия для параметров и , участвующих в (2), являются соответственно статистики (см. , )

причем случайный вектор подчиняется р-мерному нормальному закону и не зависит от , а совместное распределение элементов матрицы описывается т. н. распределением Уиша р-т а (см. ), к-рого

В рамках этой же схемы исследованы распределения и моменты таких выборочных характеристик многомерной случайной величины, как коэффициенты парной, частной и множественной корреляции, обобщенная (т. е. ), обобщенная -статистике Хотеллинга (см. ). В частности (см. ), если определить в качестве выборочной ковариационной матрицы подправленную "на несмещенность" оценку , а именно:

то случайной величины стремится к при , а случайные величины

подчиняются F-распределениям с числами степеней свободы соответственно (р, п-р) и (р, п 1 +п 2 -р-1). В соотношении (7) п 1 и n 2 - объемы двух независимых выборок вида (1), извлеченных из одной и той же генеральной совокупности - оценки вида (3) и (4)-(5), построенные по i-й выборке, а

Общая выборочная ковариационная , построенная по оценкам и

Многомерный статистический анализ характера и структуры взаимосвязей компонент исследуемого многомерного признака объединяет в себе понятия и результаты, обслуживающие такие методы и модели М. с. а., как множественная , многомерный дисперсионный анализ и ковариационный анализ, факторный анализ и метод главных компонент, анализ канонич. корреляций. Результаты, составляющие содержание этого подраздела, могут быть условно разделены на два основных типа.

1) Построение наилучших (в определенном смысле) статистич. оценок для параметров упомянутых моделей и анализ их свойств (точности, а в вероятностной постановке - законов их распределения, доверительных: областей и т. д.). Так, пусть исследуемый многомерный признак интерпретируется как векторная случайная , подчиненная р-мерному нормальному распределению , и расчленен на два подвектора--столбца и размерности qи р-qсоответственно. Это определяет и соответствующее расчленение вектора математич. ожиданий , теоретической и выборочной ковариационных матриц , а именно:

Тогда (см. , ) подвектора (при условии, что второй подвектор принял фиксированное значение ) будет также нормальным ). При этом оценками максимального правдоподобия. для матриц регрессионных коэффициентов и ковариацин этой классической многомерной модели множественной регрессии

будут взаимно независимые статистики соответственно

здесь распределение оценки подчинено нормальному закону , а оценки п - закону Уишарта с параметрами и (элементы ковариационной матрицы выражаются в терминах элементов матрицы ).

Основные результаты по построению оценок параметров и исследованию их свойств в моделях факторного" анализа, главных компонент и канонич. корреляций относятся к анализу вероятностно-статистич. свойств собственных (характеристических) значений и векторов различных выборочных ковариационных матриц.

В схемах, не укладывающихся в рамки классич. нормальной модели и тем более в рамки какой-либо вероятностной модели, основные результаты относятся к построению алгоритмов (и исследованию их свойств) вычисления оценок параметров, наилучших с точки зрения нек-poro экзогенно заданного функционала качества (пли адекватности) модели.

2) Построение статистич. критериев для проверки различных гипотез о структуре исследуемых взаимосвязей. В рамках многомерной нормальной модели (последовательности наблюдений вида (1) интерпретируются как случайные выборки из соответствующих многомерных нормальных генеральных совокупностей) построены, напр., статистич. критерии для проверки следующих гипотез.

I. Гипотезы о равенстве вектора математич. ожиданий исследуемых показателей заданному конкретному вектору ; проверяется с помощью -статистики Хотеллинга с подстановкой в формулу (6)

II. Гипотезы о равенстве векторов математич. ожиданий в двух генеральных совокупностях (с одинаковыми, но неизвестными ковариационными матрицами), представленных двумя выборками; проверяется с помощью статистики (см. ).

III. Гипотезы о равенстве векторов математич. ожиданий в нескольких генеральных совокупностях (с одинаковыми, но неизвестными ковариационными матрицами), представленных своими выборками; проверяется с помощью статистики

в к-рой есть i-е р-мерное наблюдение в выборке объема , представляющей j-ю генеральную совокупность, а и - оценки вида (3), построенные соответственно отдельно по каждой из выборок и по объединенной выборке объема

IV. Гипотезы об эквивалентности нескольких нормальных генеральных совокупностей, представленных своими выборками проверяется с помощью статистики

в к-рой - оценка вида (4), построенная отдельно по наблюдениям j- йвыборки, j=1, 2, ... , k.

V. Гипотезы о взаимной независимости подвекторов-столбцов размерностей соответственно на к-рые расчленен исходный р-мерный вектор исследуемых показателей проверяется с помощью статистики

в к-рой и - выборочные ковариационные матрицы вида (4) для всего вектора и для его подвектора x (i) соответственно.

Многомерный статистический анализ геометрической структуры исследуемой совокупности многомерных наблюдений объединяет в себе понятия и результаты таких моделей и схем, как дискриминантный анализ, смеси вероятностных распределений, кластер-анализ и таксономия, многомерное шкалирование. Узловым во всех этих схемах является понятие расстояния (меры близости, меры сходства) между анализируемыми элементами. При этом анализируемыми могут быть как реальные объекты, на каждом из к-рых фиксируются значения показателей ,- тогда геометрич. образом i-го обследованного объекта будет точка в соответствующем р-мерном пространстве, так и сами показатели - тогда геометрич. образом l-го показателя будет точка в соответствующем n-мерном пространстве.

Методы и результаты дискриминантного анализа (см. , , ) направлены на следующей задачи. Известно о существовании определенного числа генеральных совокупностей и у исследователя имеется по одной выборке из каждой совокупности ("обучающие выборки"). Требуется построить основанное на имеющихся обучающих выборках наилучшее в определенном смысле классифицирующее правило, позволяющее приписать нек-рый новый элемент (наблюдение ) к своей генеральной совокупности в ситуации, когда исследователю заранее не известно, к какой из совокупностей этот элемент принадлежит. Обычно под классифицирующим правилом понимается последовательность действий: по вычислению скалярной функции от исследуемых показателей, по значениям к-рой принимается решение об отнесении элемента к одному из классов (построение дискриминантной функции); по упорядочению самих показателей по степени их информативности с точки зрения правильного отнесения элементов к классам; по вычислению соответствующих вероятностей ошибочной классификации.

Задача анализа смесей распределений вероятностей (см. ) чаще всего (но не всегда) возникает также в связи с исследованием "геометрической структуры" рассматриваемой совокупности. При этом понятие r-го однородного класса формализуется с помощью генеральной совокупности, описываемой нек-рым (как правило, унимодальным) законом распределения так что распределение общей генеральной совокупности, из к-рой извлечена выборка (1), описывается смесью распределений вида где p r - априорная вероятность (удельный элементов) r-го класса в общей генеральной совокупности. Задача состоит в "хорошем" статистич. оценивании (по выборке ) неизвестных параметров а иногда и к. Это, в частности, позволяет свести задачу классификации элементов к схеме дискриминантного анализа, хотя в данном случае отсутствовали обучающие выборки.

Методы и результаты кластер-анализа (классификации, таксономии, распознавании образов "без учителя", см. , , ) направлены на решение следующей задачи. Геометрич. анализируемой совокупности элементов задана либо координатами соответствующих точек (т. е. матрицей ... , п), либо набором геометрич. характеристик их взаимного расположения, напр, матрицей попарных расстояний . Требуется разбить исследуемую совокупность элементов на сравнительно небольшое (заранее известное или нет) классов так, чтобы элементы одного класса находились на небольшом расстоянии друг от друга, в то время как разные классы были бы по возможности достаточно взаимоудалены один от другого и не разбивались бы на столь же удаленные друг от друга части.

Задача многомерного шкалирования (см. ) относится к ситуации, когда исследуемая совокупность элементов задана с помощью матрицы попарных расстояний и заключается в приписывании каждому из элементов заданного числа (р)координат таким образом, чтобы структура попарных взаимных расстояний между элементами, измеренных с помощью этих вспомогательных координат, в среднем наименее отличались бы от заданной. Следует заметить, что основные результаты и методы кластер-анализа и многомерного шкалирования развиваются обычно без каких-либо допущении о вероятностной природе исходных данных.

Прикладное назначение многомерного статистического анализа состоит в основном в обслуживании следующих трех проблем.

Проблема статистического исследования зависимостей между анализируемыми показателями. Предполагая, что исследуемый набор статистически регистрируемых показателей xразбит, исходя из содержательного смысла этих показателей и окончательных целей исследования, на q-мернын подвектор предсказываемых (зависимых) переменных и (р-q)-мерный подвектор предсказывающих (независимых) переменных, можно сказать, что проблема состоит в определении на основании выборки (1) такой q-мерной векторной функции из класса допустимых решений F, к-рая давала бы наилучшую, в определенном смысле, аппроксимацию поведения подвектора показателей . В зависимости от конкретного вида функционала качества аппроксимации и природы,анализируемых показателей приходят к тем или иным схемам множественной регрессии, дисперсионного, ковариационного или конфлюентного анализа.

Проблема классификации элементов (объектов или показателей) в общей (нестрогой) постановке заключается в том, чтобы всю анализируемую совокупность элементов, статистически представленную в виде матрицы или матрицы разбить на сравнительно небольшое число однородных, в определенном смысле, групп . В зависимости от природы априорной информации и конкретного вида функционала, задающего критерий качества классификации, приходят к тем или иным схемам дискриминантного анализа, кластер-анализа (таксономии, распознавания образов "без учителя"), расщепления смесей распределений.

Проблема снижения размерности исследуемого факторного пространства и отбора наиболее информативных показателей заключается в определении такого набора сравнительно небольшого числа показателен найденного в классе допустимых преобразований исходных показателей на к-ром достигается верхняя нек-рой экзогенно заданной меры информативности m-мерной системы признаков (см. ). Конкретизация функционала, задающего меру автоинформативности (т. е. нацеленное на максимальное сохранение информации, содержащейся в статистич. массиве (1) относительно самих исходных признаков), приводит, в частности, к различным схемам факторного анализа и главных компонент, к методам экстремальной группировки признаков. Функционалы, задающие меру внешней информативности, т. е. нацеленные на извлечение из (1) максимальной информации относительно нек-рых других, не содержащихся непосредственно в ж, показателен или явлений, приводят к различным методам отбора наиболее информативных показателей в схемах статистич. исследования зависимостей и дискриминантного анализа.

Основной математический инструментарий М. с. а. составляют специальные методы теории систем линейных уравнений и теории матриц (методы решения простой и обобщенной задачи о собственных значениях и векторах; простое обращение и псевдообращение матриц; процедуры диагонализации матриц и т. д.) и нек-рые оптимизационные алгоритмы (методы покоординатного спуска, сопряженных градиентов, ветвей и границ, различные версии случайного поиска и стохастич. аппроксимации и т. д.).

Лит. : Андерсон Т., Введение в многомерный статистический анализ, пер. с англ., М., 1963; Кендалл М. Дж.., Стьюарт А., Многомерный статистический анализ и временные ряды, пер. с англ., М., 1976; Большев Л. Н., "Bull. Int. Stat. Inst.", 1969, № 43, p. 425-41; Wishаrt .J., "Biometrika", 1928, v. 20A, p. 32-52: Hotelling H., "Ann. Math. Stat.", 1931, v. 2, p. 360-78; [в] Кruskal J. В., "Psychometrika", 1964, v. 29, p. 1-27; Айвазян С. А., Бежаева 3. И., . Староверов О. В., Классификация многомерных наблюдений, М., 1974.

С. А. Айвазян.


Математическая энциклопедия. - М.: Советская энциклопедия . И. М. Виноградов . 1977-1985 .

Справочник технического переводчика

Раздел статистики математической (см.), посвященный математич. методам, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака (см.) и предназначенным для получения научн. и практич.… …

В широком смысле раздел математической статистики (См. Математическая статистика), объединяющий методы изучения статистических данных, относящихся к объектам, которые характеризуются несколькими качественными или количественными… … Большая советская энциклопедия

АНАЛИЗ МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ - раздел математической статистики, предназначенный для анализа связей между тремя и более переменными. Можно условно выделить три основных класса задач А.М.С. Это исследование структуры связей между переменными и снижение размерности пространства … Социология: Энциклопедия

АНАЛИЗ КОВАРИАЦИОННЫЙ - – сово­купность методов математич. статистики, отно­сящихся к анализу моделей зависимости среднего значения нек рой случайной величины Y от набора неколичественных факторов F и одновременно от набора количественных факторов X. По отношению к Y… … Российская социологическая энциклопедия

Раздел математич. статистики, содержанием к рого является разработка и исследование статистич. методов решения следующей задачи различения (дискриминации): основываясь на результатах наблюдений, определить, какой из нескольких возможных… … Математическая энциклопедия, Орлова Ирина Владленовна, Концевая Наталья Валерьевна, Турундаевский Виктор Борисович. Книга посвящена многомерному статистическому анализу (МСА) и организации вычислений по МСА. Для реализации методов многомерной статистики используется программаобработки статистической…