Menu

Analyse statistique multivariée. Analyse statistique multivariée : essence et types Estimation de la fonction prédictive linéaire

Droits et responsabilités du conducteur


exemple de tableau conjugaison max, estimations plausibles :

G2= -2 ^ p scht ■ p w)

a une distribution asymptotique χ 2. C’est sur cela que se base la statistique. tester l’hypothèse des relations.

Expérience dans le traitement des données avec A.L. a montré son efficacité comme méthode d'analyse ciblée d'un tableau multidimensionnel. contingence, contenant (dans le cas d'un choix raisonnablement raisonnable de variables) une quantité énorme, par rapport aux tableaux bidimensionnels, d'informations intéressantes pour le sociologue. La méthode permet de décrire ce tableau de manière concise. (sous la forme d'une hypothèse sur les connexions) et en même temps analyser en détail les spécificités. relation. Al. généralement appliqué de manière multi-étapes, sous la forme d’un dialogue sociologue-ordinateur. T.o., A.l. a une flexibilité importante, offre la possibilité de formuler divers types d'hypothèses sur les relations et d'inclure l'expérience d'un sociologue dans la procédure d'analyse formelle des données.

Lit. : En haut G. Analyse du tableau conjugaison. M., 1982 ; Typologie et classification en sociologie. recherche. M., 1982 ; Mgr Y.M.M. et ainsi de suite. Analyse multivariée discrète. New York, 1975 ; Agresti A. Une introduction à l'analyse de données catégorielles. New York, 1966.

Les AA Mirzoev

ANALYSE STATISTIQUE MULTIVARIÉE- section statistiques mathématiques, dédié aux mathématiques méthodes visant à identifier la nature et la structure des relations entre les composantes de l'étude signe de multidimensionnel et destiné à l'obtention d'informations scientifiques. et des conclusions pratiques. La gamme initiale de données multidimensionnelles pour mener des activités A.M.S. Habituellement, les résultats de la mesure des composantes d'une caractéristique multidimensionnelle pour chacun des objets de la population étudiée sont utilisés, c'est-à-dire séquence d'observations multivariées (voir Observation en statistiques). Une caractéristique multidimensionnelle est le plus souvent interprétée comme une caractéristique multidimensionnelle. super


rang aléatoire et une séquence d'observations multivariées est comme un échantillon d'une population générale. Dans ce cas, le choix de la méthode de traitement des statistiques initiales. les données sont produites sur la base de certaines hypothèses concernant la nature droit de la distribution le trait multidimensionnel étudié (voir Distribution de probabilité).

1. A.m.s. distributions multivariées et leurs bases. Les caractéristiques couvrent les situations où les observations traitées sont de nature probabiliste, c'est-à-dire interprété comme un échantillon de resp. population générale. Vers le principal les objectifs de cette sous-section comprennent : évaluation statistique les distributions multidimensionnelles étudiées et leurs bases. paramètres ; étude des propriétés des stats utilisées. notes ; étude des distributions de probabilité pour un certain nombre de statistiques, à l'aide desquelles les statistiques sont construites. critères de vérification des plongeurs. hypothèses sur la nature probabiliste des données multidimensionnelles analysées (voir. Test d'hypothèses statistiques).

2. A.m.s. la nature et la structure des relations entre les composants du trait multidimensionnel étudié combinent les concepts et les résultats inhérents à des méthodes et des modèles tels que analyse de régression, analyse de variance, analyse de covariance, analyse factorielle, analyse structurelle latente, analyse log-cervicale, recherche d'interactions. Les méthodes appartenant à ce groupe incluent les deux algorithmes de base. sur l'hypothèse du caractère probabiliste des données, et des méthodes qui ne rentrent pas dans le cadre de k.-l. modèle probabiliste (ces derniers sont souvent appelés méthodes analyse des données).

3. A.m.s. La structure géométrique de l'ensemble étudié d'observations multidimensionnelles combine des concepts et des résultats caractéristiques de modèles et de méthodes tels que analyse discriminante, analyse groupée (voir Méthodes de classification, Échelle). Le nœud pour ces modèles est yavl. la notion de distance ou mesure de proximité entre les éléments analysés en tant que points d'un certain pro-

ANALYSE CAUSALE


errances. Dans ce cas, à la fois les objets (en tant que points spécifiés dans l'espace des fonctionnalités) et les fonctionnalités (en tant que points spécifiés dans l'espace « objet ») peuvent être analysés.

Valeur appliquée de l'A.m.s. consiste principalement en trace de maintenance. trois problèmes : stat. étude des dépendances entre les indicateurs considérés ; classification d'éléments (objets) ou de caractéristiques ; réduire la dimension de l'espace de fonctionnalités considéré et sélectionner les fonctionnalités les plus informatives.

Lit. : Stat. méthodes d'analyse sociologique. information. M., 1979 ; Typologie et classification en sociologie. recherche. M., 1982 ; Interprétation et analyse de données en sociologie, recherche. M., 1987 ; Ayvazyan S.A., Mkhitaryan V.S. Statistiques appliquées et fondamentaux de l'économétrie : Proc. M., 1998 ; Sosh-nikova L.A. et autres. analyse en économie. M., 1999 ; Dubrov A.M., Mkhitaryan V.S., Troshin L.I. Statistiques multivariées méthodes pour les économistes et les managers. M., 2000 ; Rostovtsev V.S., Kovaleva T.D. Analyse de sociologie. données à l’aide de statistiques. Forfait SPSS. Novossibirsk, 2001 ; Tyurin Yu.N., Makarov A.A. Analyse des données sur un ordinateur. Y., 2003; Krysh-tanovsky A.O. Analyse de sociologie. données à l’aide du package SPSS. M., 2006.

YN. Tolstova

ANALYSE CAUSALE- des méthodes de modélisation des relations causales entre caractéristiques à l'aide de systèmes statistiques. équations, le plus souvent de régression (voir Analyse de régression). Il existe d'autres noms pour ce domaine de méthodes assez vaste et en constante évolution : l'analyse de chemin, comme l'a d'abord appelée son fondateur S. Wright ; méthodes d'équations économétriques structurelles, comme il est d'usage en économétrie, etc. concepts d'A.p. phénomènes : diagramme de chemin (structurel, causal), coefficient causal (de chemin), composantes directes, indirectes et imaginaires de la relation entre signes. Utilisé dans A.p. le concept de « relation causale* n’affecte pas la physique complexe


los. problèmes associés au concept de « causalité ». Coefficient causal déf. assez opérationnel. Ma-tem. L'appareil permet de vérifier la présence de relations causales directes et indirectes entre les signes, ainsi que d'identifier les composantes des coefficients de corrélation (voir. Corrélation), qui sont associés à des connexions directes, indirectes et imaginaires.

Un diagramme de chemin reflète graphiquement des relations causales et directionnelles hypothétiquement supposées entre les signes. Un système de fonctionnalités avec des connexions unidirectionnelles est appelé récursif. Les systèmes causals non récursifs prennent également en compte le feedback, par exemple, deux signes d'un système peuvent être simultanément à la fois cause et conséquence l'un par rapport à l'autre. Tous les signes sont divisés en signes-effets (dépendants, endogènes) et signes-causes (indépendants, exogènes). Cependant, dans un système d’équations, les caractéristiques endogènes de l’une des équations peuvent être des caractéristiques exogènes d’autres équations. Dans le cas de quatre fonctionnalités, le diagramme récursif de toutes les connexions possibles entre fonctionnalités a la forme :

x2
/ N
*1 À
G
À S

Construction d'un schéma de connexions entre phénomènes. un prérequis nécessaire pour les mathématiques. formulation du système statistique. équations reflétant les influences présentées dans le diagramme. Basique Nous illustrerons les principes de construction d'un système d'équations de régression en utilisant les quatre mêmes caractéristiques à titre d'exemple. En suivant le sens des flèches, en commençant par on retrouve le premier endogène

ANALYSE CAUSAL


Il s'agit d'un signe significatif et nous notons les signes qui l'influencent à la fois directement (directement) et indirectement (indirectement) et à travers d'autres signes. La première équation de régression standardisée correspond à la première caractéristique endogène Xj et exprime une dépendance Χι de ces signes qui l'influencent, c'est-à-dire depuis Χγ. Ainsi, la première équation a la forme : Χι = bi\X\.

Ensuite, nous identifions la deuxième caractéristique endogène, qui a des connexions dirigées vers elle. C'est un signe Aj, il correspond à des variables exogènes X\ Et Χι, par conséquent, la deuxième équation de régression sous forme standardisée est formulée comme suit : Aj = btx\+ bnXr etc. Prise en compte des erreurs de mesure U le système de modèles de régression standardisés pour notre diagramme causal spécifique est : X\ = Ui, UN? =

- b->\x\+ Interface utilisateur, Xt,= 631ΑΊ + pariXi+ Euh, Χα -

- baXi+ binXi+J43A3+ SCH. Pour estimer les coefficients b, s, il faut le résoudre. Une solution existe à condition que les données satisfassent à certaines conditions naturelles. statistique. exigences. b$ sont appelés coefficients de causalité et sont souvent notés Ru. Que., R# montre la proportion de changement dans la variation d'un trait endogène ; les bords se produisent lorsqu'un trait exogène change ; j par unité d'écart type de cette caractéristique, à condition que l'influence d'autres caractéristiques de l'équation soit exclue (voir. Analyse de régression). En d’autres termes, P,y a un effet direct sur le trait j sur le trait d. Effet indirect du trait j sur ;) est calculé en tenant compte de toutes les voies d'influence j sur je sauf le direct.

Dans le schéma, l'influence directe du premier signe sur le quatrième est schématiquement représentée par une flèche droite, provenant directement de Χι À xt, symboliquement représenté par 1->4 ; il est égal au coefficient d'influence causale P, X 2,..., H.R. Une dépendance strictement régressive peut être déterminée comme suit. chemin.

Laissez-vous X\, Xr,..., Xr- aléatoire
quantités avec un joint donné courses
distribution de probabilité.
Si pour chacun
jusqu'à un ensemble de valeurs Χ λ =x\, X 2= xg,...,
X p = x p les mathématiques conditionnelles sont définies. revivre
hommage Υ(χ\, X2,..., Xp) - E(Y/(X]= xj,
Χι = X2, ..., X p = Xp)), alors la fonction Υ(Χ],
X2,
..., XP) appelée régression de magnitude
nous U par grandeur X\, Xr,..., Xr, et elle
graphique - ligne de régression Y sur X\, Xr,
..., Xr,
ou équation de régression. Zavi
symétrie de Y à partir de ΛΊ, Xg....... Xr se manifeste dans

changement des valeurs moyennes d'Upri de
changement X\, Xr........ Chr. Même si à chaque fois

ensemble fixe de valeurs X]- xj, xg = xg,» , Xr ~ Xr la valeur T reste une variable aléatoire avec une définition. diffusion. Pour clarifier la question de savoir avec quelle précision la régression estime le changement de Y avec un changement de ΑΊ, Hg,..., Xr, la variance moyenne de Y est utilisée pour différents ensembles de valeurs X\, Xr,..., XP(en fait, nous parlons du degré de dispersion de la variable dépendante autour de la droite de régression).

En pratique, la droite de régression est le plus souvent recherchée sous la forme d'une fonction linéaire Y = bj + biXi + bgXr+ - + bрХр(régression linéaire) qui se rapproche le mieux de la courbe souhaitée. Cela se fait en utilisant la méthode des moindres carrés, lorsque la somme des écarts carrés de Y réellement observés par rapport à leurs estimations de Y est minimisée (c'est-à-dire les estimations utilisant une ligne droite censée représenter la relation de régression souhaitée) : w

U (U -U) => min (Ν - taille de l'échantillon), s

Cette approche repose sur le fait bien connu que le montant apparaissant dans l'expression ci-dessus prend un mini-nim. valeur précisément pour le cas où Y = Υ(χ\,xr, --, xP). Application

L'introduction des ordinateurs personnels dans la gestion de l'économie nationale implique une transition des méthodes traditionnelles d'analyse des activités des entreprises vers des modèles de gestion économique plus avancés, qui permettent d'en révéler les processus profonds.

L'utilisation généralisée des méthodes de statistiques mathématiques dans la recherche économique permet d'approfondir l'analyse économique, d'améliorer la qualité de l'information dans la planification et la prévision des indicateurs de production et d'analyser son efficacité.

La complexité et la diversité des connexions entre les indicateurs économiques déterminent la multidimensionnalité des caractéristiques et, à cet égard, nécessitent l'utilisation de l'appareil mathématique le plus complexe - les méthodes d'analyse statistique multidimensionnelle.

Le concept d'« analyse statistique multivariée » implique la combinaison d'un certain nombre de méthodes conçues pour étudier une combinaison de caractéristiques interdépendantes. Nous parlons de démembrement (partitionnement) de la population considérée, qui est représentée par des caractéristiques multidimensionnelles en un nombre relativement restreint d'entre elles.

Dans le même temps, le passage d'un grand nombre de fonctionnalités à un plus petit nombre poursuit l'objectif de réduire leur dimension et d'augmenter leur capacité d'information. Cet objectif est atteint en identifiant les informations répétées générées par des caractéristiques interdépendantes, en établissant la possibilité d'agrégation (union, sommation) selon certaines caractéristiques. Cette dernière consiste à transformer le modèle réel en un modèle comportant moins de caractéristiques factorielles.

La méthode d'analyse statistique multivariée permet d'identifier des modèles objectivement existants, mais non clairement exprimés, qui se manifestent dans certains phénomènes socio-économiques. Cela doit être rencontré lors de la résolution d'un certain nombre de problèmes pratiques dans le domaine de l'économie. En particulier, ce qui précède a lieu s'il est nécessaire d'accumuler (enregistrer) simultanément les valeurs de plusieurs caractéristiques quantitatives (signes) pour l'objet d'observation étudié, lorsque chaque caractéristique est sujette à une variation incontrôlée (à travers les objets), malgré le homogénéité des objets d'observation.

Par exemple, en étudiant des entreprises homogènes (en termes de conditions naturelles et économiques et de type de spécialisation) selon un certain nombre d'indicateurs d'efficacité de production, nous sommes convaincus que lors du passage d'un objet à un autre, presque chacune des caractéristiques sélectionnées ( identique) a une valeur numérique différente, c'est-à-dire qu'il trouve, pour ainsi dire, une dispersion incontrôlable (aléatoire). En règle générale, une telle variation « aléatoire » des caractéristiques est soumise à certaines tendances (naturelles), à la fois en termes de tailles assez définies de caractéristiques autour desquelles la variation se produit, et en termes de degré et d'interdépendance de la variation elle-même.

Ce qui précède conduit à la définition d'une variable aléatoire multidimensionnelle comme un ensemble de caractéristiques quantitatives dont la valeur de chacune est sujette à une dispersion incontrôlée lors de la répétition d'un processus donné, d'une observation statistique, d'une expérience, d'une expérience, etc.

Il a été dit précédemment que l’analyse multivariée combine plusieurs méthodes ; Appelons-les : analyse factorielle, méthode des composantes principales, analyse groupée, reconnaissance de formes, analyse discriminante, etc. Les trois premières de ces méthodes sont abordées dans les paragraphes suivants.

Comme d'autres méthodes mathématiques et statistiques, l'analyse multivariée peut être efficace dans son application, à condition que les informations initiales soient de haute qualité et que la quantité de données d'observation soit traitée à l'aide d'un PC.

Concepts de base de la méthode d'analyse factorielle, l'essence des problèmes qu'elle résout

Lorsqu'on analyse (et également étudié) des phénomènes socio-économiques, on rencontre souvent des cas où, parmi la diversité (richesse des paramètres) des objets d'observation, il faut exclure une partie des paramètres, ou les remplacer par un plus petit nombre de certaines fonctions , sans porter atteinte à l'intégrité (exhaustivité) des informations . La solution à un tel problème a du sens dans le cadre d'un certain modèle et est déterminée par sa structure. Un exemple d'un tel modèle, le plus adapté à de nombreuses situations réelles, est le modèle d'analyse factorielle, dont les méthodes permettent de concentrer les caractéristiques (les informations les concernant) en « condensant » un grand nombre en un plus petit, plus riche en informations. Dans ce cas, le « condensat » d'informations qui en résulte doit être représenté par les caractéristiques quantitatives les plus significatives et décisives.

Le concept d'« analyse factorielle » ne doit pas être confondu avec le concept large d'analyse des relations de cause à effet, lorsque l'influence de divers facteurs (leurs combinaisons) sur une caractéristique efficace est étudiée.

L'essence de la méthode d'analyse factorielle est d'exclure la description de multiples caractéristiques de l'étude et de la remplacer par un plus petit nombre de variables riches en informations, appelées facteurs et reflétant les propriétés les plus essentielles des phénomènes. Ces variables sont certaines fonctions des fonctionnalités d'origine.

L'analyse, selon Y. Okun 9, permet d'avoir les premières caractéristiques approximatives des schémas sous-jacents au phénomène, de formuler les premières conclusions générales sur les directions dans lesquelles des recherches ultérieures doivent être menées. Il souligne ensuite l'hypothèse principale de l'analyse factorielle, qui se résume au fait qu'un phénomène, malgré son hétérogénéité et sa variabilité, peut être décrit par un petit nombre d'unités fonctionnelles, de paramètres ou de facteurs. Ces termes sont appelés différemment : influence, causes, paramètres, unités fonctionnelles, capacités, indicateurs principaux ou indépendants. L'utilisation d'un terme particulier est déterminée par

Okun Ya. Analyse factorielle : Trad. Avec. sol. M. : Statistiques, 1974.- P.16.

contexte sur le facteur et connaissance de l'essence du phénomène étudié.

Les étapes de l'analyse factorielle sont des comparaisons séquentielles de divers ensembles de facteurs et d'options pour les groupes avec leur inclusion, leur exclusion et leur évaluation de la fiabilité des différences entre les groupes.

V.M. Zhukovska et I.B. Muchnik 10, parlant de l'essence des problèmes de l'analyse factorielle, soutiennent que cette dernière ne nécessite pas de division a priori des variables en dépendantes et indépendantes, puisque toutes les variables qu'elle contient sont considérées comme égales.

La tâche de l'analyse factorielle se résume à un certain concept, le nombre et la nature des caractéristiques fonctionnelles les plus significatives et relativement indépendantes d'un phénomène, ses mesures ou paramètres de base - les facteurs. Selon les auteurs, une caractéristique distinctive importante de l'analyse factorielle est qu'elle permet d'étudier simultanément un grand nombre de variables interdépendantes sans l'hypothèse de « la constance de toutes les autres conditions », ce qui est si nécessaire lors de l'utilisation d'un certain nombre d'autres méthodes d'analyse. analyse. C’est là le grand avantage de l’analyse factorielle en tant qu’outil précieux pour étudier les phénomènes provoqués par une diversité complexe et des relations entrelacées.

L'analyse repose principalement sur l'observation de la variation naturelle des variables.

1. Lors de l'utilisation de l'analyse factorielle, l'ensemble des variables étudiées du point de vue des relations entre elles n'est pas choisi arbitrairement : cette méthode permet d'identifier les principaux facteurs qui ont un impact significatif dans ce domaine.

2. L'analyse ne nécessite pas d'hypothèses préalables, au contraire, elle peut elle-même servir de méthode pour émettre des hypothèses, ainsi que servir de critère pour des hypothèses basées sur des données obtenues par d'autres méthodes.

3. L'analyse ne nécessite pas de suppositions a priori quant aux variables indépendantes et dépendantes ; elle n'exagère pas les relations causales et résout la question de leur étendue au cours de recherches ultérieures.

La liste des problèmes spécifiques résolus à l'aide des méthodes d'analyse factorielle sera la suivante (selon V.M. Zhukovskaya). Citons les principaux dans le domaine de la recherche socio-économique :

Joukovskaya V.M., Muchnik I.B. Analyse factorielle dans la recherche socio-économique. -Statistiques, 1976. P.4.

1. Détermination des principaux aspects des différences entre objets d'observation (minimisation de la description).

2. Formulation d'hypothèses sur la nature des différences entre les objets.

3. Identification de la structure des relations entre les caractéristiques.

4. Tester des hypothèses sur la relation et l'interchangeabilité des caractéristiques.

5. Comparaison des structures des ensembles de fonctionnalités.

6. Dissection des objets d'observation basée sur des caractéristiques typiques.

Ce qui précède montre les grandes possibilités de l'analyse factorielle dans

l'étude des phénomènes sociaux, où, en règle générale, il est impossible de contrôler (expérimentalement) l'influence de facteurs individuels.

L'utilisation des résultats de l'analyse factorielle dans des modèles de régression multiple est très efficace.

Disposant d'un modèle de corrélation-régression préformé du phénomène étudié sous la forme de caractéristiques corrélées, en utilisant l'analyse factorielle, il est possible de transformer un tel ensemble de caractéristiques en un nombre nettement plus petit par agrégation. Il est à noter qu'une telle transformation ne dégrade en rien la qualité et l'exhaustivité des informations sur le phénomène étudié. Les caractéristiques agrégées générées ne sont pas corrélées et représentent une combinaison linéaire des caractéristiques principales. Du point de vue mathématique formel, la formulation de problèmes dans ce cas peut avoir un nombre infini de solutions. Mais il ne faut pas oublier que lors de l'étude des phénomènes socio-économiques, les caractéristiques agrégées qui en résultent doivent avoir une interprétation économiquement justifiée. En d’autres termes, de toute façon, l’utilisation d’appareils mathématiques découle avant tout de la connaissance de l’essence économique des phénomènes étudiés.

Ainsi, ce qui précède nous permet de résumer que l'analyse factorielle est une méthode de recherche spécifique, qui s'appuie sur un arsenal de méthodes de statistiques mathématiques.

L’analyse factorielle a d’abord trouvé son application pratique dans le domaine de la psychologie. La capacité de réduire un grand nombre de tests psychologiques à un petit nombre de facteurs a permis d'expliquer les capacités de l'intelligence humaine.

Lors de l'étude de phénomènes socio-économiques, où il est difficile d'isoler l'influence de variables individuelles, l'analyse factorielle peut être utilisée avec succès. L'utilisation de ses techniques permet, grâce à certains calculs, de « filtrer » des signes sans importance et de poursuivre la recherche dans le sens de son approfondissement.

L'efficacité de cette méthode est évidente lorsqu'on étudie de telles questions (problèmes) : en économie - spécialisation et concentration de la production, intensité de l'agriculture, budget des familles ouvrières, construction de divers indicateurs généraux. etc.

Le manuel a été créé sur la base de l'expérience de l'auteur dans l'enseignement de cours d'analyse statistique multivariée et d'économétrie. Contient des documents sur l'analyse discriminante, factorielle, de régression, l'analyse des correspondances et la théorie des séries chronologiques. Des approches des problèmes de mise à l'échelle multidimensionnelle et d'autres problèmes de statistiques multidimensionnelles sont présentées.

Regroupement et censure.
La tâche consistant à former des groupes d'échantillons de données de telle manière que les données groupées puissent fournir presque la même quantité d'informations pour la prise de décision que l'échantillon avant le regroupement est résolue en premier par le chercheur. En règle générale, les objectifs du regroupement sont de réduire la quantité d'informations, de simplifier les calculs et de rendre les données plus claires. Certains tests statistiques sont initialement conçus pour fonctionner avec un échantillon groupé. Sous certains aspects, le problème de regroupement est très similaire au problème de classification, qui sera discuté plus en détail ci-dessous. Parallèlement à la tâche de regroupement, le chercheur résout également le problème de la censure de l'échantillon, c'est-à-dire l'exclusion des données nettement aberrantes, qui, en règle générale, sont le résultat d'erreurs d'observation grossières. Naturellement, il est souhaitable de garantir l'absence de telles erreurs au cours du processus d'observation lui-même, mais cela n'est pas toujours possible. Les méthodes les plus simples pour résoudre ces deux problèmes sont abordées dans ce chapitre.

Table des matières
1 Informations préliminaires
1.1 Analyse et algèbre
1.2 Théorie des probabilités
1.3 Statistiques mathématiques
2 distributions multivariées
2.1 Vecteurs aléatoires
2.2 Indépendance
2.3 Caractéristiques numériques
2.4 Distribution normale dans le cas multivarié
2.5 Théorie des corrélations
3 Regroupement et censure
3.1 Regroupement unidimensionnel
3.2 Censure unidimensionnelle
3.3 Tableaux de contingence
3.3.1 Hypothèse d'indépendance
3.3.2 Hypothèse d'homogénéité
3.3.3 Champ de corrélation
3.4 Regroupement multidimensionnel
3.5 Censure multivariée
4 Données non numériques
4.1 Remarques introductives
4.2 Échelles de comparaison
4.3 Expertises
4.4 Groupes d'experts
5 ensembles de confiance
5.1 Intervalles de confiance
5.2 Ensembles de confiance
5.2.1 Paramètre multivarié
5.2.2 Échantillonnage multivarié
5.3 Ensembles tolérants
5.4 Petit échantillon
6 Analyse de régression
6.1 Énoncé du problème
6.2 Recherche d'OMC
6.3 Limites
6.4 Matrice du plan
6.5 Prévisions statistiques
7 Analyse de variance
7.1 Notes introductives
7.1.1 Normalité
7.1.2 Uniformité des écarts
7.2 Un facteur
7.3 Deux facteurs
7.4 Cas général
8 Réduction de dimensionnalité
8.1 Pourquoi une classification est nécessaire
8.2 Modèle et exemples
8.2.1 Analyse en composantes principales
8.2.2 Regroupement extrême de fonctionnalités
8.2.3 Mise à l'échelle multidimensionnelle
8.2.4 Sélection des indicateurs pour l'analyse discriminante
8.2.5 Sélection des indicateurs dans le modèle de régression
9 Analyse discriminante
9.1 Applicabilité du modèle
9.2 Règle de prédiction linéaire
9.3 Recommandations pratiques
9.4 Un exemple
9.5 Plus de deux classes
9.6 Vérification de la qualité de la discrimination
10 méthodes heuristiques
10.1 Faction extrême
10.1.1 Test carré
10.1.2 Critère des modules
10 2 Méthode des Pléiades
11 Méthode des composantes principales
11 1 Énoncé du problème
112 Calcul des composantes principales
11.3 Exemple
114 Propriétés des principaux composants
11.4.1 Autoreproductibilité
11.4.2 Propriétés géométriques
12 Analyse factorielle
12.1 Énoncé du problème
12.1.1 Communication avec les principaux composants
12.1.2 Unicité de la solution
12.2 Modèle mathématique
12.2.1 Conditions pour At A
12.2.2 Conditions sur la matrice de charges. Méthode centroïde
12.3 Facteurs latents
12.3.1 Méthode Bartlett
12.3.2 Méthode Thomson
12.4 Exemple
13 Numérisation
13.1 Analyse des correspondances
13.1.1 Distance du chi carré
13.1.2 Numérisation pour les tâches d'analyse discriminante
13.2 Plus de deux variables
13.2.1 Utilisation d'une matrice de données binaires comme matrice de correspondance
13.2.2 Corrélations maximales
13.3 Dimensions
13.4 Exemple
13.5 Cas de données mixtes
14 Mise à l'échelle multidimensionnelle
14.1 Notes introductives
14.2 Modèle Torgerson
14.2.1 Critère de contrainte
14.3 Algorithme de Torgerson
14.4 Différences individuelles
15 Séries chronologiques
15.1 Dispositions générales
15.2 Critères de caractère aléatoire
15.2.1 Pics et trous
15.2.2 Répartition des longueurs de phase
15.2.3 Critères basés sur la corrélation des rangs
15.2.4 Corrélogramme
15.3 Tendance et saisonnalité
15.3.1 Tendances polynomiales
15.3.2 Sélection du degré de tendance
15.3.3 Anticrénelage
15.3.4 Évaluation des variations saisonnières
Une distribution normale
Répartition B X2
C Répartition des étudiants
Répartition D Fisher.


Téléchargez gratuitement le livre électronique dans un format pratique, regardez et lisez :
Téléchargez le livre Analyse statistique multivariée, Dronov S.V., 2003 - fileskachat.com, téléchargement rapide et gratuit.

Télécharger le pdf
Ci-dessous, vous pouvez acheter ce livre au meilleur prix avec une réduction avec livraison dans toute la Russie.

Économétrie

Analyse statistique multivariée


En analyse statistique multivariée, l'échantillon est constitué d'éléments d'un espace multidimensionnel. D'où le nom de cette section de méthodes économétriques. Parmi les nombreux problèmes de l'analyse statistique multivariée, nous en considérerons deux : la récupération et la classification des dépendances.

Estimation de la fonction prédictive linéaire

Commençons par le problème de l'estimation ponctuelle et de confiance d'une fonction prédictive linéaire d'une variable.

Données initiales - un ensemble de n paires de nombres (t k, x k), k = 1,2,...,n, où t k est une variable indépendante (par exemple, le temps) et x k est une variable dépendante (par exemple , indice d'inflation, taux de change du dollar américain, volume de production mensuel ou montant des revenus quotidiens d'un point de vente). Les variables sont supposées être liées par dépendance

x k = a (t k - t moy)+ b + e k , k = 1,2,…,n,

où a et b sont des paramètres inconnus du statisticien et sujets à estimation, et ek sont des erreurs qui faussent la dépendance. Moyenne arithmétique des points temporels

t av = (t 1 + t 2 +…+t n) / n

entré dans le modèle pour faciliter les calculs ultérieurs.

Généralement, les paramètres a et b d'une relation linéaire sont estimés à l'aide de la méthode des moindres carrés. Ensuite, la dépendance restaurée est utilisée pour la prévision de points et d'intervalles.

Comme on le sait, la méthode des moindres carrés a été développée par le grand mathématicien allemand K. Gauss en 1794. Selon cette méthode, pour calculer la meilleure fonction qui se rapproche linéairement de la dépendance de x sur t, il faut considérer une fonction de deux variables


Les estimations des moindres carrés sont les valeurs de a* et b* auxquelles la fonction f(a,b) atteint un minimum sur toutes les valeurs des arguments.

Pour trouver ces estimations, vous devez calculer les dérivées partielles de la fonction f(a,b) par rapport aux arguments a et b, les assimiler à 0, puis trouver les estimations à partir des équations résultantes : Nous avons :

Transformons les membres droits des relations résultantes. Retirons les facteurs communs 2 et (-1) comme signe somme. Examinons ensuite les termes. Ouvrons les parenthèses dans la première expression et constatons que chaque terme est divisé en trois. Dans la deuxième expression, chaque terme est aussi la somme de trois. Cela signifie que chaque montant est divisé en trois montants. Nous avons:


Égalisons les dérivées partielles à 0. Ensuite, dans les équations résultantes, nous pouvons réduire le facteur (-2). Depuis

(1)

les équations prennent la forme

Par conséquent, les estimations des moindres carrés ont la forme

(2)

Grâce à la relation (1), l'estimation a* peut s'écrire sous une forme plus symétrique :

Cette estimation peut facilement être transformée sous la forme

Par conséquent, la fonction reconstruite, qui peut être utilisée pour prédire et interpoler, a la forme

x*(t) = a*(t - t moy)+ b*.

Faisons attention au fait que l'utilisation de t cf dans la dernière formule ne limite en rien sa généralité. Comparez avec un modèle du formulaire

x k = c t k + d + e k , k = 1,2,…,n.

C'est clair que

Les estimations de paramètres sont liées de la même manière :

Il n’est pas nécessaire de se référer à un modèle probabiliste pour obtenir des estimations de paramètres et une formule prédictive. Cependant, afin d'étudier les erreurs dans les estimations des paramètres et la fonction reconstruite, c'est-à-dire construire des intervalles de confiance pour a*, b* et x*(t), un tel modèle est nécessaire.

Modèle probabiliste non paramétrique. Soit les valeurs de la variable indépendante t déterministes et les erreurs e k, k = 1,2,...,n, des variables aléatoires indépendantes distribuées de manière identique avec une espérance mathématique et une variance nulles

statistiques inconnues.

À l'avenir, nous utiliserons à plusieurs reprises le théorème central limite (CLT) de la théorie des probabilités pour les quantités e k , k = 1,2,...,n (avec poids), donc pour remplir ses conditions, il faut supposer, pour exemple, que les erreurs e k , k = 1.2 ,…,n, sont finies ou ont un troisième moment absolu fini. Il n’est cependant pas nécessaire de s’intéresser à ces « conditions de régularité » intra-mathématiques.

Distributions asymptotiques des estimations de paramètres. De la formule (2), il résulte que

(5)

Selon le CLT, l'estimation b* a une distribution asymptotiquement normale avec une espérance mathématique b et une variance

dont l’évaluation est donnée ci-dessous.

Des formules (2) et (5), il résulte que

Le dernier terme de la deuxième relation, lorsqu'il est additionné sur i, devient 0, donc des formules (2-4), il s'ensuit que

(6)

La formule (6) montre que l'estimation

est asymptotiquement normal avec une espérance et une variance mathématiques

Notez que la normalité multidimensionnelle existe lorsque chaque terme de la formule (6) est petit par rapport à la somme entière, c'est-à-dire


Les formules (5) et (6) et les hypothèses initiales concernant les erreurs impliquent également que les estimations des paramètres sont impartiales.

L'impartialité et la normalité asymptotique des estimations des moindres carrés permettent de leur spécifier facilement des limites de confiance asymptotiques (similaires aux limites du chapitre précédent) et de tester des hypothèses statistiques, par exemple sur l'égalité de certaines valeurs, principalement 0. Nous fournissons au lecteur avec la possibilité d'écrire des formules pour calculer les limites de confiance et de formuler des règles pour tester les hypothèses mentionnées.

Distribution asymptotique de la fonction prédictive. Des formules (5) et (6), il résulte que

ceux. l'estimation considérée de la fonction prédictive est impartiale. C'est pourquoi

De plus, puisque les erreurs sont indépendantes dans l’ensemble et

, Que

Ainsi,

ANALYSE STATISTIQUE MULTIVARIÉE

Section mathématiques statistiques, dédiées aux mathématiques. méthodes de construction de plans optimaux pour la collecte, la systématisation et le traitement de statistiques multivariées. données visant à identifier la nature et la structure des relations entre les composantes du trait multidimensionnel étudié et destinées à obtenir des informations scientifiques et pratiques. conclusions. Par caractéristique multidimensionnelle, on entend des indicateurs p-dimensionnels (signes, variables), parmi lesquels il peut y avoir : quantitatifs, c'est-à-dire mesurant de manière scalaire à une certaine échelle les manifestations de la propriété étudiée d'un objet, ordinaux (ou ordinal), c'est-à-dire permettant d'organiser les objets analysés selon le degré de manifestation de la propriété étudiée en eux ; et la classification (ou nominale), c'est-à-dire permettant de diviser l'ensemble d'objets étudié en classes homogènes (selon la propriété analysée) non ordonnables. Les résultats de la mesure de ces indicateurs

sur chacun des objets de la population étudiée, des observations multidimensionnelles sont formées, ou le tableau initial de données multidimensionnelles pour réaliser la MS. UN. Une partie importante de M. s. UN. sert des situations dans lesquelles l'attribut multidimensionnel étudié est interprété comme une séquence d'observations multidimensionnelles et, par conséquent, (1) - comme provenant d'une population générale.

Dans ce cas, le choix des méthodes de traitement des données statistiques initiales. les données et l'analyse de leurs propriétés sont effectuées sur la base de certaines hypothèses concernant la nature de la loi de distribution de probabilité multidimensionnelle (jointe)

L'analyse statistique multivariée des distributions multivariées et de leurs principales caractéristiques ne couvre que les situations dans lesquelles les observations traitées (1) sont de nature probabiliste, c'est-à-dire interprétées comme un échantillon de la population générale correspondante. Les principaux objectifs de cette sous-section sont les suivants : statistiques. évaluation des distributions multidimensionnelles étudiées, de leurs principales caractéristiques et paramètres numériques ; étude des propriétés des données statistiques utilisées. notes ; étude des distributions de probabilité pour un certain nombre de statistiques, à l'aide desquelles les statistiques sont construites. critères pour tester diverses hypothèses sur la nature probabiliste des données multidimensionnelles analysées. Les principaux résultats concernent le cas particulier où la caractéristique étudiée est soumise à une loi de distribution normale multidimensionnelle dont la fonction de densité est donnée par la relation est la matrice de covariance d'un vecteur aléatoire, c'est-à-dire la covariance des composantes du vecteur (le cas non dégénéré est considéré quand ; sinon, c'est-à-dire avec rang , tous les résultats restent valables, mais par rapport à un sous-espace de dimension inférieure , dans lequel se trouve concentré le vecteur aléatoire étudié).

Ainsi, si (1) est une séquence d'observations indépendantes formant un échantillon aléatoire, alors les estimations du maximum de vraisemblance pour les paramètres et participant à (2) sont respectivement des statistiques (voir , )

et le vecteur aléatoire obéit à la loi normale à p dimensions et ne dépend pas de , et la distribution conjointe des éléments matriciels est décrite par ce qu'on appelle. répartition du district de Wisha (voir), to-rogo

Dans le cadre du même schéma, les distributions et les moments de caractéristiques d'échantillon d'une variable aléatoire multivariée telles que les coefficients de corrélation paires, partielles et multiples, généralisés (c'est-à-dire), généralisés -Statistiques d'hôtellerie (voir). En particulier (voir), si l'on définit l'estimation corrigée « du biais » comme la matrice de covariance de l'échantillon, à savoir :

alors la variable aléatoire tend vers quand et les variables aléatoires

obéir aux distributions F avec des nombres de degrés de liberté, respectivement (p, p-p) et (p, n 1 + n 2-p-1). En rapport (7) n°1 et n 2 - les volumes de deux échantillons indépendants de type (1), extraits de la même population générale - estimations de type (3) et (4)-(5), construites à partir du i-ème échantillon, et

Covariance totale de l'échantillon, construite à partir d'estimations et

L'analyse statistique multidimensionnelle de la nature et de la structure des relations entre les composants du trait multidimensionnel étudié combine les concepts et les résultats qui servent ces méthodes et modèles de SEP. a., comme multiple, multidimensionnel analyse de variance Et analyse de covariance, analyse factorielle et analyse en composantes principales, analyse canonique. corrélations. Les résultats qui composent le contenu de cette sous-section peuvent être divisés en deux types principaux.

1) Construction des meilleures données statistiques (dans un certain sens). estimations des paramètres des modèles mentionnés et analyse de leurs propriétés (précision et dans une formulation probabiliste - les lois de leur distribution, les régions de confiance, etc.). Supposons donc que la caractéristique multidimensionnelle étudiée soit interprétée comme un vecteur aléatoire, soumis à une distribution normale à p dimensions, et divisé en deux sous-vecteurs - colonnes et dimensions q et p-q, respectivement. Cela détermine mathématiquement la division correspondante du vecteur. attentes, matrices de covariance théoriques et échantillons, à savoir :

Alors (voir , ) le sous-vecteur (à condition que le deuxième sous-vecteur ait pris une valeur fixe) sera également normal). Dans ce cas, il s’agit d’estimations du maximum de vraisemblance. pour les matrices de coefficients de régression et de covariables de ce modèle de régression multiple multivarié classique

il y aura des statistiques mutuellement indépendantes, respectivement

ici la répartition de la cotisation est soumise à la loi normale , et estime n - Loi de Wishart avec paramètres et (les éléments de la matrice de covariance sont exprimés en termes d'éléments matriciels).

Les principaux résultats sur la construction d'estimations de paramètres et l'étude de leurs propriétés dans des modèles d'analyse factorielle, de composantes principales et de corrélations canoniques concernent l'analyse des propriétés probabilistes-statistiques des valeurs propres et des vecteurs de diverses matrices de covariance d'échantillons.

Dans des schémas qui ne rentrent pas dans le cadre classique. modèle normal, et notamment dans le cadre de tout modèle probabiliste, les principaux résultats concernent la construction d'algorithmes (et l'étude de leurs propriétés) pour calculer les estimations de paramètres les meilleures du point de vue d'une certaine fonctionnelle donnée de manière exogène du qualité (ou adéquation) du modèle.

2) Construction de données statistiques. critères pour tester diverses hypothèses sur la structure des relations étudiées. Dans le cadre du modèle normal multivarié (les séquences d'observations de type (1) sont interprétées comme des échantillons aléatoires issus des populations normales multivariées correspondantes), par exemple, les statistiques critères pour tester les hypothèses suivantes.

I. Hypothèses sur l'égalité du vecteur mathématique. attentes des indicateurs étudiés par rapport à un vecteur spécifique donné ; vérifié à l'aide des statistiques Hotelling avec substitution dans la formule (6)

II. Hypothèses mathématiques sur l'égalité des vecteurs. attentes dans deux populations (avec des matrices de covariance identiques mais inconnues), représentées par deux échantillons ; vérifié à l'aide de statistiques (voir).

III. Hypothèses mathématiques sur l'égalité des vecteurs. attentes dans plusieurs populations générales (avec des matrices de covariance identiques mais inconnues), représentées par leurs échantillons ; vérifié à l'aide de statistiques

dans lequel il y a la i-ième observation à p dimensions dans un échantillon de volume , représentant la j-ième population générale, et et sont des estimations de la forme (3), respectivement, construites séparément pour chacun des échantillons et pour l'ensemble combiné échantillon de volume

IV. Les hypothèses sur l'équivalence de plusieurs populations normales représentées par leurs échantillons sont testées à l'aide de statistiques

dans la coupe - une estimation de type (4), construite séparément des observations j- exemples, j=1, 2, ... , k.

V. Les hypothèses sur l'indépendance mutuelle des sous-vecteurs-colonnes de dimensions, respectivement, dans lesquelles est divisé le vecteur p-dimensionnel original des indicateurs étudiés, sont vérifiées à l'aide de statistiques

dans lequel et - exemples de matrices de covariance de la forme (4) pour le vecteur entier et pour son sous-vecteur x(i) en conséquence.

L'analyse statistique multidimensionnelle de la structure géométrique de l'ensemble étudié d'observations multidimensionnelles combine les concepts et les résultats de modèles et de schémas tels que analyse discriminante, mélanges de distributions de probabilité, analyse groupée et taxonomie, mise à l'échelle multidimensionnelle. Le concept clé dans tous ces schémas est la notion de distance (mesures de proximité, mesures de similarité) entre les éléments analysés. Dans ce cas, ils peuvent être analysés comme des objets réels, sur chacun desquels sont enregistrées les valeurs des indicateurs - puis géométriques. l'image du ième objet examiné sera un point dans l'espace à p dimensions correspondant, et les indicateurs eux-mêmes - alors géométriques. l'image du l-ème indicateur sera un point dans l'espace à n dimensions correspondant.

Les méthodes et les résultats de l'analyse discriminante (voir , , ) visent la tâche suivante. On sait qu'il existe un certain nombre de populations, et le chercheur dispose d'un échantillon de chaque population (« échantillons d'entraînement »). Il est nécessaire de construire, sur la base des échantillons de formation disponibles, la meilleure, dans un certain sens, règle de classification qui permet d'attribuer un certain nouvel élément (observation) à sa population générale dans une situation où le chercheur ne sait pas à l'avance à quelle population appartient cet élément. Habituellement, une règle de classement s'entend comme une séquence d'actions : en calculant une fonction scalaire des indicateurs étudiés, à partir des valeurs de la coupe, on décide d'attribuer un élément à l'une des classes (construction de une fonction discriminante) ; en ordonnant les indicateurs eux-mêmes selon le degré de leur contenu informatif du point de vue de la bonne affectation des éléments aux classes ; en calculant les probabilités d'erreur de classification correspondantes.

La tâche d'analyser des mélanges de distributions de probabilité (voir) le plus souvent (mais pas toujours) se pose également dans le cadre de l'étude de la « structure géométrique » de la population considérée. Dans ce cas, le concept de r-ème classe homogène est formalisé à l'aide d'une population générale décrite par une certaine loi de distribution (généralement unimodale) de sorte que la distribution de la population générale, dont l'échantillon (1) est extrait, est décrite par un mélange de distributions de la forme où p r - probabilité a priori (éléments spécifiques) de la r-ème classe dans la population générale. Le défi, ce sont les « bonnes » statistiques. estimer (à partir d'un échantillon) des paramètres inconnus et parfois À. Ceci, en particulier, nous permet de réduire la tâche de classification des éléments à un schéma d'analyse discriminante, même si dans ce cas il n'y avait pas d'échantillons d'apprentissage.

Les méthodes et les résultats de l'analyse groupée (classification, taxonomie, reconnaissance de formes « non supervisée », voir , , ) visent à résoudre le problème suivant. Géométrique l'ensemble des éléments analysés est donné soit par les coordonnées des points correspondants (c'est-à-dire par la matrice ..., n) , ou un ensemble de formes géométriques caractéristiques de leur position relative, par exemple, une matrice de distances par paires. Il est nécessaire de diviser l'ensemble d'éléments étudié en classes relativement petites (précédemment connues ou non) afin que les éléments d'une classe soient situés à une courte distance les uns des autres, tandis que les différentes classes seraient, si possible, suffisamment éloignées les unes des autres. les uns les autres et ne seraient pas divisés en parties éloignées les unes des autres.

Le problème de la mise à l'échelle multidimensionnelle (voir) fait référence à la situation où l'ensemble d'éléments étudiés est spécifié à l'aide d'une matrice de distances par paires et consiste à attribuer à chacun des éléments un nombre donné de (p) coordonnées de telle sorte que le La structure des distances mutuelles par paires entre les éléments mesurées à l'aide de ces coordonnées auxiliaires différerait en moyenne le moins de celle donnée. Il convient de noter que les principaux résultats et méthodes d’analyse groupée et de mise à l’échelle multidimensionnelle sont généralement développés sans aucune hypothèse sur la nature probabiliste des données sources.

L’objectif appliqué de l’analyse statistique multivariée est principalement de répondre aux trois problèmes suivants.

Le problème de l'étude statistique des dépendances entre les indicateurs analysés. En supposant que l’ensemble étudié d’indicateurs x enregistrés statistiquement est divisé, sur la base de la signification significative de ces indicateurs et des objectifs finaux de l’étude, en un sous-vecteur q-dimensionnel de variables prédites (dépendantes) et un sous-vecteur dimensionnel (p-q) de variables prédictives (indépendantes), on peut dire que le problème est de déterminer, à partir de l'échantillon (1), une telle fonction vectorielle à q dimensions à partir de la classe des solutions admissibles F, Edge donnerait la meilleure approximation, dans un certain sens, du comportement du sous-vecteur des indicateurs. Selon le type spécifique de fonctionnelle, la qualité de l'approximation et la nature des indicateurs analysés aboutissent à l'un ou l'autre schéma d'analyse de régression multiple, de variance, de covariance ou de confluence.

Le problème de la classification des éléments (objets ou indicateurs) dans une formulation générale (non stricte) est de diviser l'ensemble des éléments analysés, présentés statistiquement sous la forme d'une matrice ou d'une matrice, en un nombre relativement restreint d'éléments homogènes, dans un un certain sens, des groupes. Selon la nature de l'information a priori et le type spécifique de fonctionnelle qui fixe le critère de qualité de la classification, on arrive à l'un ou l'autre schéma d'analyse discriminante, d'analyse groupée (taxonomie, reconnaissance de formes « non supervisée ») et de mélanges fractionnés de distributions. .

Le problème de la réduction de la dimension de l'espace factoriel étudié et de la sélection des indicateurs les plus informatifs est de déterminer un tel ensemble d'un nombre relativement restreint d'indicateurs trouvés dans la classe des transformations admissibles des indicateurs initiaux. sur lequel l'essaim supérieur certain d'une mesure donnée de manière exogène du contenu informationnel du système de caractéristiques à m dimensions est atteint (voir). La spécification de la fonctionnalité qui spécifie la mesure du caractère auto-informatif (c'est-à-dire visant à maximiser la préservation des informations contenues dans le tableau statistique (1) par rapport aux caractéristiques d'origine elles-mêmes) conduit, en particulier, à divers schémas d'analyse factorielle et principaux composants, aux méthodes de regroupement extrême de fonctionnalités. Les fonctionnelles qui définissent une mesure du contenu de l'information externe, c'est-à-dire visant à extraire de (1) un maximum d'informations sur certaines autres non directement contenues dans les indicateurs ou les phénomènes, conduisent à diverses méthodes de sélection des indicateurs les plus informatifs dans les schémas statistiques. recherche de dépendance et analyse discriminante.

Outils mathématiques de base de MS. UN. constituent des méthodes particulières de théorie des systèmes d'équations linéaires et de théorie des matrices (méthodes de résolution de problèmes simples et généralisés de valeurs propres et de vecteurs ; inversion simple et pseudo-inversion de matrices ; procédures de diagonalisation des matrices, etc.) et certains algorithmes d'optimisation (méthodes de descente de coordonnées, gradients conjugués, branches et limites, diverses versions de recherche aléatoire et d'approximation stochastique, etc.).

Allumé.: Anderson T., Introduction à l'analyse statistique multivariée, trans. de l'anglais, M., 1963 ; Kendall M.J., Stewart A., Analyse statistique multivariée et séries chronologiques, trans. de l'anglais, M., 1976 ; Bolshev L.N., "Bull. Int. Stat. Inst.", 1969, n° 43, p. 425-41 ; Wishart, J., "Biometrika", 1928, v. 20A, p. 32-52 : Hotelling H., "Ann. Math. Stat.", 1931, v. 2, p. 360-78 ; [c] Kruskal J. V., "Psychotrika", 1964, v. 29, p. 1-27 ; Ayvazyan S.A., Bezhaeva Z.I., . Staroverov O.V., Classification des observations multidimensionnelles, M., 1974.

S.A. Ayvazyan.


Encyclopédie mathématique. - M. : Encyclopédie soviétique.

I.M. Vinogradov.

1977-1985.

Guide du traducteur technique Section de statistiques mathématiques (voir), dédiée aux mathématiques. méthodes visant à identifier la nature et la structure des relations entre les composants du trait multidimensionnel étudié (voir) et destinées à obtenir des résultats scientifiques. et pratique... ...

Au sens large, une section de statistiques mathématiques (Voir Statistiques mathématiques), combinant des méthodes d'étude de données statistiques liées à des objets caractérisés par plusieurs critères qualitatifs ou quantitatifs... ... Grande Encyclopédie Soviétique ANALYSE STATISTIQUE MULTIVARIÉE

- une section de statistiques mathématiques conçue pour analyser les relations entre trois variables ou plus. Nous pouvons conditionnellement distinguer trois classes principales de problèmes A.M.S. Il s'agit d'une étude de la structure des relations entre variables et de la réduction de la dimension de l'espace... Sociologie : Encyclopédie ANALYSE DE COVARIANCE

- – un ensemble de méthodes mathématiques. statistiques liées à l'analyse de modèles de dépendance de la valeur moyenne d'une certaine variable aléatoire Y sur un ensemble de facteurs non quantitatifs F et en même temps sur un ensemble de facteurs quantitatifs X. Par rapport à Y... . .. Encyclopédie sociologique russe