Menu

Analyse de corrélation de Spearman. Coefficient de corrélation de Spearman

Droits et responsabilités du conducteur

Le calculateur ci-dessous calcule le coefficient de corrélation de rang de Spearman entre deux variables aléatoires. La partie théorique, afin de ne pas se laisser distraire de la calculatrice, se situe traditionnellement en dessous de celle-ci.

ajouter import_export mode_edit supprimer

Changements dans les variables aléatoires

arrow_upwardarrow_downward Xarrow_upwardarrow_downward Oui
Taille des pages : 5 10 20 50 100 chevron_gauche chevron_right

Changements dans les variables aléatoires

Importer des données Erreur d'importation

Vous pouvez utiliser l'un de ces symboles pour séparer les champs : Tabulation, ";" ou "," Exemple : -50,5 ; -50,5

Importer Retour Annuler

La méthode de calcul du coefficient de corrélation de rang de Spearman est en fait décrite très simplement. Il s'agit du même coefficient de corrélation de Pearson, calculé uniquement non pas pour les résultats des mesures des variables aléatoires elles-mêmes, mais pour leur valeurs de classement.

C'est,

Il ne reste plus qu'à comprendre quelles sont les valeurs de classement et pourquoi tout cela est nécessaire.

Si les éléments d’une série de variations sont classés par ordre croissant ou décroissant, alors rang l'élément sera son numéro dans cette série ordonnée.

Par exemple, ayons une série de variations (17,26,5,14,21). Trions ses éléments par ordre décroissant (26,21,17,14,5). 26 a le rang 1, 21 a le rang 2, etc. La série de variations des valeurs de classement ressemblera à ceci (3,1,5,4,2).

Autrement dit, lors du calcul du coefficient de Spearman, la valeur initiale série de variations sont convertis en séries de variations de valeurs de rang, après quoi la formule de Pearson leur est appliquée.

Il y a une subtilité - le rang des valeurs répétées est considéré comme la moyenne des rangs. C'est-à-dire que pour la ligne (17, 15, 14, 15), la ligne de valeurs de rang ressemblera à (1, 2,5, 4, 2,5), puisque le premier élément égal à 15 a le rang 2, et le second a le rang 3, et .

S'il n'y a pas de valeurs répétitives, c'est-à-dire que toutes les valeurs de la série de rangs sont des nombres compris entre 1 et n, la formule de Pearson peut être simplifiée en

Eh bien, d'ailleurs, cette formule est le plus souvent donnée comme formule de calcul du coefficient de Spearman.

Quelle est l'essence du passage des valeurs elles-mêmes à leurs valeurs de rang ?
Le fait est qu'en étudiant la corrélation des valeurs de rang, vous pouvez déterminer dans quelle mesure la dépendance de deux variables est décrite par une fonction monotone.

Le signe du coefficient indique le sens de la relation entre les variables. Si le signe est positif, alors les valeurs Y ont tendance à augmenter à mesure que les valeurs X augmentent ; si le signe est négatif, alors les valeurs Y ont tendance à diminuer à mesure que les valeurs X augmentent. Si le coefficient est 0, alors il n'y a pas de tendance. Si le coefficient est 1 ou -1, alors la relation entre X et Y a la forme d'une fonction monotone - c'est-à-dire que lorsque X augmente, Y augmente également, ou vice versa, à mesure que X augmente, Y diminue.

Autrement dit, contrairement au coefficient de corrélation de Pearson, qui ne peut révéler qu'une dépendance linéaire d'une variable par rapport à une autre, le coefficient de corrélation de Spearman peut révéler une dépendance monotone dans laquelle aucune relation linéaire directe n'est détectée.

Laissez-moi vous expliquer avec un exemple. Supposons que nous examinions la fonction y=10/x.
Nous avons les mesures X et Y suivantes
{{1,10}, {5,2}, {10,1}, {20,0.5}, {100,0.1}}
Pour ces données, le coefficient de corrélation de Pearson est de -0,4686, c'est-à-dire que la relation est faible ou absente. Mais le coefficient de corrélation de Spearman est strictement égal à -1, ce qui semble laisser entendre au chercheur que Y a une dépendance monotone strictement négative à l'égard de X.

En pratique, le coefficient de corrélation de rang de Spearman (P) est souvent utilisé pour déterminer l'étroitesse de la relation entre deux caractéristiques. Les valeurs de chaque caractéristique sont classées par degré d'augmentation (de 1 à n), puis la différence (d) entre les rangs correspondant à une observation est déterminée.

Exemple n°1. La relation entre le volume de la production industrielle et l'investissement en capital fixe pour 10 régions d'une des districts fédéraux La Fédération de Russie en 2003 se caractérise par les données suivantes.
Calculer Coefficients de corrélation des rangs de Spearman et Kendal. Vérifiez leur signification à α = 0,05. Formuler une conclusion sur la relation entre le volume de la production industrielle et l'investissement en capital fixe pour les régions considérées de la Fédération de Russie.

Attribuons des rangs à la fonctionnalité Y et au facteur X. Trouvons la somme de la différence des carrés d 2.
À l'aide d'une calculatrice, nous calculons le coefficient de corrélation de rang de Spearman :

X Oui rang X, dx rang Y, jour y (d x - d y) 2
1.3 300 1 2 1
1.8 1335 2 12 100
2.4 250 3 1 4
3.4 946 4 8 16
4.8 670 5 7 4
5.1 400 6 4 4
6.3 380 7 3 16
7.5 450 8 5 9
7.8 500 9 6 9
17.5 1582 10 16 36
18.3 1216 11 9 4
22.5 1435 12 14 4
24.9 1445 13 15 4
25.8 1820 14 19 25
28.5 1246 15 10 25
33.4 1435 16 14 4
42.4 1800 17 18 1
45 1360 18 13 25
50.4 1256 19 11 64
54.8 1700 20 17 9
364

Le lien entre le trait Y et le facteur X est fort et direct.

Estimation du coefficient de corrélation de rang de Spearman



En utilisant la table Student, nous trouvons Ttable.
Tableau T = (18;0,05) = 1,734
Puisque Tob > Ttabl, nous rejetons l’hypothèse selon laquelle le coefficient de corrélation de rang est égal à zéro. En d’autres termes, le coefficient de corrélation des rangs de Spearman est statistiquement significatif.

Estimation d'intervalle pour le coefficient de corrélation de rang (intervalle de confiance)
Intervalle de confiance pour le coefficient de corrélation de rang de Spearman : p (0,5431 ; 0,9095).

Exemple n°2. Données initiales.

5 4
3 4
1 3
3 1
6 6
2 2
Puisque la matrice contient des rangs liés (le même numéro de rang) de la 1ère ligne, nous allons les réorganiser. La réorganisation des rangs s'effectue sans changer l'importance du rang, c'est-à-dire que les relations correspondantes (supérieures, inférieures ou égales à) doivent être maintenues entre les numéros de rangs. Il est également déconseillé de fixer le rang au-dessus de 1 et en dessous d'une valeur égale au nombre de paramètres (dans ce cas n = 6). La réorganisation des rangs s'effectue sous forme de tableau.
Nouveaux classements
1 1 1
2 2 2
3 3 3.5
4 3 3.5
5 5 5
6 6 6
Puisque la matrice contient les rangs liés de la 2ème ligne, nous allons les reformater. La réorganisation des rangs s'effectue sous forme de tableau.
Numéros de siège dans la rangée ordonnéeDisposition des facteurs selon l'évaluation de l'expertNouveaux classements
1 1 1
2 2 2
3 3 3
4 4 4.5
5 4 4.5
6 6 6
Matrice de classement.
rang X, dxrang Y, jour y(d x - d y) 2
5 4.5 0.25
3.5 4.5 1
1 3 4
3.5 1 6.25
6 6 0
2 2 0
21 21 11.5
Puisque parmi les valeurs des caractéristiques x et y, il y en a plusieurs identiques, c'est-à-dire les rangs associés sont formés, alors dans ce cas le coefficient de Spearman est calculé comme suit :




j - nombre de connecteurs dans l'ordre pour la caractéristique x ;
Et j est le nombre de rangs identiques dans j-ème ligament par x ;
k - nombres de connecteurs dans l'ordre pour la caractéristique y ;
En k - le nombre de rangs identiques dans le k-ème connecteur en y.
UNE = [(2 3 -2)]/12 = 0,5
B = [(2 3 -2)]/12 = 0,5
D = A + B = 0,5 + 0,5 = 1

La relation entre le trait Y et le facteur X est modérée et directe.

L'analyse de corrélation est une méthode qui permet de détecter des dépendances entre un certain nombre de variables aléatoires. Le but de l'analyse de corrélation est d'identifier une évaluation de la force des liens entre ces variables ou caractéristiques aléatoires qui caractérisent certains processus réels.

Aujourd'hui, nous proposons de réfléchir à la manière de postuler analyse de corrélation selon Spearman, pour afficher visuellement les formes de communication dans le commerce pratique.

Corrélation de Spearman ou base d'analyse de corrélation

Afin de comprendre ce qu'est l'analyse de corrélation, vous devez d'abord comprendre le concept de corrélation.

Dans le même temps, si le prix commence à évoluer dans la direction souhaitée, vous devez débloquer vos positions à temps.


Pour cette stratégie, basée sur l'analyse de corrélation, de la meilleure façon possible Les instruments de trading avec un degré élevé de corrélation conviennent (EUR/USD et GBP/USD, EUR/AUD et EUR/NZD, AUD/USD et NZD/USD, contrats CFD, etc.).

Vidéo : Application de la corrélation de Spearman sur le marché Forex

37. Coefficient de corrélation de rang de Spearman.

Article 56 (64) 063.JPG

http://psystat.at.ua/publ/1-1-0-33

Le coefficient de corrélation de rang de Spearman est utilisé dans les cas où :
- les variables ont échelle de classement mesures ;
- la distribution des données est trop différente de normale ou pas connu du tout ;
- les échantillons ont un petit volume (N< 30).

Interprétation coefficient de classement La corrélation de Spearman n'est pas différente du coefficient de Pearson, mais sa signification est quelque peu différente. Pour comprendre la différence entre ces méthodes et justifier logiquement leurs domaines d’application, comparons leurs formules.

Coefficient de corrélation de Pearson :

Coefficient de corrélation de Spearman :

Comme vous pouvez le constater, les formules diffèrent considérablement. Comparons les formules

La formule de corrélation de Pearson utilise la moyenne arithmétique et l'écart type de la série corrélée, mais pas la formule de Spearman. Ainsi, pour obtenir un résultat adéquat en utilisant la formule de Pearson, il faut que les séries corrélées soient proches de la distribution normale (la moyenne et l'écart type sont paramètres de distribution normale). Ceci n'est pas pertinent pour la formule de Spearman.

Un élément de la formule de Pearson est la standardisation de chaque série dans échelle z.

Comme vous pouvez le constater, la conversion des variables à l'échelle Z est présente dans la formule du coefficient de corrélation de Pearson. Ainsi, pour le coefficient de Pearson, l'échelle des données n'a aucune importance : par exemple, on peut corréler deux variables dont l'une a un min. = 0 et max. = 1, et la deuxième min. = 100 et max. = 1000. Quelle que soit la différence entre la plage de valeurs, elles seront toutes converties en scores z standardséchelle identique.

Une telle normalisation ne se produit pas dans le coefficient de Spearman, donc

UNE CONDITION OBLIGATOIRE POUR L'UTILISATION DU COEFFICIENT SPEARMAN EST L'ÉGALITÉ DE LA PLAGE DES DEUX VARIABLES.

Avant d'utiliser le coefficient de Spearman pour des séries de données avec des plages différentes, il est nécessaire de rang. Le classement fait que les valeurs de ces séries acquièrent le même minimum = 1 (rang minimum) et un maximum égal au nombre de valeurs (maximum, dernier rang = N, c'est-à-dire le nombre maximum de cas dans l'échantillon) .

Dans quels cas peut-on se passer de classement ?

Il s'agit de cas où les données sont initialement échelle de classement. Par exemple, un test de valeur Les orientations de Rokeach.

Il s’agit également de cas où le nombre d’options de valeur est faible et où l’échantillon contient un minimum et un maximum fixes. Par exemple, dans un différentiel sémantique, minimum = 1, maximum = 7.

Exemple de calcul du coefficient de corrélation de rang de Spearman

Le test d'orientation des valeurs de Rokeach a été réalisé sur deux échantillons X et Y. Objectif : découvrir à quel point les hiérarchies de valeurs de ces échantillons sont proches (littéralement, à quel point elles sont similaires).

La valeur résultante r=0,747 est vérifiée par tableau des valeurs critiques. D'après le tableau, avec N=18, la valeur obtenue est significative au niveau p<=0,005

Coefficients de corrélation de rang de Spearman et Kendal

Pour les variables appartenant à une échelle ordinale ou pour les variables non soumises à une distribution normale, ainsi que pour les variables appartenant à une échelle d'intervalle, la corrélation de rang de Spearman est calculée à la place du coefficient de Pearson. Pour ce faire, des valeurs de variables individuelles se voient attribuer des rangs, qui sont ensuite traités à l'aide de formules appropriées. Pour détecter la corrélation de rang, décochez la case par défaut Corrélation de Pearson dans la boîte de dialogue Corrélations bivariées.... Activez plutôt le calcul de corrélation de Spearman. Ce calcul donnera les résultats suivants. Les coefficients de corrélation de rang sont très proches des valeurs correspondantes des coefficients de Pearson (les variables d'origine ont une distribution normale).

titkova-matmetody.pdf p. 45

La méthode de corrélation de rang de Spearman vous permet de déterminer l'étanchéité (force) et la direction

corrélation entre deux signes ou deux profils (hiérarchies) signes.

Pour calculer la corrélation de rang, il est nécessaire d'avoir deux lignes de valeurs,

qui peut être classé. Une telle série de valeurs pourrait être :

1) deux signes mesuré dans le même groupe sujets;

2) deux hiérarchies individuelles de caractéristiques, identifié chez deux sujets utilisant le même

ensemble de fonctionnalités ;

3) deux regrouper les hiérarchies de caractéristiques,

4) individuel et en groupe hiérarchie des fonctionnalités.

Premièrement, les indicateurs sont classés séparément pour chacune des caractéristiques.

En règle générale, un rang inférieur est attribué à une valeur d'attribut inférieure.

Dans le premier cas (deux caractéristiques), les valeurs individuelles sont classées selon la première

caractéristique obtenue par différents sujets, puis valeurs individuelles pour le second

signe.

Si deux caractéristiques sont positivement liées, alors les sujets de faible rang

l'un d'eux aura un rang bas dans l'autre, et les sujets qui auront un rang élevé dans l'autre.

l’une des caractéristiques aura également un rang élevé pour l’autre caractéristique. Pour calculer rs

les différences doivent être déterminées (d) entre les rangs obtenus par un sujet donné dans les deux

signes. Ensuite, ces indicateurs d sont transformés d'une certaine manière et soustraits de 1. Que

Plus la différence entre les rangs est petite, plus rs sera grand, plus il sera proche de +1.

S'il n'y a pas de corrélation, alors tous les rangs seront mélangés et il n'y aura pas de corrélation.

aucune correspondance. La formule est conçue pour que dans ce cas, rs soit proche de 0.

En cas de corrélation négative faibles rangs de sujets sur une base

les rangs élevés sur une autre base correspondront, et vice versa. Plus l'écart est grand

entre les rangs des sujets sur deux variables, plus r est proche de -1.

Dans le deuxième cas (deux profils individuels), les individuels sont classés

valeurs obtenues par chacun des 2 sujets selon un certain (le même pour eux

les deux) ensemble de fonctionnalités. Le premier rang sera attribué à la fonctionnalité ayant la valeur la plus basse ; deuxième rang –

une fonctionnalité avec une valeur plus élevée, etc. Évidemment, toutes les caractéristiques doivent être mesurées

les mêmes unités, sinon le classement est impossible. Par exemple, il est impossible

classer les indicateurs sur le Cattell Personality Inventory (16PF), s'ils sont exprimés en

points « bruts », puisque les plages de valeurs sont différentes selon les facteurs : de 0 à 13, de 0 à

20 et de 0 à 26. Nous ne pouvons pas dire quel facteur occupera la première place dans

expression jusqu'à ce que nous ramenions toutes les valeurs à une seule échelle (le plus souvent il s'agit de l'échelle murale).

Si les hiérarchies individuelles de deux sujets sont positivement liées, alors les signes

avoir un rang bas dans l’un d’eux aura un rang bas dans l’autre, et vice versa.

Par exemple, si le facteur E (dominance) d’un sujet a le rang le plus bas, alors

un autre sujet de test, il devrait avoir un rang faible si un sujet de test a le facteur C

(stabilité émotionnelle) a le rang le plus élevé, alors l'autre sujet doit également avoir

ce facteur a un rang élevé, etc.

Dans le troisième cas (deux profils de groupe), les valeurs moyennes du groupe sont classées,

obtenu en 2 groupes de sujets selon un ensemble spécifique, identique pour les deux groupes

signes. Dans ce qui suit, le raisonnement est le même que dans les deux cas précédents.

Dans le cas 4 (profils individuels et de groupe), ils sont classés séparément

valeurs individuelles du sujet et valeurs moyennes du groupe pour le même ensemble

signes qui sont obtenus, en règle générale, en excluant ce sujet individuel - il

ne participe pas au profil de groupe moyen avec lequel son individu sera comparé

profil. La corrélation des classements vous permettra de vérifier la cohérence des performances individuelles et

profils de groupe.

Dans les quatre cas, la signification du coefficient de corrélation résultant est déterminée

par le nombre de valeurs classées N. Dans le premier cas, cette quantité coïncidera avec

taille de l'échantillon n. Dans le second cas, le nombre d'observations sera le nombre d'entités,

constituant la hiérarchie. Dans les troisième et quatrième cas, N est aussi le nombre de comparaisons

caractéristiques, et non le nombre de sujets dans les groupes. Des explications détaillées sont données dans les exemples. Si

la valeur absolue de rs atteint ou dépasse une valeur critique, corrélation

fiable.

Hypothèses.

Il y a deux hypothèses possibles. Le premier s'applique au cas 1, le second aux trois autres

Première version des hypothèses

H0 : La corrélation entre les variables A et B n'est pas différente de zéro.

H2 : La corrélation entre les variables A et B est significativement différente de zéro.

Deuxième version des hypothèses

H0 : La corrélation entre les hiérarchies A et B n'est pas différente de zéro.

H2 : La corrélation entre les hiérarchies A et B est significativement différente de zéro.

Limites du coefficient de corrélation de rang

1. Pour chaque variable, au moins 5 observations doivent être présentées. Supérieur

la limite d'échantillonnage est déterminée par les tableaux de valeurs critiques disponibles .

2. Coefficient de corrélation de rang de Spearman rs pour un grand nombre de valeurs identiques

les classements pour une ou les deux variables comparées donnent des valeurs approximatives. Idéalement

les deux séries corrélées doivent représenter deux séquences de valeurs divergentes

valeurs. Si cette condition n'est pas remplie, une modification doit être apportée à

mêmes rangs.

Le coefficient de corrélation de rang de Spearman est calculé à l'aide de la formule :

Si les deux séries de rangs comparées contiennent des groupes de mêmes rangs,

avant de calculer le coefficient de corrélation de rang, il est nécessaire d'apporter des corrections pour le même

Classements Ta et TV :

Ta = Σ (a3 – a)/12,

Тв = Σ (в3 – в)/12,

UN - le volume de chaque groupe de rangs identiques dans la rangée de rang A, en volume de chacun

groupes de rangs identiques dans la série de rangs B.

Pour calculer la valeur empirique de rs, utilisez la formule :

38. Coefficient de corrélation point-bisérial.

Sur la corrélation en général, voir question n°36 Avec. 56 (64) 063.JPG

harchenko-korranaliz.pdf

Supposons que la variable X soit mesurée sur une échelle forte et la variable Y sur une échelle dichotomique. Le coefficient de corrélation bisériale ponctuelle rpb est calculé à l'aide de la formule :

Ici, x 1 est la valeur moyenne sur X objets avec une valeur de « un » sur Y ;

x 0 – valeur moyenne sur X objets avec une valeur de « zéro » sur Y ;

s x – écart type de toutes les valeurs le long de X ;

n 1 – nombre d'objets « un » dans Y, n 0 – nombre d'objets « zéro » dans Y ;

n = n 1 + n 0 – taille de l'échantillon.

Le coefficient de corrélation bisériale ponctuelle peut également être calculé à l'aide d'autres expressions équivalentes :

Ici x– valeur moyenne globale de la variable X.

Coefficient de corrélation bisériale ponctuelle rpb varie de –1 à +1. Sa valeur est nulle si les variables avec un Oui avoir une moyenne Oui, égal à la moyenne des variables avec zéro sur Oui.

Examen hypothèses de signification le coefficient de corrélation bisérial ponctuel est à vérifier hypothèse nulleh 0 sur l’égalité du coefficient de corrélation général à zéro : ρ = 0, qui est réalisée à l’aide du test t de Student. Signification empirique

par rapport aux valeurs critiques t un (df) pour le nombre de degrés de liberté df = n– 2

Si la condition | t| ≤ ta(df), l'hypothèse nulle ρ = 0 n'est pas rejetée. Le coefficient de corrélation bisériale ponctuelle diffère significativement de zéro si la valeur empirique | t| tombe dans la région critique, c'est-à-dire si la condition | t| > ta(n– 2). Fiabilité de la relation calculée à l'aide du coefficient de corrélation bisériale ponctuelle rpb, peut également être déterminé à l'aide du critère χ 2 pour le nombre de degrés de liberté df= 2.

Corrélation bisériale ponctuelle

La modification ultérieure du coefficient de corrélation du produit des moments s'est reflétée dans le point bisérial r. Cette statistique. montre la relation entre deux variables, dont l'une est censée être continue et normalement distribuée, et l'autre est discrète au sens strict du terme. Le coefficient de corrélation bisériale ponctuelle est noté r pbis Depuis dans r pbis la dichotomie reflète la vraie nature de la variable discrète, et n'est pas artificielle, comme dans le cas r bis, son signe est déterminé arbitrairement. Par conséquent, à toutes fins pratiques. objectifs r pbis considéré dans la plage de 0,00 à +1,00.

Il existe également le cas où deux variables sont supposées continues et normalement distribuées, mais toutes deux sont artificiellement dichotomisées, comme dans le cas de la corrélation bisériale. Pour évaluer la relation entre ces variables, le coefficient de corrélation tétrachorique est utilisé r tet, qui a également été élevé par Pearson. Basique formules (exactes) et procédures de calcul r tet assez complexe. Par conséquent, avec des moyens pratiques Cette méthode utilise des approximations r tet,obtenu sur la base de procédures et de tableaux abrégés.

/en ligne/dictionnaire/dictionary.php?term=511

COEFFICIENT BISERIAL DU POINT est le coefficient de corrélation entre deux variables, l'une mesurée sur une échelle dichotomique et l'autre sur une échelle d'intervalle. Utilisé dans les tests classiques et modernes comme indicateur de qualité tâche de test– fiabilité-cohérence avec la note globale du test.

Pour corréler les variables mesurées dans échelle dichotomique et d'intervalle utiliser coefficient de corrélation point-bisérien.
Le coefficient de corrélation point-bisérial est une méthode d'analyse de corrélation de la relation de variables dont l'une est mesurée sur une échelle de noms et ne prend que 2 valeurs (par exemple, hommes/femmes, bonne réponse/fausse réponse, caractéristique présent/non présent), et le second sur une échelle de rapports ou d'intervalles. Formule de calcul du coefficient de corrélation point-bisérial :

Où:
m1 et m0 sont les valeurs moyennes de X avec une valeur de 1 ou 0 dans Y.
σx – écart type de toutes les valeurs par X
n1,n0 – nombre de valeurs X de 1 ou 0 à Y.
n – nombre total de paires de valeurs

Le plus souvent, ce type de coefficient de corrélation est utilisé pour calculer la relation entre les éléments de test et l'échelle totale. Il s’agit d’un type de contrôle de validité.

39. Coefficient de corrélation rang-bisérial.

Sur la corrélation en général, voir question n°36 Avec. 56 (64) 063.JPG

harchenko-korranaliz.pdf p. 28

Coefficient de corrélation bisérielle de rang, utilisé dans les cas où l'une des variables ( X) est présenté sur une échelle ordinale, et l'autre ( Oui) – dichotomique, calculé par la formule

.

Voici le rang moyen des objets en possédant un sur Oui; – rang moyen des objets de zéro à Oui, n– taille de l'échantillon.

Examen hypothèses de signification Le coefficient de corrélation rang-bisérial est réalisé de manière similaire au coefficient de corrélation bisérial ponctuel en utilisant le test de Student avec remplacement dans les formules rpb sur rrb.

Dans les cas où une variable est mesurée sur une échelle dichotomique (variable X), et l'autre dans l'échelle de rang (variable Y), le coefficient de corrélation rang-bisérial est utilisé. On rappelle que la variable X, mesuré sur une échelle dichotomique, ne prend que deux valeurs (codes) 0 et 1. Soulignons particulièrement : malgré le fait que ce coefficient varie dans la plage de –1 à +1, son signe n'a pas d'importance pour l'interprétation du résultats. Il s'agit d'une autre exception à la règle générale.

Ce coefficient est calculé à l'aide de la formule :

où ` X 1 rang moyen pour ces éléments de la variable Oui, qui correspond au code (signe) 1 dans la variable X;

`X 0 – rang moyen pour ces éléments de la variable Oui, qui correspond au code (signe) 0 dans la variable X\

N – nombre total d'éléments dans la variable X.

Pour appliquer le coefficient de corrélation rang-bisérial, les conditions suivantes doivent être remplies :

1. Les variables comparées doivent être mesurées à différentes échelles : une X – sur une échelle dichotomique ; autre O– sur une échelle de classement.

2. Nombre de caractéristiques variables dans les variables comparées X Et Oui devrait être le même.

3. Pour évaluer le niveau de fiabilité du coefficient de corrélation rang-bisérial, vous devez utiliser la formule (11.9) et le tableau des valeurs critiques pour le test de Student k = n – 2.

http://psystat.at.ua/publ/drugie_vidy_koehfficienta_korreljacii/1-1-0-38

Cas où l'une des variables est représentée dans échelle dichotomique, et l'autre dans rang (ordinal), nécessite une demande coefficient de corrélation rang-bisérien :

rpb=2 / n * (m1 - m0)

Où:
n – nombre d'objets de mesure
m1 et m0 - le rang moyen des objets avec 1 ou 0 sur la deuxième variable.
Ce coefficient est également utilisé lors du contrôle de la validité des tests.

40. Coefficient de corrélation linéaire.

Pour la corrélation en général (et la corrélation linéaire en particulier), voir question n°36 Avec. 56 (64) 063.JPG

COEFFICIENT DE M. PEARSON

r-Pearson (Pearson r) est utilisé pour étudier la relation entre deux métriquesdifférentes variables mesurées sur le même échantillon. Il existe de nombreuses situations dans lesquelles son utilisation est appropriée. L’intelligence affecte-t-elle les performances académiques dans les cours universitaires supérieurs ? Le montant du salaire d’un salarié est-il lié à sa convivialité envers ses collègues ? L’humeur d’un élève affecte-t-elle la réussite de la résolution d’un problème arithmétique complexe ? Pour répondre à ces questions, le chercheur doit mesurer deux indicateurs d’intérêt pour chaque membre de l’échantillon. Les données permettant d'étudier la relation sont ensuite tabulées, comme dans l'exemple ci-dessous.

EXEMPLE 6.1

Le tableau présente un exemple de données initiales pour mesurer deux indicateurs d'intelligence (verbale et non verbale) pour 20 élèves de 8e année.

La relation entre ces variables peut être représentée à l'aide d'un nuage de points (voir Figure 6.3). Le diagramme montre qu'il existe une certaine relation entre les indicateurs mesurés : plus la valeur de l'intelligence verbale est grande, plus (généralement) la valeur de l'intelligence non verbale est grande.

Avant de donner la formule du coefficient de corrélation, essayons de retracer la logique de son apparition en utilisant les données de l'exemple 6.1. La position de chaque point / (sujet avec le numéro /) sur le diagramme de dispersion par rapport aux autres points (Fig. 6.3) peut être précisée par les valeurs et les signes d'écarts des valeurs variables correspondantes par rapport à leurs valeurs moyennes. : (xj - MJ Et (esprit à ). Si les signes de ces écarts coïncident, cela indique une relation positive ( grandes valeurs Par X les grandes valeurs correspondent à à ou des valeurs inférieures X des valeurs plus petites correspondent à y).

Pour le sujet n°1, écart par rapport à la moyenne X et par à positif, et pour le sujet n°3 les deux écarts sont négatifs. Par conséquent, les données des deux indiquent une relation positive entre les traits étudiés. Au contraire, si les signes d'écarts par rapport à la moyenne X et par à diffèrent, cela indiquera une relation négative entre les caractéristiques. Ainsi, pour le sujet n°4, l'écart par rapport à la moyenne X est négatif, par oui - positif, et pour le sujet n°9 - vice versa.

Ainsi, si le produit des écarts (x,- M X ) X (esprit à ) positif, alors les données du /-sujet indiquent une relation directe (positive), et si négatives, alors une relation inverse (négative). En conséquence, si Xwouais sont généralement liés en proportion directe, alors la plupart des produits des écarts seront positifs, et s'ils sont liés par une relation inverse, alors la plupart des produits seront négatifs. Ainsi, indicateur global La force et la direction de la relation peuvent être déterminées par la somme de tous les produits des écarts pour un échantillon donné :

Avec une relation directement proportionnelle entre les variables, cette valeur est grande et positive - pour la plupart des sujets, les écarts coïncident en signe (les grandes valeurs d'une variable correspondent aux grandes valeurs d'une autre variable et vice versa). Si X Et à avoir retour, alors pour la majorité des sujets, les valeurs plus grandes d'une variable correspondront à des valeurs plus petites d'une autre variable, c'est-à-dire que les signes des produits seront négatifs et que la somme des produits dans leur ensemble sera également grande en valeur absolue, mais de signe négatif. S'il n'y a pas de connexion systématique entre les variables, alors les termes positifs (produits des écarts) seront équilibrés par des termes négatifs et la somme de tous les produits des écarts sera proche de zéro.

Pour s'assurer que la somme des produits ne dépend pas de la taille de l'échantillon, il suffit d'en faire la moyenne. Mais nous nous intéressons à la mesure de l'interconnexion non pas en tant que paramètre général, mais en tant qu'estimation calculée de celui-ci - des statistiques. Par conséquent, comme pour la formule de dispersion, dans ce cas nous ferons de même, diviserons la somme des produits des écarts non par N, et à la télévision - 1. Le résultat est une mesure de connexion, largement utilisée en physique et en sciences techniques, appelée covariance (Covahance):


DANS En psychologie, contrairement à la physique, la plupart des variables sont mesurées sur des échelles arbitraires, puisque les psychologues ne s'intéressent pas à la valeur absolue d'un signe, mais position relative sujets dans le groupe. De plus, la covariance est très sensible à l’échelle de l’échelle (variance) sur laquelle les traits sont mesurés. Pour rendre la mesure de connexion indépendante des unités de mesure des deux caractéristiques, il suffit de diviser la covariance en écarts types correspondants. On a ainsi obtenu pour-Mule du coefficient de corrélation de K. Pearson :

ou, après avoir remplacé les expressions de ox et


Si les valeurs des deux variables étaient converties en valeurs r à l'aide de la formule


alors la formule du coefficient de corrélation r-Pearson semble plus simple (071.JPG) :

/dict/sociologie/article/soc/soc-0525.htm

CORRÉLATION LINÉAIRE- relation statistique linéaire de nature non causale entre deux variables quantitatives X Et à. Mesuré à l'aide du « coefficient K.L ». Pearson, qui est le résultat de la division de la covariance par les écarts types des deux variables :

,

s xy- covariance entre variables X Et à;

s x , s oui- écarts types pour les variables X Et à;

x je , oui je- valeurs variables X Et à pour objet avec numéro je;

x, oui- moyennes arithmétiques des variables X Et à.

Coefficient de Pearson r peut prendre des valeurs de l'intervalle [-1; +1]. Signification r = 0 signifie qu'il n'y a pas de relation linéaire entre les variables X Et à(mais n'exclut pas une relation statistique non linéaire). Des valeurs positives coefficient ( r> 0) indique une connexion linéaire directe ; plus sa valeur est proche de +1, plus la relation est forte. Valeurs négatives coefficient ( r < 0) свидетельствуют об обратной линейной связи; чем ближе его значение к -1, тем сильнее обратная связь. Значения r= ±1 signifie la présence d'une connexion linéaire complète, directe ou inverse. Dans le cas d'une connexion complète, tous les points avec des coordonnées ( x je , oui je) s'allonger sur une ligne droite oui = un + bx.

"Coefficient K.L." Pearson est également utilisé pour mesurer la force de la connexion dans un modèle de régression linéaire par paires.

41. Matrice de corrélation et graphique de corrélation.

Sur la corrélation en général, voir question n°36 Avec. 56 (64) 063.JPG

Matrice de corrélation. Souvent, l'analyse de corrélation comprend l'étude des relations entre non pas deux, mais de nombreuses variables mesurées sur une échelle quantitative dans un échantillon. Dans ce cas, des corrélations sont calculées pour chaque paire de cet ensemble de variables. Les calculs sont généralement effectués sur un ordinateur et le résultat est une matrice de corrélation.

Matrice de corrélation(Corrélation Matrice) est le résultat du calcul de corrélations d'un type pour chaque paire de l'ensemble R. variables mesurées sur une échelle quantitative dans un échantillon.

EXEMPLE

Supposons que nous étudions les relations entre 5 variables (vl, v2,..., v5 ; P.= 5), mesuré sur un échantillon de N=30 Humain. Vous trouverez ci-dessous un tableau des données sources et une matrice de corrélation.

ET
données similaires :

Matrice de corrélation :

Il est facile de remarquer que la matrice de corrélation est carrée, symétrique par rapport à la diagonale principale (takkak,y = /) y), avec des unités sur la diagonale principale (puisque G Et = Gu = 1).

La matrice de corrélation est carré: le nombre de lignes et de colonnes est égal au nombre de variables. Elle symétrique par rapport à la diagonale principale, puisque la corrélation X Avec àégal à la corrélation à Avec X. Les unités sont situées sur sa diagonale principale, puisque la corrélation de la caractéristique avec elle-même est égale à un. Par conséquent, tous les éléments de la matrice de corrélation ne sont pas soumis à analyse, mais ceux qui se situent au-dessus ou en dessous de la diagonale principale.

Nombre de coefficients de corrélation, Les caractéristiques à analyser lors de l'étude des relations sont déterminées par la formule : P(P- 1)/2. Dans l'exemple ci-dessus, le nombre de ces coefficients de corrélation est 5(5 - 1)/2 = 10.

La tâche principale de l'analyse de la matrice de corrélation est identifier la structure des relations entre de nombreuses fonctionnalités. Dans ce cas, une analyse visuelle est possible galaxies de corrélation- image graphique structures statistiquementdes liens significatifs, s'il n'y a pas beaucoup de connexions de ce type (jusqu'à 10-15). Une autre façon est d'utiliser des méthodes multivariées : régression multiple, analyse factorielle ou cluster (voir section « Méthodes multivariées... »). À l’aide de l’analyse factorielle ou groupée, il est possible d’identifier des groupements de variables plus étroitement liées les unes aux autres qu’aux autres variables. Une combinaison de ces méthodes est également très efficace, par exemple s’il existe de nombreux signes et qu’ils ne sont pas homogènes.

Comparaison des corrélations - une tâche supplémentaire d'analyse de la matrice de corrélation, qui propose deux options. S'il est nécessaire de comparer les corrélations dans l'une des lignes de la matrice de corrélation (pour l'une des variables), la méthode de comparaison des échantillons dépendants est utilisée (p. 148-149). Lors de la comparaison de corrélations du même nom calculées pour différents échantillons, la méthode de comparaison pour échantillons indépendants est utilisée (p. 147-148).

Méthodes de comparaison corrélations en diagonales matrice de corrélation (pour évaluer la stationnarité d'un processus aléatoire) et comparaison plusieurs les matrices de corrélation obtenues pour différents échantillons (en raison de leur homogénéité) demandent beaucoup de travail et dépassent le cadre de ce livre. Vous pouvez vous familiariser avec ces méthodes dans le livre de G.V. Sukhodolsky 1.

Le problème de la signification statistique des corrélations. Le problème est que la procédure de test d’hypothèse statistique suppose un-multiple test effectué sur un échantillon. Si la même méthode est appliquée à plusieurs reprises, même si par rapport à différentes variables, la probabilité d'obtenir un résultat purement par hasard augmente. En général, si nous répétons la même méthode de test d'hypothèse une fois par rapport à différentes variables ou échantillons, alors avec la valeur établie a nous sommes assurés de recevoir la confirmation de l'hypothèse dans ahk nombre de cas.

Supposons qu'une matrice de corrélation soit analysée pour 15 variables, c'est-à-dire que 15(15-1)/2 = 105 coefficients de corrélation sont calculés. Pour tester les hypothèses, le niveau a = 0,05 est fixé. En vérifiant l'hypothèse 105 fois, nous en recevrons la confirmation cinq fois (!), que la connexion existe réellement ou non. Sachant cela et disposant, disons, de 15 coefficients de corrélation « statistiquement significatifs », pouvons-nous dire lesquels d'entre eux ont été obtenus par hasard et lesquels reflètent une relation réelle ?

À proprement parler, pour prendre une décision statistique, il faut réduire le niveau a d’autant de fois que le nombre d’hypothèses testées. Mais cela n'est guère recommandable, car de manière imprévisible, la probabilité d'ignorer réellement connexion existante(faire une erreur de type II).

La matrice de corrélation seule ne constitue pas une base suffisantepour des conclusions statistiques concernant les coefficients individuels qui y sont incluscorrélations!

Il n'existe qu'une seule façon vraiment convaincante de résoudre ce problème : diviser l'échantillon de manière aléatoire en deux parties et ne prendre en compte que les corrélations statistiquement significatives dans les deux parties de l'échantillon. Une alternative peut être l’utilisation de méthodes multivariées (analyse factorielle, groupée ou de régression multiple) pour identifier et ensuite interpréter des groupes de variables statistiquement significativement liées.

Problème de valeurs manquantes. S'il manque des valeurs dans les données, alors deux options sont possibles pour calculer la matrice de corrélation : a) suppression des valeurs ligne par ligne (Exclurecaspar liste); b) suppression de valeurs par paires (Exclurecaspar paire). À suppression ligne par ligne observations avec des valeurs manquantes, la ligne entière d'un objet (sujet) qui a au moins une valeur manquante pour l'une des variables est supprimée. Cette méthode conduit à une matrice de corrélation « correcte » dans le sens où tous les coefficients sont calculés à partir du même ensemble d’objets. Cependant, si les valeurs manquantes sont réparties de manière aléatoire dans les variables, cette méthode peut alors conduire au fait qu'il ne reste plus un seul objet dans l'ensemble de données considéré (il y aura au moins une valeur manquante dans chaque ligne) . Pour éviter cette situation, utilisez une autre méthode appelée retrait par paire. Cette méthode prend uniquement en compte les écarts dans chaque paire colonne-variable sélectionnée et ignore les écarts dans les autres variables. La corrélation pour une paire de variables est calculée pour les objets pour lesquels il n'y a pas d'écart. Dans de nombreuses situations, notamment lorsque le nombre d’écarts est relativement faible, disons 10 %, et que les écarts sont répartis de manière assez aléatoire, cette méthode ne conduit pas à de graves erreurs. Cependant, ce n’est parfois pas le cas. Par exemple, un biais (décalage) systématique dans l'évaluation peut « cacher » un arrangement systématique d'omissions, ce qui explique la différence entre les coefficients de corrélation construits pour différents sous-ensembles (par exemple, pour différents sous-groupes d'objets). Un autre problème lié à la matrice de corrélation calculée avec par paire la suppression des lacunes se produit lors de l'utilisation de cette matrice dans d'autres types d'analyse (par exemple, dans la régression multiple ou l'analyse factorielle). Ils supposent que la matrice de corrélation « correcte » est utilisée avec un certain niveau de cohérence et de « conformité » des différents coefficients. L'utilisation d'une matrice avec des estimations « mauvaises » (biaisées) conduit au fait que le programme soit incapable d'analyser une telle matrice, soit que les résultats seront erronés. Par conséquent, si la méthode par paires d’exclusion des données manquantes est utilisée, il est nécessaire de vérifier s’il existe des modèles systématiques dans la distribution des données manquantes.

Si la suppression par paire des données manquantes n'entraîne pas de déplacement systématique des moyennes et des variances (écarts types), alors ces statistiques seront similaires à celles calculées à l'aide de la méthode ligne par ligne de suppression des données manquantes. Si une différence significative est observée, il y a alors lieu de supposer qu’il y a un changement dans les estimations. Par exemple, si la moyenne (ou écart type) des valeurs d'une variable UN, qui a été utilisé pour calculer sa corrélation avec la variable DANS, bien inférieur à la moyenne (ou écart type) les mêmes valeurs de variables UN, qui ont été utilisées pour calculer sa corrélation avec la variable C, alors il y a tout lieu de s'attendre à ce que ces deux corrélations (A-Bnous) basé sur différents sous-ensembles de données. Il y aura un biais dans les corrélations causé par le placement non aléatoire des écarts dans les valeurs des variables.

Analyse des galaxies de corrélation. Après avoir résolu le problème de la signification statistique des éléments de la matrice de corrélation, les corrélations statistiquement significatives peuvent être représentées graphiquement sous la forme d'une galaxie ou d'une galaxie de corrélation. Galaxie de corrélation - Il s'agit d'une figure composée de sommets et de lignes qui les relient. Les sommets correspondent aux caractéristiques et sont généralement désignés par des nombres - nombres variables. Les lignes correspondent à des connexions statistiquement significatives et expriment graphiquement le signe et parfois le niveau j de signification de la connexion.

La galaxie de corrélation peut refléter Tous connexions statistiquement significatives de la matrice de corrélation (parfois appelées graphique de corrélation ) ou seulement leur partie significativement sélectionnée (par exemple, correspondant à un facteur selon les résultats de l'analyse factorielle).

EXEMPLE DE CONSTRUCTION D'UNE PLÉIADE DE CORRÉLATION


Préparation à la certification d'État (finale) des diplômés : constitution de la base de données de l'Examen d'État unifié (liste générale des participants à l'Examen d'État unifié de toutes catégories, indiquant les matières) - prise en compte des jours de réserve pour les mêmes matières ;

  • Plan de travail (27)

    Solution

    2. Activités de l'établissement d'enseignement visant à améliorer le contenu et à évaluer la qualité des matières d'enseignement des sciences et des mathématiques Établissement d'enseignement municipal école secondaire n° 4, Litvinovskaya, Chapaevskaya,

  • Brève théorie

    La corrélation de rang est une méthode d'analyse de corrélation qui reflète les relations de variables classées par valeur croissante.

    Les rangs sont les numéros de série des unités agrégées dans une série classée. Si nous classons une population selon deux caractéristiques dont la relation est étudiée, alors la coïncidence complète des rangs signifie la connexion directe la plus étroite possible, et l'opposé complet des rangs signifie la rétroaction la plus proche possible. Il est nécessaire de classer les deux caractéristiques dans le même ordre : soit des valeurs les plus petites de la caractéristique aux plus grandes, ou vice versa.

    Pour des raisons pratiques, l’utilisation de la corrélation de rangs est très utile. Par exemple, s’il existe une corrélation de rang élevé entre deux signes qualitatifs produits, il suffit alors de contrôler les produits uniquement par l'un des signes, ce qui réduit le coût et accélère le contrôle.

    Le coefficient de corrélation de rang, proposé par K. Spearman, fait référence à une mesure non paramétrique de la relation entre des variables mesurées sur une échelle de rang. Lors du calcul de ce coefficient, aucune hypothèse n'est requise sur la nature des distributions des caractéristiques au sein de la population. Ce coefficient détermine le degré d'étroitesse de connexion entre les caractéristiques ordinales, qui représentent dans ce cas les rangs des quantités comparées.

    La valeur du coefficient de corrélation de Spearman est comprise entre +1 et -1. Il peut être positif ou négatif, caractérisant le sens de la relation entre deux caractéristiques mesurées sur une échelle de rang.

    Le coefficient de corrélation de rang de Spearman est calculé à l'aide de la formule :

    Différence entre les rangs sur deux variables

    nombre de paires appariées

    La première étape du calcul du coefficient de corrélation de rang consiste à classer la série de variables. La procédure de classement commence par classer les variables par ordre croissant de leurs valeurs. Différentes valeurs se voient attribuer des rangs, notés nombres naturels. S'il existe plusieurs variables de valeur égale, un rang moyen leur est attribué.

    L'avantage du coefficient de corrélation de rang de Spearman est qu'il est possible de classer selon des caractéristiques qui ne peuvent être exprimées numériquement : il est possible de classer les candidats à un certain poste par niveau professionnel, par capacité à diriger une équipe, par charme personnel, etc. Avec les évaluations d’experts, il est possible de classer les évaluations de différents experts et de trouver leurs corrélations entre elles, afin d’exclure ensuite de la considération les évaluations des experts qui sont faiblement corrélées avec les évaluations d’autres experts. Le coefficient de corrélation de rang de Spearman est utilisé pour évaluer la stabilité de la tendance. L'inconvénient du coefficient de corrélation de rang est que les mêmes différences de rangs peuvent correspondre à des différences complètement différentes dans les valeurs des caractéristiques (dans le cas de caractéristiques quantitatives). Par conséquent, pour ces derniers, la corrélation des rangs doit être considérée comme une mesure approximative de l'étroitesse de la connexion, moins informative que le coefficient de corrélation des valeurs numériques des caractéristiques.

    Exemple de solution de problème

    Condition problématique

    Une enquête menée auprès de 10 étudiants sélectionnés au hasard vivant dans une résidence universitaire révèle la relation entre le score moyen de la session précédente et le nombre d'heures par semaine consacrées à l'auto-apprentissage par l'étudiant.

    Déterminez la force de la relation à l’aide du coefficient de corrélation de rang de Spearman.

    Si vous rencontrez des difficultés à résoudre des problèmes, le site propose une aide en ligne aux étudiants en statistiques avec des tests ou examens à domicile.

    Solution du problème

    Calculons le coefficient de corrélation de rang.

    Portée Comparaison des classements Différence de classement 1 26 4.7 8 1 3.1 1 8 10 -2 4 2 22 4.4 10 2 3.6 2 7 9 -2 4 3 8 3.8 12 3 3.7 3 1 4 -3 9 4 12 3.7 15 4 3.8 4 3 3 0 0 5 15 4.2 17 5 3.9 5 4 7 -3 9 6 30 4.3 20 6 4 6 9 8 1 1 7 20 3.6 22 7 4.2 7 6 2 4 16 8 31 4 26 8 4.3 8 10 6 4 16 9 10 3.1 30 9 4.4 9 2 1 1 1 10 17 3.9 31 10 4.7 10 5 5 0 0 Somme 60

    Coefficient de corrélation de rang de Spearman :

    En remplaçant les valeurs numériques, nous obtenons :

    Conclusion au problème

    La relation entre la moyenne cumulative de la session précédente et le nombre d'heures par semaine consacrées par l'étudiant à des études indépendantes est moyennement forte.

    Si les délais de livraison travail d'essai Nous manquons de temps, vous pouvez toujours commander des solutions urgentes aux problèmes de statistiques sur le site.

    Moyenne le coût de résolution d'un test est de 700 à 1 200 roubles (mais pas moins de 300 roubles pour la totalité de la commande). Le prix est fortement influencé par l'urgence de la décision (d'une journée à plusieurs heures). Le coût de l'aide en ligne pour un examen/test est de 1 000 roubles. pour résoudre le ticket.

    Vous pouvez poser toutes les questions sur le coût directement dans le chat, après avoir préalablement envoyé les conditions de la tâche et vous avoir informé du délai requis pour la solution. Le temps de réponse est de quelques minutes.

    Exemples de problèmes connexes

    Rapport de Fechner
    Donné brève théorie et un exemple de résolution du problème du calcul du coefficient de corrélation des signes de Fechner est considéré.

    Coefficients de contingence mutuels de Chuprov et Pearson
    La page contient des informations sur les méthodes d'étude des relations entre les caractéristiques qualitatives à l'aide des coefficients de contingence mutuelle de Chuprov et de Pearson.