Menu

Intervalle de confiance pour estimer la moyenne (la dispersion est connue) dans MS EXCEL. Calcul d'un intervalle de confiance dans Microsoft Excel

Fais le toi-même

Souvent, l'expert doit analyser le marché immobilier du segment dans lequel se situe l'objet d'expertise. Si le marché est développé, il peut être difficile d'analyser l'ensemble des objets présentés, par conséquent, un échantillon d'objets est utilisé pour l'analyse. Cet échantillon n'est pas toujours homogène, il faut parfois le débarasser des extrêmes - offres de marché trop hautes ou trop basses. A cet effet, il est appliqué Intervalle de confiance. Le but de cette étude est de procéder à une analyse comparative de deux méthodes de calcul de l'intervalle de confiance et de choisir Meilleure option calcul lorsque vous travaillez avec différents échantillons dans le système estimatica.pro.

Intervalle de confiance- calculé sur la base de l'échantillon, l'intervalle de valeurs de la caractéristique qui, avec une probabilité connue, contient le paramètre estimé de la population générale.

Le sens du calcul de l'intervalle de confiance est de construire un tel intervalle basé sur les données de l'échantillon afin qu'il puisse être affirmé avec une probabilité donnée que la valeur du paramètre estimé se trouve dans cet intervalle. En d'autres termes, l'intervalle de confiance avec une certaine probabilité contient la valeur inconnue de la quantité estimée. Plus l'intervalle est large, plus l'imprécision est élevée.

Il existe différentes méthodes pour déterminer l'intervalle de confiance. Dans cet article, nous considérerons 2 façons :

  • par la médiane et l'écart type ;
  • par la valeur critique de la statistique t (coefficient de Student).

Étapes de l'analyse comparative différentes façons Calcul CI :

1. former un échantillon de données ;

2. nous la traitons avec des méthodes statistiques : nous calculons la valeur moyenne, la médiane, la variance, etc. ;

3. nous calculons l'intervalle de confiance de deux manières ;

4. Analysez les échantillons nettoyés et les intervalles de confiance obtenus.

Étape 1. Échantillonnage des données

L'échantillon a été formé à l'aide du système estimatica.pro. L'échantillon comprenait 91 offres pour la vente d'appartements d'une pièce dans la 3ème zone de prix avec le type de planification "Khrouchtchev".

Tableau 1. Échantillon initial

Le prix de 1 m², u.c.

Fig. 1. Échantillon initial



Étape 2. Traitement de l'échantillon initial

Le traitement des échantillons par des méthodes statistiques nécessite le calcul des valeurs suivantes :

1. Moyenne arithmétique

2. Médiane - un nombre qui caractérise l'échantillon : exactement la moitié des éléments de l'échantillon sont supérieurs à la médiane, l'autre moitié est inférieure à la médiane

(pour un échantillon avec un nombre impair de valeurs)

3. Plage - la différence entre les valeurs maximales et minimales de l'échantillon

4. Variance - utilisé pour estimer plus précisément la variation des données

5. L'écart type de l'échantillon (ci-après dénommé RMS) est l'indicateur le plus courant de la dispersion des valeurs d'ajustement autour de la moyenne arithmétique.

6. Coefficient de variation - reflète le degré de dispersion des valeurs d'ajustement

7. coefficient d'oscillation - reflète la fluctuation relative des valeurs extrêmes des prix dans l'échantillon autour de la moyenne

Tableau 2. Indicateurs statistiques de l'échantillon initial

Le coefficient de variation, qui caractérise l'homogénéité des données, est de 12,29 %, mais le coefficient d'oscillation est trop grand. Ainsi, nous pouvons affirmer que l'échantillon d'origine n'est pas homogène, passons donc au calcul de l'intervalle de confiance.

Etape 3. Calcul de l'intervalle de confiance

Méthode 1. Calcul par la médiane et l'écart type.

L'intervalle de confiance est déterminé comme suit : la valeur minimale - l'écart type est soustrait de la médiane ; la valeur maximale - l'écart type est ajouté à la médiane.

Ainsi, l'intervalle de confiance (47179 CU ; 60689 CU)

Riz. 2. Valeurs dans l'intervalle de confiance 1.



Méthode 2. Construction d'un intervalle de confiance à travers la valeur critique de la statistique t (coefficient de Student)

SV Gribovsky dans le livre "Méthodes mathématiques pour évaluer la valeur d'une propriété" décrit une méthode de calcul de l'intervalle de confiance via le coefficient de Student. Lors du calcul par cette méthode, l'estimateur lui-même doit fixer le niveau de signification ∝, qui détermine la probabilité avec laquelle l'intervalle de confiance sera construit. Des niveaux de signification de 0,1 sont couramment utilisés ; 0,05 et 0,01. Ils correspondent à des probabilités de confiance de 0,9 ; 0,95 et 0,99. Avec cette méthode, on suppose vraies valeurs l'espérance mathématique et la variance sont pratiquement inconnues (ce qui est presque toujours vrai lors de la résolution de problèmes d'estimation pratiques).

Formule d'intervalle de confiance :

n - taille de l'échantillon ;

La valeur critique des statistiques t (distributions de Student) avec un niveau de signification ∝, le nombre de degrés de liberté n-1, qui est déterminé par des tableaux statistiques spéciaux ou à l'aide de MS Excel (→"Statistique"→ STUDRASPOBR) ;

∝ - seuil de signification, on prend ∝=0.01.

Riz. 2. Valeurs comprises dans l'intervalle de confiance 2.

Étape 4. Analyse des différentes manières de calculer l'intervalle de confiance

Deux façons de calculer l'intervalle de confiance - par la médiane et le coefficient de Student - ont conduit à différentes valeurs intervalles. En conséquence, deux échantillons purifiés différents ont été obtenus.

Tableau 3. Indicateurs statistiques pour trois échantillons.

Indice

Échantillon initial

1 option

Option 2

Moyenne

Dispersion

Coef. variantes

Coef. oscillations

Nombre d'objets retirés, pcs.

D'après les calculs effectués, on peut dire que la différentes méthodes les valeurs des intervalles de confiance se croisent, vous pouvez donc utiliser l'une des méthodes de calcul à la discrétion de l'évaluateur.

Cependant, nous pensons que lorsque vous travaillez dans le système estimatica.pro, il est conseillé de choisir une méthode de calcul de l'intervalle de confiance, en fonction du degré de développement du marché :

  • si le marché n'est pas développé, appliquer la méthode de calcul par la médiane et l'écart-type, car le nombre d'objets retirés dans ce cas est faible ;
  • si le marché est développé, appliquer le calcul à travers la valeur critique de la statistique t (coefficient de Student), puisqu'il est possible de constituer un large échantillon initial.

Dans la préparation de l'article ont été utilisés:

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Méthodes mathématiques d'évaluation de la valeur d'un bien. Moscou, 2014

2. Données du système estimatica.pro

Ayons un grand nombre de articles avec une distribution normale de certaines caractéristiques (par exemple, un entrepôt complet du même type de légumes, dont la taille et le poids varient). Vous souhaitez connaître les caractéristiques moyennes de l'ensemble du lot de marchandises, mais vous n'avez ni le temps ni l'envie de mesurer et de peser chaque légume. Vous comprenez que ce n'est pas nécessaire. Mais combien de pièces auriez-vous besoin de prendre pour une inspection aléatoire ?

Avant de donner quelques formules utiles pour cette situation, rappelons quelques notations.

Premièrement, si nous mesurions l'ensemble de l'entrepôt de légumes (cet ensemble d'éléments s'appelle la population générale), nous connaîtrions alors avec toute la précision dont nous disposons la valeur moyenne du poids de l'ensemble du lot. Appelons cette moyenne X cf .g fr . - moyenne générale. Nous savons déjà ce qui est complètement déterminé si sa valeur moyenne et son écart s sont connus . Certes, jusqu'à présent, nous ne sommes ni en moyenne X ni s nous ne connaissons pas la population générale. Nous ne pouvons que prendre un échantillon, mesurer les valeurs dont nous avons besoin et calculer pour cet échantillon à la fois la valeur moyenne X sr. dans l'échantillon et l'écart type S sb.

On sait que si notre vérification personnalisée contient un grand nombre d'éléments (généralement n est supérieur à 30), et qu'ils sont pris vraiment aléatoire, alors s la population générale ne différera presque pas de S ..

De plus, pour le cas d'une distribution normale, on peut utiliser les formules suivantes :

Avec une probabilité de 95%


Avec une probabilité de 99%



À vue générale avec probabilité Р (t)


La relation entre la valeur de t et la valeur de la probabilité P(t), dont on veut connaître l'intervalle de confiance, peut être tirée du tableau suivant :


Ainsi, nous avons déterminé dans quelle fourchette se situe la valeur moyenne pour la population générale (avec une probabilité donnée).

À moins d'avoir un échantillon suffisamment grand, nous ne pouvons pas prétendre que la population a s = S sel. De plus, dans ce cas, la proximité de l'échantillon avec la distribution normale est problématique. Dans ce cas, utilisez également S sb à la place s dans la formule :




mais la valeur de t pour une probabilité fixe P(t) dépendra du nombre d'éléments dans l'échantillon n. Plus n est grand, plus l'intervalle de confiance résultant sera proche de la valeur donnée par la formule (1). Les valeurs t dans ce cas sont tirées d'un autre tableau (test t de Student), que nous fournissons ci-dessous :

Valeurs du test t de Student pour les probabilités 0,95 et 0,99


Exemple 3 30 personnes ont été tirées au sort parmi les salariés de l'entreprise. Selon l'échantillon, il s'est avéré que le salaire moyen (par mois) est de 30 000 roubles, avec une moyenne écart-type 5 mille roubles. Avec une probabilité de 0,99 déterminer salaire moyen dans la société.

La solution: Par condition, on a n = 30, X cf. =30000, S=5000, P=0,99. Pour trouver l'intervalle de confiance, on utilise la formule correspondant au critère de Student. Selon le tableau pour n \u003d 30 et P \u003d 0,99, nous trouvons t \u003d 2,756, donc,


ceux. confiance souhaitée intervalle 27484< Х ср.ген < 32516.

Ainsi, avec une probabilité de 0,99, on peut affirmer que l'intervalle (27484 ; 32516) contient le salaire moyen dans l'entreprise.

Nous espérons que vous utiliserez cette méthode sans nécessairement avoir une feuille de calcul avec vous à chaque fois. Les calculs peuvent être effectués automatiquement dans Excel. Dans un fichier Excel, cliquez sur le bouton fx dans le menu supérieur. Ensuite, sélectionnez parmi les fonctions le type "statistique", et dans la liste proposée dans la case - STEUDRASP. Ensuite, à l'invite, en plaçant le curseur dans le champ "probabilité", tapez la valeur de la probabilité réciproque (c'est-à-dire que, dans notre cas, au lieu de la probabilité de 0,95, vous devez taper la probabilité de 0,05). Apparemment, la feuille de calcul est conçue pour que le résultat réponde à la question de savoir dans quelle mesure nous pouvons nous tromper. De même, dans le champ "degré de liberté", entrez la valeur (n-1) pour votre échantillon.

Tout échantillon ne donne qu'une idée approximative de la population générale, et toutes les caractéristiques statistiques de l'échantillon (moyenne, mode, variance ...) sont une approximation ou disons une estimation des paramètres généraux, qui dans la plupart des cas ne peuvent pas être calculés en raison de l'inaccessibilité de la population générale (Figure 20) .

Figure 20. Erreur d'échantillonnage

Mais vous pouvez spécifier l'intervalle dans lequel, avec un certain degré de probabilité, se situe la vraie valeur (générale) de la caractéristique statistique. Cet intervalle est appelé intervalle de confiance (IC).

Ainsi, la moyenne générale avec une probabilité de 95 % se situe dans

de à, (20)

t - valeur tabulaire du critère de Student pour α =0,05 et F= n-1

Peut être trouvé et IC à 99 %, dans ce cas t choisi pour α =0,01.

Quelle est la signification pratique d'un intervalle de confiance ?

    Un large intervalle de confiance indique que la moyenne de l'échantillon ne reflète pas exactement la moyenne de la population. Cela est généralement dû à une taille d'échantillon insuffisante, ou à son hétérogénéité, c'est-à-dire grande dispersion. Les deux donnent une grande erreur dans la moyenne et, par conséquent, un IC plus large. Et c'est la raison pour revenir à l'étape de la planification de la recherche.

    Les limites supérieures et inférieures de l'IC évaluent si les résultats seront cliniquement significatifs

Arrêtons-nous plus en détail sur la question de la signification statistique et clinique des résultats de l'étude des propriétés de groupe. Rappelons que la tâche des statistiques est de détecter au moins certaines différences dans les populations générales, sur la base de données d'échantillon. C'est la tâche du clinicien de trouver ces différences (pas n'importe lesquelles) qui aideront au diagnostic ou au traitement. Et les conclusions statistiques ne sont pas toujours à la base des conclusions cliniques. Ainsi, une diminution statistiquement significative de l'hémoglobine de 3 g/l n'est pas préoccupante. Et, à l'inverse, si un problème dans le corps humain n'a pas un caractère de masse au niveau de l'ensemble de la population, ce n'est pas une raison pour ne pas traiter ce problème.

Nous examinerons cette position dans Exemple.

Les chercheurs se sont demandé si les garçons qui avaient une sorte de maladie infectieuse étaient à la traîne de leurs pairs en matière de croissance. À cette fin, une étude sélective a été menée, à laquelle 10 garçons atteints de cette maladie ont participé. Les résultats sont présentés dans le tableau 23.

Tableau 23. Résultats statistiques

limite inférieure

limite supérieure

Spécifications (cm)

milieu

Il ressort de ces calculs que l'échantillon de taille moyenne garçons de 10 ans qui ont subi des infection, proche de la normale (132,5 cm). Cependant, la borne inférieure de l'intervalle de confiance (126,6 cm) indique qu'il existe une probabilité de 95 % que la vraie taille moyenne de ces enfants corresponde au concept de « petite taille », c'est-à-dire ces enfants ont un retard de croissance.

Dans cet exemple, les résultats des calculs d'intervalle de confiance sont cliniquement significatifs.

Instruction

Veuillez noter que intervalle(l1 ou l2), dont la région centrale sera l'estimation l*, et aussi dans laquelle la vraie valeur du paramètre est susceptible d'être contenue, sera juste la confiance intervalle ohm ou la valeur correspondante du niveau de confiance alpha. Dans ce cas, l* lui-même fera référence à des estimations ponctuelles. Par exemple, sur la base des résultats de toutes les valeurs d'échantillon d'une valeur aléatoire X (x1, x2,..., xn), il est nécessaire de calculer un paramètre indicateur inconnu l, dont dépendra la distribution. Dans ce cas, obtenir une estimation du paramètre donné l* signifiera que pour chaque échantillon, il sera nécessaire de mettre en correspondance une valeur de paramètre, c'est-à-dire de créer une fonction des résultats de l'observation de l'indicateur Q, la valeur de qui sera pris égal à la valeur estimée du paramètre l* sous forme de formule : l*=Q*(x1, x2,..., xn).

Notez que toute fonction sur les résultats d'une observation est appelée une statistique. De plus, s'il décrit complètement le paramètre (phénomène) considéré, il est alors appelé statistique suffisante. Et parce que les résultats des observations sont aléatoires, alors l * sera aussi une variable aléatoire. La tâche de calcul des statistiques doit être effectuée en tenant compte des critères de sa qualité. Ici, il faut tenir compte du fait que la loi de distribution de l'estimation est bien définie, la distribution de la densité de probabilité W(x, l).

Vous pouvez calculer la confiance intervalle assez facile si vous connaissez la loi sur la distribution de l'évaluation. Par exemple, faites confiance intervalle estimations par rapport à l'espérance mathématique (valeur moyenne d'une valeur aléatoire) mx* =(1/n)*(x1+x2+ …+xn) . Cette estimation sera sans biais, c'est-à-dire que l'espérance mathématique ou la valeur moyenne de l'indicateur sera égale à la vraie valeur du paramètre (M(mx*) = mx).

Vous pouvez établir que la variance de l'estimation par espérance mathématique est : bx*^2=Dx/n. Sur la base du théorème central limite, nous pouvons tirer la conclusion appropriée que la loi de distribution de cette estimation est gaussienne (normale). Par conséquent, pour les calculs, vous pouvez utiliser l'indicateur Ф (z) - l'intégrale des probabilités. Dans ce cas, choisissez la durée de la fiducie intervalle et 2d, vous obtenez donc: alpha \u003d P (mx-ld (en utilisant la propriété de l'intégrale de probabilité selon la formule: Ф (-z) \u003d 1- Ф (z)).

Bâtir la confiance intervalle estimations de l'espérance mathématique : - trouver la valeur de la formule (alpha + 1) / 2 ; - sélectionner la valeur égale à ld / sqrt (Dx / n) dans le tableau des intégrales de probabilité ; - prendre l'estimation de la variance vraie : Dx * = (1 / n) * ( (x1 - mx*)^2+(x2 - mx*)^2+…+(xn - mx*)^2); intervalle selon la formule : (mx*-ld, mx*+ld).

Intervalle de confiance pour l'espérance mathématique - il s'agit d'un tel intervalle calculé à partir des données qui, avec une probabilité connue, contient l'espérance mathématique de la population générale. L'estimation naturelle de l'espérance mathématique est la moyenne arithmétique de ses valeurs observées. Par conséquent, plus loin au cours de la leçon, nous utiliserons les termes "moyenne", "valeur moyenne". Dans les problèmes de calcul de l'intervalle de confiance, la réponse la plus souvent requise est "L'intervalle de confiance du nombre moyen [valeur dans un problème spécifique] est de [plus petite valeur] à [ plus grande valeur]". À l'aide de l'intervalle de confiance, vous pouvez évaluer non seulement les valeurs moyennes, mais également la part de l'une ou l'autre caractéristique de la population générale. Valeurs moyennes, variance, écart-type et l'erreur par laquelle nous arriverons à de nouvelles définitions et formules sont analysées dans la leçon Caractéristiques de l'échantillon et de la population .

Estimations ponctuelles et d'intervalle de la moyenne

Si la valeur moyenne de la population générale est estimée par un nombre (point), alors une moyenne spécifique calculée à partir d'un échantillon d'observations est prise comme estimation de la moyenne inconnue de la population générale. Dans ce cas, la valeur moyenne de l'échantillon est Variable aléatoire- ne coïncide pas avec la valeur moyenne de la population générale. Par conséquent, lors de l'indication de la valeur moyenne de l'échantillon, il est également nécessaire d'indiquer l'erreur d'échantillon en même temps. L'erreur type est utilisée comme mesure de l'erreur d'échantillonnage, qui est exprimée dans les mêmes unités que la moyenne. Par conséquent, la notation suivante est souvent utilisée : .

Si l'estimation de la moyenne doit être associée à une certaine probabilité, alors le paramètre de la population générale d'intérêt doit être estimé non pas par un nombre unique, mais par un intervalle. Un intervalle de confiance est un intervalle dans lequel, avec une certaine probabilité, P la valeur de l'indicateur estimé de la population générale est trouvée. Intervalle de confiance dans lequel avec probabilité P = 1 - α est une variable aléatoire , se calcule comme suit :

,

α = 1 - P, que l'on peut trouver en annexe de presque tous les livres de statistiques.

En pratique, la moyenne et la variance de la population ne sont pas connues, de sorte que la variance de la population est remplacée par la variance de l'échantillon et la moyenne de la population par la moyenne de l'échantillon. Ainsi, l'intervalle de confiance dans la plupart des cas est calculé comme suit :

.

La formule de l'intervalle de confiance peut être utilisée pour estimer la moyenne de la population si

  • l'écart type de la population générale est connu ;
  • ou l'écart type de la population n'est pas connu, mais la taille de l'échantillon est supérieure à 30.

La moyenne de l'échantillon est une estimation non biaisée de la moyenne de la population. À son tour, la variance de l'échantillon n'est pas une estimation impartiale de la variance de la population . Pour obtenir une estimation non biaisée de la variance de la population dans la formule de variance de l'échantillon, la taille de l'échantillon est n devrait être remplacé par n-1.

Exemple 1 Des informations sont recueillies auprès de 100 cafés sélectionnés au hasard dans une certaine ville indiquant que le nombre moyen d'employés dans ces cafés est de 10,5 avec un écart type de 4,6. Déterminez l'intervalle de confiance de 95 % du nombre d'employés de café.

où est la valeur critique de la distribution normale standard pour le niveau de signification α = 0,05 .

Ainsi, l'intervalle de confiance à 95 % pour le nombre moyen d'employés de café était compris entre 9,6 et 11,4.

Exemple 2 Pour un échantillon aléatoire d'une population générale de 64 observations, les valeurs totales suivantes ont été calculées :

somme des valeurs dans les observations ,

somme des écarts au carré des valeurs par rapport à la moyenne .

Calculer l'intervalle de confiance à 95 % pour la valeur attendue.

calculer l'écart type :

,

calculer la valeur moyenne :

.

Remplacez les valeurs dans l'expression par l'intervalle de confiance :

où est la valeur critique de la distribution normale standard pour le niveau de signification α = 0,05 .

On a:

Ainsi, l'intervalle de confiance à 95 % pour l'espérance mathématique de cet échantillon variait de 7,484 à 11,266.

Exemple 3 Pour un échantillon aléatoire d'une population générale de 100 observations, une valeur moyenne de 15,2 et un écart type de 3,2 ont été calculés. Calculez l'intervalle de confiance à 95 % pour la valeur attendue, puis l'intervalle de confiance à 99 %. Si la puissance de l'échantillon et sa variation restent les mêmes, mais que le facteur de confiance augmente, l'intervalle de confiance se rétrécira-t-il ou s'élargira-t-il ?

Nous substituons ces valeurs dans l'expression de l'intervalle de confiance :

où est la valeur critique de la distribution normale standard pour le niveau de signification α = 0,05 .

On a:

.

Ainsi, l'intervalle de confiance à 95 % pour la moyenne de cet échantillon était de 14,57 à 15,82.

Encore une fois, nous substituons ces valeurs dans l'expression de l'intervalle de confiance :

où est la valeur critique de la distribution normale standard pour le niveau de signification α = 0,01 .

On a:

.

Ainsi, l'intervalle de confiance à 99 % pour la moyenne de cet échantillon était de 14,37 à 16,02.

Comme vous pouvez le voir, à mesure que le facteur de confiance augmente, la valeur critique de la distribution normale standard augmente également et, par conséquent, les points de début et de fin de l'intervalle sont situés plus loin de la moyenne, et donc l'intervalle de confiance pour l'espérance mathématique augmente.

Estimations ponctuelles et d'intervalle de la gravité spécifique

La part de certaines caractéristiques de l'échantillon peut être interprétée comme une estimation ponctuelle de la part p le même trait dans la population générale. Si cette valeur doit être associée à une probabilité, alors l'intervalle de confiance de la gravité spécifique doit être calculé p caractéristique dans la population générale avec une probabilité P = 1 - α :

.

Exemple 4 Il y a deux candidats dans une certaine ville UN et B candidat à la mairie. 200 habitants de la ville ont été interrogés au hasard, dont 46% ont répondu qu'ils voteraient pour le candidat UN, 26% - pour le candidat B et 28% ne savent pas pour qui ils voteront. Déterminer l'intervalle de confiance à 95 % pour la proportion d'habitants de la ville qui soutiennent le candidat UN.