Menu

Construction d'une série de variations discrètes. Construction de séries de distribution

Moteur et ses composants

Condition:

Il existe des données sur la composition par âge des travailleurs (années) : 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28. , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Construisez une série de distributions d’intervalles.
    2. Construire une représentation graphique de la série.
    3. Déterminez graphiquement le mode et la médiane.

Solution:

1) Selon la formule de Sturgess, la population doit être divisée en 1 + 3,322 lg 30 = 6 groupes.

Âge maximum - 38 ans, minimum - 18 ans.

Largeur de l'intervalle Puisque les extrémités des intervalles doivent être des nombres entiers, nous divisons la population en 5 groupes. Largeur d'intervalle - 4.

Pour faciliter les calculs, nous organiserons les données par ordre croissant : 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

Répartition par âge des travailleurs

Graphiquement, une série peut être représentée sous forme d'histogramme ou de polygone. Histogramme - graphique à barres. La base de la colonne est la largeur de l'intervalle. La hauteur de la colonne est égale à la fréquence.

Polygone (ou polygone de distribution) - graphique de fréquence. Pour le construire à l'aide d'un histogramme, nous connectons les milieux des côtés supérieurs des rectangles. On ferme le polygone sur l'axe Ox aux distances égal à la moitié intervalle à partir des valeurs extrêmes de x.

Le mode (Mo) est la valeur de la caractéristique étudiée, qui apparaît le plus fréquemment dans une population donnée.

Pour déterminer le mode à partir d'un histogramme, vous devez sélectionner le rectangle le plus haut, tracer une ligne du sommet droit de ce rectangle au coin supérieur droit du rectangle précédent, et depuis le sommet gauche du rectangle modal tracer une ligne jusqu'au sommet gauche du rectangle suivant. À partir du point d'intersection de ces lignes, tracez une perpendiculaire à l'axe des x. L’abscisse sera la mode. Mo ≈ 27,5. Cela signifie que l’âge le plus courant dans cette population est de 27 à 28 ans.

La médiane (Me) est la valeur de la caractéristique étudiée, qui se situe au milieu de la série de variations ordonnées.

On trouve la médiane à l'aide du cumulat. Cumule - un graphique des fréquences accumulées. Les abscisses sont des variantes d'une série. Les ordonnées sont des fréquences accumulées.

Pour déterminer la médiane sur le cumulat, on trouve un point le long de l'axe des ordonnées correspondant à 50% des fréquences cumulées (dans notre cas, 15), on trace une droite qui le traverse, parallèle à l'axe Ox, et à partir du point de son intersection avec le cumulat, tracez une perpendiculaire à l'axe des x. L'abscisse est la médiane. Moi ≈ 25,9. Cela signifie que la moitié des travailleurs de cette population ont moins de 26 ans.

Lors de la construction d'une série de distributions d'intervalles, trois questions sont résolues :

  • 1. Combien d’intervalles dois-je prendre ?
  • 2. Quelle est la durée des intervalles ?
  • 3. Quelle est la procédure à suivre pour inclure des unités de population dans les limites des intervalles ?
  • 1. Nombre d'intervalles peut être déterminé par Formule Sturgess:

2. Longueur de l'intervalle ou pas d'intervalle, généralement déterminé par la formule

R- plage de variation.

3. L'ordre d'inclusion des unités de population dans les limites de l'intervalle

peut être différent, mais lors de la construction d'une série d'intervalles, la distribution doit être strictement définie.

Par exemple, ceci : [), dans lequel les unités de population sont incluses dans les limites inférieures, mais ne sont pas incluses dans les limites supérieures, mais sont transférées vers l'intervalle suivant. L'exception à cette règle est le dernier intervalle dont la limite supérieure inclut le dernier numéro de la série classée.

Les limites des intervalles sont :

  • fermé - avec deux valeurs extrêmes de l'attribut ;
  • open - avec une valeur extrême de l'attribut tel ou tel numéro ou sur tel ou tel numéro).

Afin d'assimiler le matériel théorique, nous introduisons informations générales résoudre tâche de bout en bout.

Il existe des données conditionnelles sur le nombre moyen de directeurs commerciaux, le nombre de produits similaires vendus par eux, les individus prix du marché pour ce produit, ainsi que le volume des ventes de 30 entreprises dans l'une des régions de la Fédération de Russie au cours du premier trimestre de l'année de référence (tableau 2.1).

Tableau 2.1

Premières informations pour une tâche transversale

Nombre

les gestionnaires,

Prix, mille roubles

Volume des ventes, millions de roubles.

Nombre

les gestionnaires,

Quantité de marchandises vendues, pcs.

Prix, mille roubles

Volume des ventes, millions de roubles.

Sur la base des informations initiales et des informations complémentaires, nous définirons des tâches individuelles. Nous présenterons ensuite la méthodologie pour les résoudre et les solutions elles-mêmes.

Tâche transversale. Tâche 2.1

Utilisation des données initiales du tableau. 2.1 requis construire série discrète répartition des entreprises par quantité de biens vendus (tableau 2.2).

Solution:

Tableau 2.2

Série discrète de répartition des entreprises par quantité de biens vendus dans l'une des régions de la Fédération de Russie au premier trimestre de l'année de référence

Tâche transversale. Tâche 2.2

requis construire une série classée de 30 entreprises en fonction du nombre moyen de dirigeants.

Solution:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

Tâche transversale. Tâche 2.3

Utilisation des données initiales du tableau. 2.1, requis:

  • 1. Construire une série d'intervalles de répartition des entreprises par nombre de dirigeants.
  • 2. Calculez les fréquences des séries de distribution des entreprises.
  • 3. Tirez des conclusions.

Solution:

Calculons en utilisant la formule de Sturgess (2.5) nombre d'intervalles:

Ainsi, nous prenons 6 intervalles (groupes).

Durée de l'intervalle, ou pas d'intervalle, calculez à l'aide de la formule

Note. L'ordre d'inclusion des unités de population dans les limites de l'intervalle est le suivant : I), dans lequel les unités de population sont incluses dans les limites inférieures, mais ne sont pas incluses dans les limites supérieures, mais sont transférées à l'intervalle suivant. L'exception à cette règle est le dernier intervalle I], dont la limite supérieure inclut le dernier numéro de la série classée.

Nous construisons une série d'intervalles (tableau 2.3).

Série d'intervalles de répartition des entreprises et nombre moyen de dirigeants dans l'une des régions de la Fédération de Russie au premier trimestre de l'année de référence

Conclusion. Le plus grand groupe d'entreprises est celui avec nombre moyen managers 25-30 personnes, dont 8 entreprises (27%) ; Le plus petit groupe avec un nombre moyen de managers de 40 à 45 personnes ne comprend qu'une seule entreprise (3 %).

Utilisation des données initiales du tableau. 2.1, ainsi qu'une série d'intervalles de répartition des entreprises par nombre de dirigeants (tableau 2.3), requis construire un regroupement analytique de la relation entre le nombre de dirigeants et le volume des ventes des entreprises et, sur cette base, tirer une conclusion sur la présence (ou l'absence) d'une relation entre ces caractéristiques.

Solution:

Le regroupement analytique est basé sur les caractéristiques factorielles. Dans notre problème, la caractéristique factorielle (x) est le nombre de managers, et la caractéristique résultante (y) est le volume des ventes (tableau 2.4).

Construisons maintenant regroupement analytique(Tableau 2.5).

Conclusion. Sur la base des données du groupement analytique construit, on peut dire qu'avec une augmentation du nombre de directeurs commerciaux, le volume moyen des ventes de l'entreprise dans le groupe augmente également, ce qui indique la présence d'un lien direct entre ces caractéristiques.

Tableau 2.4

Tableau auxiliaire pour construire un regroupement analytique

Nombre de managers, de personnes,

Numéro d'entreprise

Volume des ventes, millions de roubles, y

" = 59 f = 9,97

I-™ 4 - Yu.22

74'25 1PY1

U4 = 7 = 10,61

à = ’ =10,31 30

Tableau 2.5

Dépendance des volumes de ventes sur le nombre de chefs d'entreprise dans l'une des régions de la Fédération de Russie au premier trimestre de l'année de référence

QUESTIONS D'EXAMEN
  • 1. Quelle est l’essence de l’observation statistique ?
  • 2. Nommez les étapes de l'observation statistique.
  • 3. Quelles sont les formes organisationnelles de l'observation statistique ?
  • 4. Nommez les types d'observations statistiques.
  • 5. Qu'est-ce qu'un résumé statistique ?
  • 6. Nommez les types de rapports statistiques.
  • 7. Qu'est-ce que le regroupement statistique ?
  • 8. Nommez les types de regroupements statistiques.
  • 9. Qu'est-ce qu'une série de distribution ?
  • 10. Nommez les éléments structurels de la ligne de distribution.
  • 11. Quelle est la procédure pour construire une série de distribution ?

Les caractéristiques étudiées par les statistiques varient (diffèrent les unes des autres) entre différentes unités de la population à la même période ou à un même moment. Par exemple, le montant du chiffre d'affaires du commerce extérieur varie selon les divisions du Service fédéral des douanes ; le montant des exportations (importations) varie selon la direction des exportations (pour les différents pays partenaires du commerce extérieur), selon le type de marchandises, etc.

Raison variantes sont conditions différentes existence de différentes unités de la totalité. Par exemple, un grand nombre les raisons affectent l'ampleur du commerce extérieur divers pays paix.

Pour gérer et étudier la variation par les statistiques, des méthodes spéciales d'étude de la variation ont été développées, un système d'indicateurs à l'aide duquel la variation est mesurée et ses propriétés sont caractérisées.

La première étape étude statistique la variation est une construction série de distribution(ou série de variations) – une répartition ordonnée des unités de population selon les valeurs croissantes (plus souvent) ou décroissantes (moins souvent) d'une caractéristique et en comptant le nombre d'unités avec une valeur particulière de la caractéristique.

Il y en a 3 gentil ligne de répartition :

1) série classée– il s'agit d'une liste d'unités individuelles de la population par ordre croissant de la caractéristique étudiée (par exemple, tableau 11) ; si le nombre d'unités de population est suffisamment grand, la série classée devient lourde, et dans de tels cas, la série de distribution est construite en regroupant les unités de population selon les valeurs de la caractéristique étudiée (si la caractéristique prend un petit nombre de valeurs , alors une série discrète est construite, et sinon, une série d'intervalles) ;

2) série discrète- il s'agit d'un tableau composé de deux colonnes (lignes) - valeurs spécifiques d'une caractéristique variable XI et le nombre d'unités de population avec une valeur caractéristique donnée fi– les fréquences ; le nombre de groupes dans une série discrète est déterminé par le nombre de valeurs réellement existantes de la caractéristique variable ;

3) série d'intervalles- il s'agit d'un tableau composé de deux colonnes (lignes) - intervalles de caractéristiques variables XI et le nombre d'unités de population tombant dans un intervalle donné (fréquences), ou la proportion de ce nombre dans le nombre total de populations (fréquences).

Construisons une série de répartition du chiffre d'affaires du commerce extérieur (FO) aux postes de douane en Russie, pour laquelle il est nécessaire de procéder à une observation statistique, c'est-à-dire de collecter du matériel statistique primaire, qui représente la valeur du VO aux postes de douane.

Nous présenterons les résultats de l'observation du VO dans 35 postes de douane de la région pour la période de référence sous la forme d'une série de répartition classée par valeur croissante du VO (tableau 11).

Tableau 11. Chiffre d'affaires du commerce extérieur (FO) pour 35 postes de douane, en millions de dollars.

Numéro de poste

Numéro de poste

Numéro de poste

Définissons taille moyenne VO selon la formule (10), en prenant comme X la valeur de VO, et pour N– nombre de postes :

= = 2100/35 = 60 (millions de dollars)

Nous déterminerons la variance (nous en reparlerons un peu plus tard - à la 4ème étape de l'analyse de variation dans ce sujet) à l'aide de la formule (28) :

= = 445,778 (millions de dollars 2)

Construisons une série d'intervalles de distribution de VO par postes de douane, pour laquelle il est nécessaire de sélectionner le nombre optimal de groupes (intervalles d'attributs) et de définir la longueur (plage) de l'intervalle. Étant donné que lors de l'analyse d'une série de distribution, les fréquences de différents intervalles sont comparées, il est nécessaire que la longueur des intervalles soit constante. Le nombre optimal de groupes est sélectionné de manière à ce que la diversité des valeurs d'attribut dans l'agrégat soit suffisamment reflétée et, en même temps, le modèle de distribution ne soit pas déformé par des fluctuations de fréquence aléatoires. S’il y a trop peu de groupes, le modèle de variation n’apparaîtra pas ; s'il y a trop de groupes, des sauts de fréquence aléatoires déformeront la forme de la distribution.

Le plus souvent, le nombre de groupes dans une série de distribution est déterminé à l'aide de la formule de Sturgess (19) ou (20) :

(19) ou ,(20)

k– nombre de groupes (arrondi à l'entier le plus proche) ; N– la taille de la population.

D'après la formule de Sturgess, il ressort clairement que le nombre de groupes est fonction du volume de données ( N).

Connaissant le nombre de groupes, calculez la longueur (étendue) de l'intervalle à l'aide de la formule (21) :

,(21)

X maximum et X min - valeurs maximales et minimales au total.

Dans notre exemple sur VO, en utilisant la formule de Sturgess (19), nous déterminons le nombre de groupes :

k = 1 + 3,322LG 35 = 1+ 3,322*1,544 = 6,129 ≈ 6.

Calculons la longueur (étendue) de l'intervalle à l'aide de la formule (21) :

h= (111,16 – 24,16)/6 = 87/6 = 14,5 (millions de dollars).

Construisons maintenant une série d'intervalles avec 6 groupes avec un intervalle de 14,5 millions de dollars. (voir les 3 premières colonnes du tableau 12).

Tableau 12. Série d'intervalles de répartition des VO par postes de douane, en millions de dollars.

Groupes de messages par taille de VO

Nombre de messages

Milieu de l'intervalle

X je' fi

Accumulation fréquence

| XI- |fi

(Xje- )2 fi

(Xje- )3 fi

(Xje- )4 fi

96,66 – 111,16

Une représentation graphique fournit une aide significative dans l'analyse de la série de distribution et de ses propriétés. Une série d'intervalles est représentée par un graphique à barres, dans lequel les bases des barres situées le long de l'axe des abscisses sont les intervalles de valeurs de la caractéristique variable, et les hauteurs des barres sont les fréquences correspondant à l'échelle le long de l'ordonnée. axe. Une représentation graphique de la répartition des postes de douane dans l'échantillon en fonction de la valeur de VO est présentée sur la Fig. 4. Ce type de diagramme est appelé histogramme .

Riz. 4. Histogramme de distribution Fig. 5. Polygone de distribution

Données du tableau 12 et fig. 4 montrent une forme de distribution caractéristique de nombreuses caractéristiques : les valeurs des intervalles moyens de la caractéristique sont plus courantes et les valeurs extrêmes (petites et grandes) de la caractéristique sont moins courantes. La forme de cette distribution est proche de la loi de distribution normale, qui se forme lorsqu'une variable variable est influencée par un grand nombre de facteurs, dont aucun n'a une signification prédominante.

S'il existe une série de distribution discrète ou si les milieux des intervalles sont utilisés (comme dans notre exemple sur VO - dans le tableau 12 de la 4ème colonne, les milieux des intervalles sont calculés comme la demi-somme des valeurs du début et fin de l'intervalle), alors la représentation graphique d'une telle série est appelée polygone(voir Fig. 5), qui est obtenu en reliant les points avec des coordonnées avec des lignes droites XI Et fi.

Ils sont présentés sous forme de séries de distribution et sont présentés sous forme.

Une série de distribution est l'un des types de regroupements.

Plage de distribution- représente une répartition ordonnée des unités de la population étudiée en groupes selon une certaine caractéristique variable.

Selon la caractéristique qui sous-tend la formation des séries de distribution, on les distingue attributif et variationnel lignes de distribution :

  • Attributif- sont appelées séries de distribution construites selon des caractéristiques qualitatives.
  • Les séries de distribution construites par ordre croissant ou décroissant de valeurs d'une caractéristique quantitative sont appelées variationnel.
La série de variations de la distribution se compose de deux colonnes :

La première colonne fournit des valeurs quantitatives des caractéristiques variables, appelées choix et sont désignés. Option discrète - exprimée sous forme d'entier. L'option d'intervalle va de et à. Selon le type d'options, vous pouvez construire une série de variations discrètes ou à intervalles.
La deuxième colonne contient nombre d'options spécifiques, exprimé en termes de fréquences ou fréquences :

Fréquences- ce sont des nombres absolus indiquant combien de fois au total cela se produit valeur donnée des signes qui indiquent. La somme de toutes les fréquences doit être égale au nombre d’unités dans l’ensemble de la population.

Fréquences() sont des fréquences exprimées en pourcentage du total. La somme de toutes les fréquences exprimées en pourcentages doit être égale à 100 % en fractions de un.

Représentation graphique des séries de distribution

Les séries de distribution sont présentées visuellement à l'aide d'images graphiques.

Les séries de distribution sont représentées comme suit :
  • Polygone
  • Histogrammes
  • Cumule
  • Ogives

Polygone

Lors de la construction d'un polygone, les valeurs de la caractéristique variable sont tracées sur l'axe horizontal (axe des x) et les fréquences ou fréquences sont tracées sur l'axe vertical (axe des y).

Le polygone de la Fig. 6.1 est basé sur les données du micro-recensement de la population russe de 1994.

6.1. Répartition par taille des ménages

Condition: Des données sont fournies sur la répartition des 25 salariés d'une des entreprises selon les catégories tarifaires :
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Tâche: Construisez une série de variations discrètes et représentez-la graphiquement sous la forme d'un polygone de distribution.
Solution:
DANS dans cet exemple les options sont catégorie tarifaire employé. Pour déterminer les fréquences, il est nécessaire de calculer le nombre de salariés avec la catégorie tarifaire correspondante.

Le polygone est utilisé pour les séries à variations discrètes.

Pour construire un polygone de distribution (Fig. 1), nous traçons les valeurs quantitatives des différentes caractéristiques - options - sur l'axe des abscisses (X) et les fréquences ou fréquences sur l'axe des ordonnées.

Si les valeurs d'une caractéristique sont exprimées sous forme d'intervalles, alors une telle série est appelée intervalle.
Série d'intervalles les distributions sont représentées graphiquement sous la forme d'un histogramme, d'un cumul ou d'une ogive.

Tableau statistique

Condition: Les données sur la taille des dépôts sont données 20 individus dans une banque (milliers de roubles) 60 ; 25 ; 12 ; 10 ; 68 ; 35 ; 2 ; 17 ; 51 ; 9 ; 3 ; 130 ; 24 ; 85 ; 100 ; 152 ; 6 ; 18 ; 7 ; 42.
Tâche: Construire une série de variations d'intervalles avec des intervalles égaux.
Solution:

  1. La population initiale est composée de 20 unités (N = 20).
  2. À l'aide de la formule de Sturgess, nous déterminons le nombre requis de groupes utilisés : n=1+3,322*lg20=5
  3. Calculons la valeur de l'intervalle égal : i=(152 - 2) /5 = 30 000 roubles
  4. Divisons la population initiale en 5 groupes avec un intervalle de 30 000 roubles.
  5. Nous présentons les résultats de regroupement dans le tableau :

Avec un tel enregistrement d'une caractéristique continue, lorsque la même valeur apparaît deux fois (comme limite supérieure d'un intervalle et limite inférieure d'un autre intervalle), alors cette valeur appartient au groupe où cette valeur agit comme limite supérieure.

Histogramme

Pour construire un histogramme, les valeurs des limites des intervalles sont indiquées le long de l'axe des abscisses et, à partir d'elles, des rectangles sont construits dont la hauteur est proportionnelle aux fréquences (ou fréquences).

Sur la fig. 6.2. montre un histogramme de la répartition de la population russe en 1997 par tranche d'âge.

Riz. 6.2. Répartition de la population russe par tranches d'âge

Condition: La répartition des 30 salariés de l'entreprise par salaire mensuel est donnée

Tâche: Afficher graphiquement la série de variation d'intervalle sous forme d'histogramme et cumuler.
Solution:

  1. La limite inconnue de l'intervalle ouvert (premier) est déterminée par la valeur du deuxième intervalle : 7 000 - 5 000 = 2 000 roubles. Avec la même valeur, nous trouvons la limite inférieure du premier intervalle : 5 000 - 2 000 = 3 000 roubles.
  2. Pour construire un histogramme dans un repère rectangulaire, on trace le long de l'axe des abscisses les segments dont les valeurs correspondent aux intervalles de la série variqueuse.
    Ces segments servent de base inférieure et la fréquence (fréquence) correspondante sert de hauteur aux rectangles formés.
  3. Construisons un histogramme :

Pour construire des cumulats, il faut calculer les fréquences accumulées (fréquences). Ils sont déterminés en additionnant séquentiellement les fréquences (fréquences) des intervalles précédents et sont désignés S. Les fréquences accumulées montrent combien d'unités de la population ont une valeur caractéristique non supérieure à celle considérée.

Cumule

La distribution d'une caractéristique dans une série de variations sur des fréquences accumulées (fréquences) est représentée à l'aide d'un cumulat.

Cumule ou une courbe cumulative, contrairement à un polygone, est construite à partir de fréquences ou de fréquences accumulées. Dans ce cas, les valeurs de la caractéristique sont placées sur l'axe des abscisses et les fréquences ou fréquences accumulées sont placées sur l'axe des ordonnées (Fig. 6.3).

Riz. 6.3. Cumule la répartition par taille des ménages

4. Calculons les fréquences accumulées :
La fréquence cumulée du premier intervalle est calculée comme suit : 0 + 4 = 4, pour le second : 4 + 12 = 16 ; pour le troisième : 4 + 12 + 8 = 24, etc.

Lors de la construction d'un cumulat, la fréquence accumulée (fréquence) de l'intervalle correspondant est affectée à sa limite supérieure :

Ogive

Ogive est construit de la même manière qu'un cumulat à la seule différence que les fréquences accumulées sont placées sur l'axe des abscisses, et les valeurs caractéristiques sont placées sur l'axe des ordonnées.

Un type de cumulat est une courbe de concentration ou un tracé de Lorentz. Pour construire une courbe de concentration, une échelle en pourcentages de 0 à 100 est tracée sur les deux axes du système de coordonnées rectangulaires. En même temps, les fréquences cumulées sont indiquées sur l'axe des abscisses, et les valeurs cumulées de la part. (en pourcentage) en volume de la caractéristique sont indiqués sur l'axe des ordonnées.

La répartition uniforme de la caractéristique correspond à la diagonale du carré sur le graphique (Fig. 6.4). Avec une répartition inégale, le graphique représente une courbe concave en fonction du niveau de concentration du trait.

6.4. Courbe de concentration

Dans de nombreux cas, lorsqu'une population statistique comprend un nombre important, voire infini, de variantes, ce qui se produit le plus souvent avec une variation continue, il est pratiquement impossible et peu pratique de former un groupe d'unités pour chaque variante. Dans de tels cas, la combinaison d'unités statistiques en groupes n'est possible que sur la base d'un intervalle, c'est-à-dire un tel groupe qui a certaines limites pour les valeurs d'une caractéristique variable. Ces limites sont indiquées par deux chiffres indiquant les limites supérieure et inférieure de chaque groupe. L'utilisation d'intervalles conduit à la formation d'une série de distribution d'intervalles.

Rad d'intervalle est une série de variations dont les variantes sont présentées sous forme d'intervalles.

Une série d'intervalles peut être constituée d'intervalles égaux et inégaux, tandis que le choix du principe de construction de cette série dépend principalement du degré de représentativité et de commodité de la population statistique. Si la population est suffisamment grande (représentative) en termes de nombre d'unités et est totalement homogène dans sa composition, alors il convient de baser la formation d'une série d'intervalles sur l'égalité des intervalles. Habituellement, en utilisant ce principe, une série d'intervalles est formée pour les populations où la plage de variation est relativement petite, c'est-à-dire les options maximales et minimales diffèrent généralement plusieurs fois les unes des autres. Dans ce cas, la valeur des intervalles égaux est calculée par le rapport de la plage de variation d'une caractéristique à un nombre donné d'intervalles formés. Pour déterminer l'égalité Et intervalle, la formule de Sturgess peut être utilisée (généralement avec une petite variation dans les caractéristiques de l'intervalle et grand nombre unités dans l’agrégat statistique) :

où x je - valeur d'intervalle égale ; X max, X min - options maximales et minimales dans un agrégat statistique ; n . - le nombre d'unités au total.

Exemple. Il est conseillé de calculer la taille d'un intervalle égal pour la densité de contamination radioactive au césium - 137 dans 100 agglomérations du district de Krasnopolsky de la région de Mogilev, si l'on sait que l'option initiale (minimum) est égale à I km / km 2, la finale ( maximum) - 65 ki/km 2. En utilisant la formule 5.1. on obtient :

Par conséquent, afin de former une série d'intervalles avec des intervalles égaux en termes de densité de contamination par le césium - 137 agglomérations dans la région de Krasnopolsky, la taille de l'intervalle égaux peut être de 8 ki/km 2 .

Dans des conditions de répartition inégale, c'est-à-dire lorsque les options maximales et minimales sont des centaines de fois, lors de la formation d'une série d'intervalles, vous pouvez appliquer le principe inégal intervalles. Les intervalles inégaux augmentent généralement à mesure que nous avançons vers grandes valeurs signe.

La forme des intervalles peut être fermée ou ouverte. Fermé Il est d'usage d'appeler des intervalles qui ont à la fois des limites inférieures et supérieures. Ouvrir les intervalles n'ont qu'une seule limite : dans le premier intervalle il y a une limite supérieure, dans le dernier il y a une limite inférieure.

Il est conseillé d'évaluer les séries d'intervalles, notamment à intervalles inégaux, en tenant compte densité de distribution, la façon la plus simple de calculer quel est le rapport entre la fréquence locale (ou la fréquence) et la taille de l'intervalle.

Pour former pratiquement une série d'intervalles, vous pouvez utiliser la disposition du tableau. 5.3.

Tableau 5.3. La procédure pour former une série d'intervalles colonies District de Krasnopolsky selon la densité de contamination radioactive au césium -137

Le principal avantage de la série d'intervalles est son maximum compacité. en même temps, dans la série de distribution d'intervalles, des variantes individuelles de la caractéristique sont cachées dans les intervalles correspondants

Lors de la représentation graphique d'une série d'intervalles dans un système de coordonnées rectangulaires, les limites supérieures des intervalles sont tracées sur l'axe des abscisses et les fréquences locales de la série sont tracées sur l'axe des ordonnées. La construction graphique d'une série d'intervalles diffère de la construction d'un polygone de distribution en ce que chaque intervalle a des limites inférieures et supérieures et que deux abscisses correspondent à une valeur d'ordonnée. Par conséquent, sur le graphique d'une série d'intervalles, ce n'est pas un point qui est marqué, comme dans un polygone, mais une ligne reliant deux points. Ces lignes horizontales sont reliés les uns aux autres par des lignes verticales et on obtient la figure d'un polygone en escalier, généralement appelé histogramme distribution (Fig. 5.3).

Lors de la construction graphique d'une série d'intervalles pour une population statistique suffisamment grande, l'histogramme se rapproche symétrique forme de distribution. Dans les cas où la population statistique est petite, en règle générale, asymétrique histogramme.

Dans certains cas, il est conseillé de former une série de fréquences accumulées, c'est-à-dire cumulatif rangée. Une série cumulative peut être formée sur la base d'une série de distribution discrète ou par intervalles. Lors de la représentation graphique d'une série cumulative dans un système de coordonnées rectangulaires, les variantes sont tracées sur l'axe des abscisses et les fréquences accumulées (fréquences) sont tracées sur l'axe des ordonnées. La ligne courbe résultante est généralement appelée cumulatif distribution (Fig. 5.4).

Formation et représentation graphique différents types les séries de variations contribuent à un calcul simplifié des principaux caractéristiques statistiques, qui sont abordés en détail dans le thème 6, permet de mieux comprendre l'essence des lois de distribution d'une population statistique. L'analyse d'une série de variations acquiert une importance particulière dans les cas où il est nécessaire d'identifier et de retracer la relation entre les options et les fréquences (fréquences). Cette dépendance se manifeste par le fait que le nombre de cas par option est d'une certaine manière lié à la taille de cette option, c'est-à-dire avec des valeurs croissantes de la caractéristique variable, les fréquences (fréquences) de ces valeurs subissent certains changements systématiques. Cela signifie que les nombres dans la colonne fréquence (fréquence) ne fluctuent pas de manière chaotique, mais changent dans une certaine direction, dans un certain ordre et séquence.

Si les fréquences montrent une certaine systématicité dans leurs changements, cela signifie que nous sommes sur la bonne voie pour identifier un modèle. Le système, l'ordre, la séquence des changements de fréquence sont le reflet des causes générales, conditions générales, caractéristique de l’ensemble de la population.

Il ne faut pas supposer que le modèle de distribution est toujours donné sous une forme toute faite. Il existe de nombreuses séries de variations dans lesquelles les fréquences sautent bizarrement, parfois en augmentant, parfois en diminuant. Dans de tels cas, il est conseillé de rechercher à quel type de distribution le chercheur a affaire : soit cette distribution ne présente aucun modèle inhérent, soit sa nature n'a pas encore été révélée : le premier cas est rare, mais le second Ce cas est un phénomène assez courant et très répandu.

Ainsi, lors de la formation d'une série d'intervalles, le nombre total d'unités statistiques peut être faible et chaque intervalle contient un petit nombre de variantes (par exemple, 1 à 3 unités). Dans de tels cas, on ne peut compter sur la manifestation d’aucun schéma. Pour qu'un résultat naturel soit obtenu à partir d'observations aléatoires, il est nécessaire que la loi entre en vigueur grands nombres, c'est-à-dire de sorte que pour chaque intervalle il y aurait non pas plusieurs, mais des dizaines et des centaines d'unités statistiques. Pour cela, il faut essayer d'augmenter le plus possible le nombre d'observations. C’est le moyen le plus sûr de détecter des modèles dans les processus de masse. S'il n'y a pas de réelle opportunité d'augmenter le nombre d'observations, l'identification d'une tendance peut être obtenue en réduisant le nombre d'intervalles dans la série de distribution. En réduisant le nombre d'intervalles dans une série de variations, le nombre de fréquences dans chaque intervalle augmente ainsi. Cela signifie que les fluctuations aléatoires de chaque unité statistique se superposent, « lissées », se transformant en un motif.

La formation et la construction de séries de variations permettent d'obtenir uniquement une image générale et approximative de la répartition de la population statistique. Par exemple, un histogramme n'exprime que sous forme approximative la relation entre les valeurs d'une caractéristique et ses fréquences (fréquences). Par conséquent, les séries de variations ne sont essentiellement que la base d'une étude plus approfondie des lois internes de la statique. distribution.

QUESTIONS DE TEST POUR LE SUJET 5

1. Qu’est-ce que la variation ? Qu’est-ce qui cause la variation d’un trait dans une population statistique ?

2. Quels types de caractéristiques variables peuvent apparaître dans les statistiques ?

3. Qu'est-ce qu'une série de variations ? Quels types de séries de variations peut-il y avoir ?

4. Qu'est-ce qu'une série classée ? Quels sont ses avantages et ses inconvénients ?

5. Qu'est-ce qu'une série discrète et quels sont ses avantages et ses inconvénients ?

6. Quelle est la procédure pour former une série d'intervalles, quels sont ses avantages et ses inconvénients ?

7. Qu'est-ce qu'une représentation graphique de séries de distribution d'intervalles classées et discrètes ?

8. Qu'est-ce que le cumul de distribution et que caractérise-t-il ?