Grande Encyclopédie Larousse 1971-1976Éd. 1971-1976
D

distribution statistique (suite)

La présentation des tableaux à double entrée tient compte de ces particularités de manière à préciser correctement la correspondance entre les effectifs partiels nij et les caractéristiques (modalités, valeurs ou classes) auxquelles correspondent ces effectifs. Les problèmes posés au statisticien par ces distributions à deux variables portent essentiellement sur la recherche de la liaison entre les deux caractères A et E ou entre les deux variables X et Y : association, corrélation, régression. La présentation à l’aide d’un tableau unique de distributions à plus de deux variables est théoriquement irréalisable, chaque effectif partiel de l’ensemble observé devant être repéré par plus de deux coordonnées, ce qui n’est pas possible dans un plan. Mais dans le cas d’un petit nombre de caractères qualitatifs ou quantitatifs, ne comportant chacun que quelques modalités, valeurs ou classes, des artifices de disposition typographique (subdivisions, accolades, tableaux successifs, etc.) permettent cependant une présentation d’ensemble.

E. M.

➙ Association / Contrôle statistique / Corrélation / Estimation / Graphique statistique / Sondages.

 G. Calot, Cours de statistique descriptive (Dunod, 1964 ; nouv. éd., 1969).


Vocabulaire utilisé dans l’étude d’une distribution à un caractère


Caractéristiques de valeur centrale

médiale, valeur telle que la somme, jusqu’à cette valeur particulière, des observations rangées par ordre de grandeur soit égale à la moitié de la somme de toutes les valeurs de la distribution observée. Le salaire médial d’une distribution de salaires est le salaire tel que les ouvriers qui gagnent individuellement moins que ce salaire gagnent ensemble autant que ceux dont le salaire dépasse cette valeur.

médiane, valeur de la variable qui partage en deux effectifs égaux les valeurs observées rangées par ordre de grandeur. Dans le cas d’un nombre pair d’observations, elle est généralement définie par la moyenne arithmétique des deux valeurs centrales. Dans le cas d’observations groupées par classes, elle ne peut être définie qu’approximativement par interpolation dans la classe qui la contient. Elle satisfait aux conditions 1, 2, 3. Elle est plus sensible que la moyenne aux fluctuations d’échantillonnage. Mais, ne dépendant que du classement des valeurs ordonnées, elle élimine l’influence éventuelle des valeurs anormalement petites ou grandes aux extrémités de la distribution. L’écart absolu moyen par rapport à la médiane est minimal.

mode ou dominante, valeur la plus fréquente de la variable observée. Si la variable est discrète, le mode est, en général, bien défini ; si la variable est continue et répartie par classes, on ne peut que définir la classe modale qui correspond au maximum d’unités observées par unité d’intervalle de classe (classes de même amplitude). Le mode satisfait aux conditions 1, 2, 3, mais il ne dépend de toutes les observations que par leur fréquence et non par leur valeur.

moyenne, somme des valeurs observées, pondérées par leurs fréquences :

étant la fréquence des observations dans la classe d’effectif ni caractérisée par la valeur x = xi. Elle satisfait aux six conditions d’une caractéristique de tendance centrale ou de dispersion.


Caractéristiques de dispersion

coefficient de variation, quotient de l’écart type par la moyenne, généralement exprimé en pourcentage.

différence moyenne, moyenne arithmétique des valeurs absolues de toutes les différences que l’on peut former en associant les observations deux à deux, de toutes les manières possibles, y compris à elles-mêmes.

écart, valeur absolue de la différence entre une observation et une valeur particulière fixée a.

écart médian, valeur médiane de la série des écarts. Dans une distribution symétrique, il est égal à l’écart entre la moyenne et l’un quelconque des quartiles. Il est parfois appelé écart probable.

écart moyen, moyenne des écarts par rapport à une certaine origine, généralement la moyenne

écart type ou écart quadratique moyen, racine carrée de la variance. Dans le cas d’une variable continue, répartie en classes, le calcul de la variance étant fait à partir des centres de classes, une erreur par excès est d’autant plus faible que les classes sont de moindre amplitude.

étendue, différence entre la plus grande et la plus petite des observations. Bien que ne satisfaisant pas aux conditions 1 et 3, l’étendue, en raison de la simplicité de son calcul, est très souvent utilisée en contrôle statistique des fabrications, au lieu de l’écart type, pour caractériser la dispersion des mesures des pièces résultant d’une même fabrication.

fractile d’ordre α, (0 < α < 1), valeur de la variable telle qu’il y ait une fraction α des observations inférieure à cette valeur. Sa détermination, généralement approximative, n’a pratiquement de sens que dans le cas d’un effectif total important. On utilise plus particulièrement les quartiles ( avec k = 1, 2, 3) et les déciles ( avec k = 1, 2, ..., 9). La médiane, qui est le second quartile, et les deux autres quartiles partagent la population observée en quatre effectifs égaux.

indice de concentration, nombre sans dimension compris entre 0 et 1, égal à la moitié du quotient de la différence moyenne par la moyenne arithmétique. Proposé par le statisticien italien Corrado Gini (1884-1965), il est surtout utilisé pour la comparaison de séries économiques : distributions de salaires, de superficies d’exploitations agricoles, de chiffres d’affaires ou d’effectifs de salariés d’entreprises.

intervalle interfractile, différence entre deux fractiles, en général symétriques, d’ordre α et 1 – α. L’intervalle interquartile, par exemple, contient la moitié centrale des observations rangées par ordre de grandeur.

moment d’ordre q par rapport à une origine a, quantité

Les moments sont dits « centrés » lorsque l’on prend la moyenne comme origine : la variance est le moment centré d’ordre 2.