corrélation (suite)
En 1901, Pearson a aussi proposé les rapports de corrélation qui, pour chaque variable, dépendent de la dispersion des moyennes conditionnelles de cette variable autour de sa moyenne générale. C’est ainsi que la corrélation de Y en X est caractérisée par la formule
nij étant le nombre des observations pour lesquelles on a simultanément X = xi et Y = yj, et la moyenne de la distribution conditionnelle de Y pour X = xi. Le rapport de corrélation qui se lit « êta deux » de Y si X (ou de Y en fonction de X), est nul si toutes les moyennes conditionnelles pour X = xi sont égales à la moyenne générale Dans ce cas, elles ne dépendent plus de X. Le rapport est égal à l’unité si, dans chaque distribution conditionnelle pour X = xi, toutes les valeurs de y sont égales à la moyenne conditionnelle (liaison fonctionnelle des moyennes).
Corrélation et causalité
Les calculs de coefficients de corrélation se généralisent au cas où l’on considère simultanément plus de deux variables. Moyennant l’hypothèse souvent acceptable d’une liaison approximativement linéaire entre l’une quelconque des variables et les autres, on peut alors, à partir des intercorrélations dans les divers groupes de deux variables, calculer soit des coefficients de corrélation partielle (étude de la dépendance entre deux variables, l’influence des autres étant éliminée), soit un coefficient de corrélation multiple (étude de la dépendance d’une variable en fonction de l’ensemble des autres). Un coefficient de corrélation, même élevé, entre deux variables n’implique pas entre elles une relation de cause à effet, une cause commune pouvant, par exemple, agir sur les deux variables : la nature profonde des problèmes de causalité n’est pas révélée par les calculs de corrélation, qui constituent seulement un guide pour orienter leur étude.
L’analyse des corrélations rend de grands services dans tous les domaines où la méthode expérimentale est, en général, impossible : biométrie, psychologie appliquée, sciences économiques. Elle permet non seulement d’éclairer des situations qui paraissent confuses en raison du grand nombre de variables qui interviennent, mais aussi de remplacer la mesure coûteuse ou difficile d’une variable par la mesure d’une autre variable étroitement liée à la première. L’analyse factorielle, qui cherche à expliquer les liaisons existant entre plusieurs variables observées sur une même unité statistique — à l’aide d’un nombre limité de facteurs indépendants, dont les variables observées peuvent être des combinaisons —, est fondée sur l’analyse des corrélations rjk, (j ≠ k = 1, 2..., n), calculées sur les n variables observées sur chacune des unités d’un groupe. Née des travaux de Charles Edward Spearman (1863-1945), qui, au début du siècle, se proposait de décrire l’intelligence d’un individu avec le plus petit nombre possible de traits les plus largement significatifs, et très utilisée en psychologie appliquée (théorie des tests), elle est maintenant largement utilisée dans les domaines les plus divers : anthropométrie, mesures physico-chimiques, sociologie, analyse des causes de certaines affections médicales, etc.
E. M.
➙ Association / Régression.