association statistique (suite)
Test de l’hypothèse d’indépendance
Si, dans une population, on prélève un échantillon de n individus sur lesquels on observe la présence des modalités des caractères A et B, et si, dans cette population, ces deux caractères sont indépendants, on constate cependant, en général, que les effectifs a, b, c, d figurant dans les cases du tableau de contingence ne sont pas égaux aux effectifs théoriques
correspondant à l’hypothèse d’indépendance.
Karl Pearson (1857-1936) a proposé de prendre comme indice du désaccord global entre l’observation et l’hypothèse d’indépendance la quantité
Pourvu qu’aucun des effectifs théoriques ne soit très petit, cette quantité suit une loi de probabilité dite « loi de χ2 » à un degré de liberté, et qui est tabulée : pour une valeur trouvée χ02, la table donne la probabilité P pour que χ2 > χ02 si l’hypothèse d’indépendance est vérifiée. Si cette probabilité est inférieure à un seuil fixé à l’avance, par exemple 0,05, on sera conduit à rejeter l’hypothèse d’indépendance, avec une probabilité P = 0,05 de rejeter une hypothèse cependant exacte.
Une méthode plus précise, consistant à calculer la probabilité totale d’un désaccord global, avec l’hypothèse d’indépendance, égal ou supérieur à celui constaté, a été proposée par sir Ronald Aylmer Fisher (1890-1962). C’est ainsi que, si l’effectif observé a de la case (A1, B1) est inférieur à sa valeur théorique α, on calcule, à partir des marges du tableau, la probabilité totale pour que l’effectif de cette case puisse prendre les valeurs 0, 1, ... a. Si cette probabilité est faible, on rejette l’hypothèse de l’indépendance. La méthode fondée sur la loi de χ2 ne tient compte que de la valeur absolue des écarts a – q, tandis que la méthode de Fisher tient compte du sens des écarts.
Le tableau de contingence précédemment défini peut être généralisé au cas où chacun des deux caractères (A, B) présente plus de deux modalités. Si A1 ... Ai ... Ak et B1 ... Bj ... Bh sont les diverses modalités possibles, l’observation conduit alors à un tableau contenant k × h cases.
L’association est encore testée en fonction des contingences des différentes cases du tableau, c’est-à-dire des différences entre les effectifs observés nij et les effectifs théoriques
qui correspondraient à l’hypothèse de l’indépendance. La quantité
suit encore une loi de χ2, mais avec (h – 1) × (k – 1) degrés de liberté (nombre des cases du tableau qui pourraient être remplies arbitrairement, compte tenu des effectifs marginaux).
Association partielle
Dans ce qui précède, on a considéré l’association entre deux caractères A et B, indépendamment de toute information relative aux modalités d’un autre caractère C. Si une telle information est disponible, il conviendra d’examiner l’association entre A et B dans une sous-population correspondant à une modalité particulière du caractère C, de manière à mettre en évidence l’effet éventuel de cette modalité. C’est ainsi que, étudiant l’hérédité de la couleur des yeux (clairs ou foncés) entre enfants (A), parents (B) et grands-parents (C), sir Francis Galton (1822-1911) a été amené à conclure au caractère ancestral de cette hérédité, indépendamment de l’hérédité directe entre C et B, et entre B et A.
E. M.