Grande Encyclopédie Larousse 1971-1976Éd. 1971-1976
T

test (suite)

Il est possible, tout d’abord, de définir « ce que mesure un test » par la situation elle-même utilisée dans ce test, par les « opérations » de mesure elles-mêmes. Ainsi, on peut convenir de définir « opérationnellement » l’intelligence par le degré de réussite dans l’échelle de Binet-Simon. Mais de telles définitions opérationnelles ont toujours un « contenu additionnel » : on constate que les enfants qui réussissent le mieux dans le Binet-Simon sont aussi, en moyenne, ceux qui réussissent le mieux dans plusieurs autres épreuves d’intelligence, qui ont les meilleurs résultats scolaires, qui sont issus de milieux culturellement favorisés, etc.

L’étude de ces corrélations peut être systématisée grâce à l’emploi de l’analyse* factorielle, surtout en ce qui concerne les corrélations entre plusieurs tests. On a pu constater que des corrélations plus élevées existaient entre certains tests (entre tests verbaux, entre tests numériques, entre tests spatiaux), ce qui constitue une contribution directe à la connaissance de l’organisation des différences individuelles.

De façon générale, il faut remarquer que des concepts comme ceux d’intelligence*, de mémoire*, etc., appartiennent à la langue commune et ne comportent pas alors de définition suffisamment explicite et précise pour que des questions telles que « le test mesure-t-il l’intelligence ? mesure-t-il la mémoire ? » puissent avoir un sens et comporter une réponse. Si, en employant plusieurs questions qui paraissent relever toutes de l’intelligence, par exemple, on obtient des réponses qui ne sont pas en corrélation entre elles, on sera amené à rejeter certaines de ces questions. Ce faisant, on construira un test plus homogène, mais, en même temps, on précisera les hypothèses implicites qui avaient conduit à choisir la série des questions initiales. C’est par l’usage et l’amélioration progressive des tests que l’on apprend quelque chose sur « ce qu’ils mesurent ».


Quelques aspects techniques

Les tests sont d’abord des situations soigneusement standardisées. Le matériel qu’ils utilisent est défini avec précision. On a constaté, en effet, que des changements d’apparence négligeable pouvaient modifier la difficulté ou la signification de la tâche proposée. La façon dont ce matériel est présenté au sujet examiné, tout ce que l’expérimentateur fait et dit sont précisés dans ce que l’on appelle la « consigne d’application » du test.

La description et l’appréciation des réponses peuvent utiliser différents procédés selon la nature de l’épreuve, mais ces procédés sont toujours définis de façon précise pour une épreuve donnée. On peut mesurer le temps mis par le sujet pour accomplir une tâche définie (par exemple trier par couleurs cent perles de couleurs différentes), le nombre d’essais qui lui est nécessaire pour réussir une tâche (par exemple répéter 10 chiffres sans erreur), compter le nombre d’erreurs qu’il commet, etc. Dans un grand nombre de tests collectifs composés de questions, la note est définie par le nombre de réponses exactes données par le sujet et il arrive souvent que l’on demande simplement au sujet de choisir, parmi plusieurs réponses proposées, celle qui lui paraît exacte (« questions à choix multiple » ou Q. C. M.). La simplicité de cette forme de réponse est parfaitement compatible avec des questions complexes, exigeant un raisonnement rigoureux.

Un test de type Q. C. M. peut facilement être « noté » par une machine mécanographique.

Un test est, en général, constitué de questions homogènes, de façon que la note, dans ce test, ait une signification univoque. Mais cette homogénéité peut comporter des niveaux différents. C’est ainsi que, si l’on recherche une estimation de l’intelligence globale ou générale, on pourra utiliser un test composé de questions n’ayant, en principe, que ce facteur en commun et qui soient aussi différentes que possible à tout autre point de vue. On peut considérer que l’échelle de Binet-Simon illustre cette possibilité.

L’homogénéité d’un test peut être appréciée par les corrélations observées entre les réponses à chacune des questions et le résultat global. Si l’on utilise des questions de difficulté croissante (la difficulté d’une question étant estimée par la proportion des sujets qui échouent à cette question), on pourra souhaiter que l’homogénéité du test se traduise par le fait que les sujets réussissant à une question de difficulté donnée aient tous réussi à toutes les questions de difficulté inférieure (« échelle de Guttman »).

Le test, dans son ensemble, présentera une difficulté plus ou moins grande pour une certaine catégorie de sujets. On considérera, en général, que sa difficulté est bien adaptée à une population de sujets si, dans celle-ci, la fréquence des notes inférieures est faible, si la fréquence des notes voisines de la moyenne est élevée et si la fréquence des notes supérieures est faible. Cette « distribution » des fréquences peut alors ressembler à la loi « normale » étudiée mathématiquement par Laplace et Gauss. On voit que la forme de la distribution peut être modifiée par l’emploi de questions plus faciles ou plus difficiles.

Il est nécessaire qu’un test soit suffisamment sensible ou classant, c’est-à-dire qu’il différencie suffisamment les sujets auxquels il est destiné. On comprend qu’un test très facile ou très difficile soit peu classant.

On exige d’un test qu’il soit suffisamment fidèle, c’est-à-dire que l’erreur, ou composante aléatoire des notes qu’il fournit, ne soit pas trop grande en moyenne. Pour estimer la fidélité d’un test, on peut utiliser différentes méthodes, qui consistent toutes à répéter la mesure, ce qui permet d’apprécier l’amplitude de la composante aléatoire. Ces différentes méthodes ne définissent pas de la même façon ce que l’on appelle l’erreur. On peut appliquer aux mêmes sujets le même test deux fois successivement, leur appliquer successivement deux versions parallèles du même test, obtenir sur chaque sujet deux notes en totalisant séparément les points obtenus dans deux moitiés du test (par exemple dans les questions de rang pair et dans celles de rang impair). Dans tous ces cas, l’estimation de la fidélité du test est fournie par le coefficient de corrélation entre les deux séries de notes ainsi obtenues.