Éd. 1971-1976

test (suite)

L’étalonnage d’un test permet d’exprimer une note individuelle par rapport aux notes observées dans une population de sujets. Les données expérimentales nécessaires à l’étalonnage sont recueillies en appliquant le test qui doit être étalonné à un échantillon important et aussi représentatif que possible de la population. On peut, alors, construire des tables numériques (tables d’étalonnage) fournissant par simple lecture la proportion de sujets qui, dans la population, ont dépassé (ou n’ont pas atteint) chacun des résultats individuels, que l’on doit interpréter. On voit que le test fournit essentiellement un moyen de classer un individu par rapport à un autre ou au sein d’une population. On souhaite souvent conférer à ce classement des propriétés plus nombreuses. En particulier, on souhaite souvent pouvoir comparer en un sens définissable l’intervalle entre deux notes et l’intervalle entre deux autres, et pouvoir faire ainsi des sommes d’intervalles (ce qui est nécessaire notamment pour que le calcul d’une note moyenne ait un sens). On postule, alors, que la distribution théorique des notes au test, dans cette population, a une certaine forme. En général, on postule que cette distribution est normale (loi de Laplace-Gauss). On peut, alors, établir des classes de notes dont les limites soient équidistantes sur une telle distribution. Le tableau fournissant ces limites constitue une échelle normalisée, ou étalonnage normalisé. Les formes d’étalonnage qui viennent d’être évoquées ont leur origine dans les travaux de Galton. Binet a utilisé une autre forme d’étalonnage. Les données expérimentales sont ici recueillies sur des enfants d’âge croissant. On dispose ainsi des résultats moyens obtenus par des enfants de six ans, sept ans, huit ans, etc. Le résultat obtenu dans le test par un enfant particulier (quel que soit son âge) est comparé à cette série de jalons. Si ce résultat est égal à celui qui est obtenu en moyenne par les enfants de sept ans, on dira que l’enfant dont il s’agit a sept ans d’« âge mental ». On peut comparer l’âge mental et l’âge réel d’un enfant, et constater qu’il a un certain nombre d’années d’« avance » ou de « retard » intellectuels. Les successeurs de Binet ont effectué cette comparaison sous forme de « quotient d’intelligence », ou Q. I. : c’est le quotient de l’âge mental par l’âge réel, quotient traditionnellement exprimé en centièmes pour la commodité. Un Q. I. égal à 100 est donc celui d’un enfant qui ne s’est développé ni plus vite ni plus lentement que la moyenne des enfants.

La notion de validité peut se définir de différentes façons. Nous dirons, de façon générale, qu’un test est valide dans la mesure où ses résultats sont interprétables. On dit, en particulier, qu’un test est valide s’il permet de prévoir des résultats qui seront observés ultérieurement dans un certain critère de réussite scolaire ou professionnelle. Dans certains cas, la validité du test découle de son mode de construction : une série de questions extraites d’un programme scolaire constitueront une épreuve interprétable en termes de connaissance de ce programme.

Les principales catégories de tests

Tests d’intelligence

Une première catégorie est constituée par les épreuves de niveau mental dérivées de l’échelle de Binet-Simon. Il s’agit toujours d’une série de tâches de difficulté croissante, d’application individuelle et fournissant un résultat global, le quotient d’intelligence. Le Binet-Simon n’est plus guère utilisé sous sa forme initiale. En France, des travaux animés par R. Zazzo en ont fourni des réétalonnages et des révisions. Aux États-Unis, il a été traduit et adapté plusieurs fois, notamment par L. M. Terman, L. M. Terman et A. Merrill, D. Wechsler. Ce dernier auteur a introduit une façon différente de calculer le Q. I. et une distinction entre deux Q. I., l’un fondé sur des épreuves verbales (Q. I. « verbal »), l’autre sur des épreuves non verbales (Q. I. « performance ») ; il a publié deux échelles, l’une pour enfants (de 5 ans à 16 ans), l’autre pour adultes. Des échelles de même forme ont été mises au point pour enfants d’âge préscolaire (baby test). La plus connue est celle de A. Gesell étalonnée en France par O. Brunet et I. Lézine. Elle s’applique à des enfants de 4 à 60 semaines. Une échelle individuelle de développement intellectuel fondée sur un principe différent est celle de F. Longeot. Elle utilise la théorie de Piaget* sur le développement de l’intelligence et permet un diagnostic du stade de développement atteint par le sujet.

D’autres tests d’intelligence se présentent sous la forme d’une épreuve collective (cahier de questions). Ils sont extrêmement nombreux et ne peuvent guère être énumérés. Beaucoup d’entre eux sont composés de questions de plusieurs types différents (différentes épreuves verbales, numériques, spatiales, etc.), et c’est le total des points obtenus à l’ensemble de ces questions qui constitue la note, selon un principe voisin de celui qui est employé par les échelles de type Binet-Simon. Certaines épreuves collectives d’intelligence sont constituées par un matériel plus homogène : épreuves de vocabulaire, comme celle de Binois-Pichot ; épreuves utilisant des séries de dessins obéissant à une certaine loi, qu’il faut dégager, comme dans les « matrices progressives » de J. C. Raven ; épreuves collectives d’intelligence opératoire.

Tests d’aptitudes*

La distinction entre tests d’intelligence verbaux et non verbaux amorce le passage à des épreuves moins globales que les tests d’intelligence. L’analyse factorielle a permis de distinguer des groupes relativement homogènes d’épreuves. Dans le domaine intellectuel, on a proposé (surtout d’après les travaux de L. L. Thurstone) des épreuves de compréhension verbale (épreuves de vocabulaire, de synonymes, d’opposés, de phrases en désordre, etc.), de fluidité verbale (évocation rapide de mots commençant par un certain préfixe, ayant un certain nombre de lettres, etc.), numériques, de mémoire, de déduction, d’induction, etc. Dans le domaine de la perception visuelle, on utilise des épreuves spatiales — qui consistent à percevoir ou à se représenter des lignes et des surfaces et à les comparer, et cela dans deux ou trois dimensions —, d’orientation dans l’espace, de vitesse perceptive, etc. Dans le domaine de la motricité, il existe des tests de dextérité, qui utilisent des tâches simples, telles que placer des blocs cylindriques dans des trous, trier des perles ou de petites tiges métalliques, des tests de « visée », dont les plus simples consistent, par exemple, à tracer un point à l’intérieur de chaque petit cercle d’une série, des tests de « tapping » (frapper aussi vite que possible avec un crayon). D’autres épreuves s’adressent à des aptitudes motrices plus complexes et utilisent certains appareils, dont un bon exemple est fourni par le test du tourneur de J. M. Lahy : le sujet déplace un pointeau sur un tracé à l’aide de deux manivelles, ce qui exige une coordination précise, visuellement contrôlée, des mouvements des deux mains.