Éd. 1971-1976

conditionnement (suite)

Cela nous conduit à remarquer qu’au contraire de ce qui se passe dans le conditionnement classique il existe ici deux catégories de renforçateurs, dont les effets sont opposés : les renforçateurs positifs font croître la réaction, et les renforçateurs négatifs la font décroître ; dans la situation pavlovienne, il n’existe qu’une seule sorte de renforçateur, dont l’action est toujours positive.

Une seconde différence tient à ce que le stimulus renforçateur du conditionnement instrumental (opérant) n’est aucunement le déclencheur originel de la réaction à conditionner ; en d’autres termes, renforçateur n’est pas ici synonyme de stimulus inconditionnel. Cette dernière expression n’a, dans le nouveau type de conditionnement, aucun sens, car il n’est pas nécessaire que le stimulus renforçateur suscite une réaction quelle qu’elle soit ; et il n’est pas davantage indispensable que la réaction à conditionner possède originellement un stimulus propre.

Une dernière différence avait été mise en avant par Konorski et Miller, et reprise par de nombreux auteurs : c’est que seule une certaine catégorie de réactions — celles qui sont exécutées par les muscles striés — aurait été conditionnable de façon instrumentale. À ce titre, la distinction entre les deux types de conditionnement aurait pu être rapprochée de celle qui existe entre les comportements involontaires et « volontaires » ; Konorski, par exemple, n’a pas hésité à utiliser ce dernier terme à propos du conditionnement instrumental d’animaux. Sans aller aussi loin, Skinner a caractérisé le comportement opérant comme étant « émis » par l’organisme, par opposition avec le comportement « répondant », qui est déclenché par un stimulus externe et dont le réflexe, inconditionnel ou conditionnel classique, est le prototype. La parenté entre la réaction conditionnelle instrumentale ou opérante et l’activité volontaire s’exprime bien dans le langage ordinaire lorsque l’on affirme spontanément, par analogie avec l’homme, que le rat ou le chien exécutent leur réaction « pour » obtenir de la nourriture. Le problème théorique ainsi posé, celui des critères de l’activité volontaire est loin d’avoir reçu une solution scientifique définitive. On doit noter que, sur le point précis indiqué plus haut, des travaux récents ont été conduits à l’appui de l’hypothèse contraire à celle de Konorski, à savoir que même des réactions gouvernées par le système neurovégétatif — par exemple le rythme cardiaque ou des activités viscérales — peuvent être modifiées si on les fait suivre régulièrement d’un stimulus renforçateur ; mais, en dépit de résultats positifs en ce sens, même ce problème expérimental limité ne peut aujourd’hui être considéré comme tranché.

Quoi qu’il en soit cependant dans le détail de l’importance des différences entre les deux types de conditionnement, il importe de souligner nettement que, lorsque l’on parle de « renforcement » en matière de conditionnement instrumental ou opérant, on fait référence à une réalité expérimentale autre que celle que recouvre l’emploi pavlovien classique du même terme. En fait, le renforcement instrumental ne désigne pas autre chose que la loi de l’effet énoncée par Edward Lee Thorndike.

Ainsi, la question de savoir si les deux types de renforcement sont la manifestation, dans le comportement, d’une seule et même classe de processus psychologiques ou psychophysiologiques est une affaire de recherche et, en l’état actuel des choses, de choix théorique. On n’en jugera que plus regrettable de voir l’usage courant du terme renforcement évoluer jusqu’à ne recouvrir que le renforcement de second type et éliminer ainsi presque entièrement le sens premier ; il n’y a à cela aucune justification scientifique.

Skinner et son école ont étudié en détail sous le nom de programmes de renforcement — en l’occurrence, exclusivement opérant — les régularités qui peuvent régir la relation entre la réponse et son effet. Il a pu montrer que des lois précises régissent les divers programmes de renforcement.

Les diverses sortes de réactions conditionnelles instrumentales

Nous n’avons décrit précédemment que les deux procédures les plus simples de conditionnement instrumental, celles qui comportent un renforcement direct positif — parfois appelé récompense — ou négatif — désigné aussi sous le nom de punition. En fait, on sait maintenant que ce dernier cas n’est pas l’exact inverse du précédent : si l’utilisation d’une récompense a bien pour effet l’établissement et la croissance d’un comportement déterminé, le renforcement négatif n’agit pas en « effaçant » le comportement auquel il s’applique ni surtout en faisant disparaître la « tendance à réagir » qui lui correspond. Assez souvent, en effet, on peut constater qu’une réaction qui avait été rendue moins fréquente ou même avait disparu à la suite d’un renforcement négatif répété réapparaît et retrouve sa pleine force, sans qu’aucune condition nouvelle ait été créée, par le simple passage du temps. C’est là un phénomène semblable à celui que l’on peut observer après une extinction et qui est connu sous le nom de récupération spontanée.

Mais un stimulus négatif peut avoir un tout autre effet que celui d’inhiber une réaction ; sa présence, puis sa suppression peuvent concourir à l’apprentissage et à la fixation d’un comportement. Ainsi peuvent, en premier lieu, s’établir les réactions d’échappement ou de fuite. Si un animal se trouve soumis à une stimulation négative (par exemple douloureuse) durable, on observe le plus souvent qu’il manifeste des comportements divers, plus ou moins désordonnés, dont la vigueur est en rapport avec l’intensité de la stimulation. Si, maintenant, l’un des comportements ainsi émis se trouve suivi par une interruption de la stimulation négative et si cette conjonction entre la réaction et la cessation de la douleur se reproduit plusieurs fois, on peut généralement constater que le comportement en question s’accroît très vite et se manifeste désormais de façon fréquente ; dans certains cas, il peut suffire d’une seule conjonction de la réaction et de la suppression du stimulus nocif pour que cette réaction d’échappement soit fixée, c’est-à-dire apprise : ce qui détermine la rapidité de l’apprentissage est dans ce cas, bien entendu, l’intensité de la stimulation à fuir.