Éd. 1971-1976

documentaire (analyse) (suite)

• Analyse transformationnelle. Par analyse transformationnelle, on entend une analyse fondée sur les théories des « transformations » linguistiques proposées par Z. Harris et N. Chomsky*. La définition des transformations diffère chez ces deux auteurs. Nous nous en tiendrons ici au point de vue de Harris, qui les définit ainsi : « Si deux constructions R, S contenant les mêmes n classes de mots (avec éventuellement des monèmes additionnels : par exemple AN et N est A [A = adjectif ; N = nom]) sont l’une et l’autre satisfaites pour la même liste de n tuples de membres de ces classes, nous appelons les deux constructions des transformées l’une de l’autre : R ↔ S » (Harris, 1958). Prenons des exemples. Soit une phrase originale : Pierre bat Paul. On peut lui appliquer les transformations de passif, négation, interrogation, modalité, aspect, etc., obtenant alors : Paul est battu par Pierre, Pierre ne bat pas Paul, Pierre bat-il Paul ?, Pierre peut battre Paul, Pierre va battre Paul, etc. La phrase originale est le « noyau » auquel les transformations ajoutent des valeurs sémantiques, qui n’ont pas grande importance en documentation. L’analyse transformationnelle consisterait donc à décomposer les phrases en éléments essentiels (les « noyaux », que l’on entreposerait en mémoire) et en éléments secondaires, qui seraient écartés. On voit l’analogie avec les « centres » et les « ajouts » de l’analyse par chaînes. Mais l’analogie ne va pas très loin. La technique des transformations est bien supérieure à celle de l’analyse par chaînes, en ce qu’elle établit un ordre entre les différentes variations autour d’une forme simple (le noyau).

La décomposition automatique des textes en noyaux pose néanmoins des problèmes considérables et reste encore du domaine de la recherche fondamentale.

L’analyse sémantique

Comme on l’a vu, les méthodes d’analyse grammaticale automatique peuvent produire la vraie structure de certaines phrases, mais elles produisent aussi des structures fausses et n’ont pas les moyens de décider quelle est la bonne. Avant de procéder à l’établissement des relations syntaxiques pour une phrase, il faut trouver quelle est la catégorie grammaticale de chacun des mots. Or, la solution de l’homonymie de catégories, comme celle des polyvalences syntaxiques, ne peut se réaliser que par des moyens sémantiques. C’est donc à l’étude de ces moyens que bien des équipes de recherche en analyse automatique se consacrent maintenant.

D’autre part, la traduction des textes des documents vers leur représentation en descripteurs (avec ou sans « relations » logiques les unissant) est une opération de nature sémantique : c’est ce que nous avons appelé l’indexation. Les descripteurs constituent un « langage documentaire » dès qu’ils sont unis par des relations « analytiques » (paradigmatiques). Les classifications hiérarchiques sont la forme la plus banale des langages documentaires. Les classifications « à facettes » indiquent les rapports fonctionnels entre les descripteurs, en plus des relations d’espèce à genre. Quel que soit le langage documentaire, l’indexation pose des problèmes dus principalement à la polysémie et à la polyvalence des affinités syntaxiques entre les mots du langage naturel.

L’indexation automatique peut s’effectuer en quatre grandes phases : 1^o découpage du texte à indexer ; 2^o analyse morphologique ; 3^o traduction lexicale (identification et traduction des descripteurs) ; 4^o construction syntaxique.

Les phases 2 et 4 ne sont pas présentes dans tous les systèmes. Pour certains, en effet, l’analyse morphologique paraît une complication inutile ; mais la complexité du calcul est alors compensée par l’encombrement du dictionnaire, dont les dimensions peuvent être plusieurs fois multipliées en fonction du nombre des formes différentes que peut prendre un mot. Quant à la construction syntaxique, elle n’a lieu que dans les cas où la représentation documentaire doit comporter des relations entre les descripteurs (par exemple, dans le SYNTOL, la classification construite à la Western Reserve University pour la documentation métallurgique, etc.).

Une expérience d’indexation automatique de résumés bibliographiques en français vers le langage documentaire SYNTOL a été conduite en 1962-1965 à la Section d’automatique documentaire du C. N. R. S. par R.-C. Cros, J.-C. Gardin et F. Lévy notamment. La méthode utilisée comprenait les quatre phases indiquées ci-dessus. La méthode était strictement sémantique : 1^o la résolution des polysémies s’opérait en fonction de la concurrence de descripteurs appartenant à certaines classes paramétriques, déterminant telle ou telle traduction pour le mot français ambigu ; 2^o la construction syntaxique s’opérait en fonction de consultation de tables (réseau notionnel) appelées par certains mots de la langue naturelle ayant un rôle syntaxique (les « mots outils »). L’automate était ainsi doté d’une « culture » artificielle, sous deux aspects : d’abord les classifications hiérarchiques (15 arbres représentant les classes de descripteurs intéressant le champ donné, ici la psychophysiologie : anatomie, fonctions physiologiques, pathologie, psychologie, physique, chimie, biologie, etc.) ; en outre, des classifications fonctionnelles, transversales, en forme de réseau greffé sur les arbres hiérarchiques : par exemple, la classe des agents (chimiques, physiques, psychologiques.) pouvant produire des modifications anatomiques ou physiologiques localisées (sur le cerveau, le foie, la digestion, la sécrétion, etc.). C’est en consultant cette « sphère d’affinités sémantiques » que le programme pouvait — dans une certaine mesure (cf. l’évaluation des résultats dans l’ouvrage cité) — résoudre les ambiguïtés syntaxiques lors de l’établissement des relations entre descripteurs.

C’est ainsi qu’on obtenait en moyenne 10 descripteurs par résumé, et une quinzaine de relations syntaxiques artificielles (relations SYNTOL) entre ces descripteurs, pour un temps moyen de moins de 20 secondes par résumé.