Grande Encyclopédie Larousse 1971-1976Éd. 1971-1976
D

documentaire (analyse) (suite)

L’analyse grammaticale comme aide à l’indexation

L’analyse grammaticale des textes des documents a pour but d’établir les relations syntaxiques entre les mots qui joueront le rôle de descripteurs pour ces documents. On peut distinguer trois types :

• Analyse par constituants. L’analyse par constituants est en gros l’analyse classique, apprise dès l’école primaire. La structure des phrases peut être représentée sous forme arborescente. La phrase est le nœud supérieur, se subdivisant en groupe nominal et groupe verbal, et ainsi de suite jusqu’aux éléments terminaux, qui sont les morphèmes de la phrase. Disons quelques mots de la technique d’analyse par prédictions, qui a d’abord été appliquée à des textes russes (I. Rhodes). Le laboratoire de calcul d’Harvard a développé ensuite cette technique sur le russe et l’anglais (A. Oettinger, M. Sherry, W. Plath, S. Kuno). Au même laboratoire, G. Salton et A. Lemmon l’ont appliquée à des fins d’analyse documentaire de textes anglais. Le principe de l’analyse par prédictions est le suivant : le programme traite les textes phrase par phrase, et un item (mot, signe graphique isolé par des blancs) à la fois ; il garde en mémoire une liste de structures syntaxiques attendues ou possibles ; chaque item est comparé à cette liste, appelée réservoir de prédictions ; toutes les prédictions pouvant être réalisées par l’item sont notées ; l’analyse est amorcée par une consultation de dictionnaire donnant les catégories grammaticales, les fonctions syntaxiques possibles et les grandes classes sémantiques des mots (ces classes sémantiques sont par exemple : verbe de mouvement, de direction, de possibilité).

Depuis 1960, la méthode a été progressivement améliorée, mais en 1965 il fallait environ une minute pour analyser une phrase automatiquement, ce qui est assez long. De plus, elle produit en général plusieurs analyses pour une seule phrase, qui, syntaxiquement, sont équivalentes, alors que, du point de vue du sens, une seule d’entre elles est la bonne, sans que l’automate soit encore doté de règles lui permettant de choisir la seule analyse correcte. Salton utilisait, dans son projet de système documentaire automatique SMART, la première des structures produites par le système d’analyse par prédictions de Kuno. Mais choisir la première, c’est procéder au hasard, puisque la structure correcte pour la même phrase peut être la deuxième ou la trente-cinquième, si l’automate, comme il advient parfois, produit plusieurs dizaines d’analyses possibles de la même phrase. Ce choix hasardeux pèse sur les procédures appliquées ensuite, et, en fin de compte, introduit dans la recherche des documents un « bruit » important. Pour en rester au stade de l’analyse, ajoutons que la structure produite par l’automate pour une phrase est comparée à des « arbres critères », au nombre de 14 et se ramenant à 4 types : groupes nominaux, relations sujet-verbe, verbe-objet, sujet-objet. « Les arbres critères consistent en patrons enregistrés à l’avance, incluant des numéros de concepts (c’est-à-dire les descripteurs), des indicateurs syntaxiques et les relations syntaxiques unissant les concepts considérés. »

Pour appliquer avec profit la procédure judicieuse des arbres critères, il faudrait être certain que l’analyse grammaticale dont on dispose est correcte. Mais pour que l’analyse correcte du point de vue du sens soit choisie automatiquement, il faut ajouter au programme tout un ensemble d’indications sémantiques.

• Analyse par « chaînes » (string analysis). L’analyse par chaînes consiste à décomposer la phrase en divers syntagmes selon qu’ils constituent le « centre » de la phrase ou des adjonctions à ce centre (Z. Harris). On retrouve ici la distinction, commune en linguistique, entre énoncé minimal et expansion. Donnons un exemple. Dans la phrase : « L’automate à roulettes choisit la structure la plus bizarre », le centre est « L’automate choisit la structure » ; les ajouts sont à droite du sujet et de l’objet. Mais on prévoit aussi des ajouts possibles à gauche des divers éléments du centre. D’autre part, des types d’ajouts complexes sont prévus (subordination, comparaison, coordination). À New York, N. Sager et son équipe ont réalisé plusieurs versions d’un programme d’analyse par chaînes. Dans l’une d’entre elles, la première analyse d’une phrase ordinaire est produite en une seconde en moyenne, et les analyses suivantes en cinq secondes environ. L’automate produit entre une à cinq analyses par phrase.

N. Sager traite de façon intéressante le problème des catégorisations sémantiques (destinées à éliminer des constructions fausses) et celui des limitations d’emploi. Il faut en effet choisir entre une classification assez raffinée sur le plan sémantique et la spécification des exceptions ou des particularités d’emplois pour des mots isolés. Voyons par exemple la phrase The fur people wear hunters risk their lives for (« les chasseurs risquent leur vie pour les fourrures que les gens portent ») : il est nécessaire de spécifier que le verbe wear ne peut pas avoir d’objet animé, afin d’éviter la construction fausse wear hunters. Cela est une restriction d’emploi, reposant sur une catégorisation sémantique en anglais (mais grammaticale en russe), définie par l’opposition animé/inanimé. Le programme créé est, d’après ses auteurs, assez indépendant de la grammaire et du langage qui lui sont fournis ; « il va du début à la fin de la phrase ; il analyse la phrase comme une chaîne de substitutions contenues dans les définitions. À chaque point où il faut choisir, il prend la première option donnée, revenant en arrière pour essayer les autres options, soit parce que la voie choisie ne colle plus, soit afin d’obtenir d’autres analyses possibles après l’achèvement de la première. L’analyse est enregistrée (dans la machine) sous forme d’arbre. [...] À chaque définition est associée une liste contenant les restrictions d’emploi pour une chaîne ou un ensemble de chaînes données. [...] La grammaire anglaise utilisée par le programme comprenait environ 150 chaînes groupées en environ 20 grandes catégories, avec environ 20 restrictions d’emploi en tout. »