Éd. 1971-1976

documentaire (analyse) (suite)

Introduction

L’analyse documentaire est généralement pratiquée par des bibliothécaires et des documentalistes afin soit de classer les documents, soit de les représenter sous une forme moins condensée qu’une simple cote de bibliothèque ; cette représentation documentaire peut être brève (« signalement ») ou plus longue (« résumé »). Grâce à l’introduction de l’automatisation, les problèmes que pose l’analyse documentaire ont pu être mieux définis.

L’expression « analyse automatique documentaire » est ambiguë et correspond à des types fort différents de tâches, que l’on examinera successivement : 1^o établir des index de permutation (de titres, le plus souvent, par exemple les Physindex de Saclay) ; 2^o extraire les phrases « représentatives » d’un article, de manière à produire une sorte de « résumé », qu’il conviendra d’appeler auto-extrait, plutôt que auto-abstract ; 3^o repérer les concepts essentiels contenus dans les documents et les relations entre ces concepts. C’est à ce dernier type de tâche, de loin la plus complexe, que l’on réservera le nom d’indexation automatique.

Il faut encore insister sur un point de terminologie : ce que nous appelons résumé est, conformément à l’usage courant, un texte court écrit en langue naturelle, représentant le contenu essentiel d’un document. Il ne s’agit pas là de mettre bout à bout des phrases extraites du document, mais d’en réorganiser la forme sémantique et syntaxique tout en la condensant. Avant d’engager les procédures dont il est question ici, il faut que l’automate puisse « digérer » les documents écrits qu’on lui propose. Ces documents sont généralement transcrits sur bandes ou cartes perforées. Il y a de nombreuses recherches destinées à éviter cette étape longue et coûteuse. Le problème est celui de la reconnaissance des formes (pattern recognition) ; on ne le mentionnera que pour mémoire, car il concerne le domaine de la technologie des automates et non celui de la linguistique documentaire. Signalons seulement que les machines à lire les caractères latins ou cyrilliques existent depuis plusieurs années et sont opérationnelles. La reconnaissance automatique des caractères chinois est encore du domaine de la recherche (travaux de Nagaō à Kyōto).

Les index de permutation

Les index de permutation sont connus sous des sigles comme KWIC, KWIT (Key Word In Context, In Title). On peut analyser selon cette méthode des titres de documents, mais aussi des résumés bibliographiques. Pour les titres, le programme est relativement simple : une fois la bibliographie (auteur, titre, référence) perforée, il s’agit d’extraire les groupes de mots, de consulter un « antidictionnaire » des mots à exclure, de trier alphabétiquement les mots clés et de les imprimer accompagnés de leur contexte. Les questions de préédition jouent un rôle primordial.

• Choix des titres. Il arrive que des titres soient peu significatifs. Dans ce cas, on peut les remplacer par « une ou plusieurs expressions clés » ; il s’agit alors d’une quasi-indexation manuelle.

• Composition de l’antidictionnaire. La liste des mots à exclure est déterminée par le prééditeur. Quand il s’agit de mots « au sens trop imprécis ou trop général », le choix peut être contestable ; il varie en tout cas selon le domaine considéré.

• Choix des séparateurs. Les groupes de mots (ou unités de contextes reproduites dans la concordance) sont délimités par certains mots outils notés dans des listes prééditées, par exemple « for, from, concerning ».

Les auto-abstracts

Ambiguïté du terme « auto-abstract »

La confection de résumés d’articles ou de livres par des analystes humains est une opération relativement longue, donc coûteuse, exigeant une bonne connaissance du domaine scientifique ou technique dont relève l’article ou le livre, exigeant enfin de la réflexion. Les résumés ordinaires varient largement d’un résumeur à l’autre, et aussi, chez un même résumeur, d’un moment à l’autre. Ces résumés ont donc trois défauts : ils sont trop longs à obtenir et à publier, ils sont coûteux et ils sont variables (« inconsistent »).

La fabrication de résumés automatiques a été envisagée afin de pallier ces trois défauts. Mais il faut aussitôt noter l’ambiguïté du terme auto-abstract, qui a deux sens très différents : d’une part, auto-abstract désigne un ensemble de phrases ou de segments de phrases extraites d’un article (et l’on devrait dire « auto-extrait ») ; d’autre part, auto-abstract désigne un résumé automatique analogue en tous points au résumé humain, sauf pour ce qui est de la variabilité, l’équation personnelle des résumeurs étant dans ce cas neutralisée (jusqu’à un certain point).

Les auto-extraits existent depuis une dizaine d’années ; les résumés automatiques au sens propre sont du domaine de la recherche à long terme.

Les auto-extraits (extraits automatiques)

• Principes de fabrication. Le promoteur de la méthode, l’Américain H. Luhn, pose que « la fréquence d’un mot dans un article fournit une mesure utile de la représentativité (« significance ») de ce mot », et que « la cooccurrence relative, dans une phrase, de mots auxquels ont été affectés des poids de représentativité est une mesure utile de la représentativité des phrases ». Précisons un peu : « Plus certains mots sont trouvés souvent en compagnie les uns des autres dans une phrase, plus on peut dire que ces mots sont lourds de sens. [...] Quel que soit le sujet traité, plus certains mots sont voisins les uns des autres, plus grande est la spécificité avec laquelle un aspect du sujet est traité. »

Le programme comporte quatre moments principaux : 1^o consultation d’un antidictionnaire destiné à éliminer des mots « sans intérêt » (articles, pronoms, prépositions, mots généraux, etc.) ; 2^o tri alphabétique des mots représentatifs, afin de repérer des « synonymies » au sens large (exemple : similar serait « synonyme » de similarity) ; 3^o calcul de fréquences ; 4^o calcul de proximité des mots les plus fréquents.

À ce programme, quelques améliorations ont été proposées : les mots suivant des expressions comme « en résumé », « en conclusion » pourraient être considérés comme représentatifs ; le repérage des « synonymes » pourrait se faire par une méthode moins hasardeuse que celle de Luhn, en consultant une liste de suffixes (programme Synthex).