Éd. 1971-1976

documentaire (analyse) (suite)

• Évaluation pratique. Rodgers a mené une enquête sur la validité du critère de fréquence. Des auto-extraits et des mots clés choisis pour leur fréquence avaient été publiés pour des articles de la conférence de Washington (1958) ; on compara les mots clés choisis par des indexeurs humains, pour les mêmes articles. Les résultats montrèrent que la fréquence des mots ne jouait pas de rôle important dans le choix de mots représentatifs par les indexeurs.

• Examen théorique. La composition de l’antidictionnaire pose des problèmes, puisqu’on veut y faire entrer une classe de mots aux sens trop généraux ou trop imprécis pour être choisis éventuellement comme mots représentatifs. Ces choix négatifs dépendent du domaine traité et des besoins des utilisateurs. Si l’auto-extrait ne lui paraît pas satisfaisant, l’utilisateur devrait pouvoir en redemander un autre à l’automate, qui disposerait de plusieurs antidictionnaires permettant d’obtenir des auto-extraits à divers niveaux de spécificité (cf. le dialogue homme-machine conçu par G. Salton dans le SMART). Les mots polysémiques doivent-ils tous être écartés ? Et s’ils sont éligibles, comment résoudre leur ambiguïté ? Il est vrai que Luhn élude ce problème en disant que « dans une discussion technique, il y a une très faible probabilité qu’un mot donné soit utilisé pour refléter plus d’une notion ». Faut-il le croire sur parole ? Les systèmes de repérage des « synonymes » proposés par Luhn et par les auteurs de Synthex paraissent un peu simplistes. On peut, sans exagérer, affirmer que le problème de la synonymie, dans toute sa complexité, n’est pas traité par ces auteurs. Quant au problème de la paraphrase, qui est au centre de l’activité résumante et n’est qu’une extension de la synonymie, jusqu’au niveau du discours, il est totalement ignoré.

• Conclusion. Si l’on juge la méthode des auto-extraits par ses résultats, on peut dire, comme Purto, qu’elle ne produit qu’un choix de phrases disparates, ne représentant pas le contenu essentiel du document ; mais on peut aussi soutenir le contraire, puisqu’on est loin de s’accorder sur le sens de « contenu essentiel ». Les expériences destinées à évaluer la congruence entre auto-extraits et extraits manuels ne concordent pas davantage. Sur l’extrait manuel qui devrait servir de modèle de pertinence pour l’évaluation d’un auto-extract, on ne s’accorde pas non plus : des chercheurs de la Compagnie Ramo-Wooldridge ont constaté à l’aide de tests que les gens extraient les mêmes phrases représentatives ; mais les expériences de G. J. Rath, A. Resnik et C. R. Savage ont donné des résultats opposés.

Ce que l’on sait pour le moment, c’est qu’aux États-Unis les recherches concernant les auto-extraits sont arrêtées. En U. R. S. S., par contre, elles se poursuivent encore, de même que les travaux concernant un hypothétique « résumé » automatique, semble-t-il plus proche d’une indexation automatique que d’un résumé au sens ordinaire du mot.

Les résumés automatiques

Si les auto-extraits ont au moins le mérite d’exister, on ne peut en dire autant des résumés automatiques, sur lesquels quelques recherches ont pourtant été entreprises. Résumer, c’est pousser à l’extrême la paraphrase, amputer un texte d’un nombre important de données, réorganiser les contenus sémantiques et la forme syntaxique des documents. Le résumé n’a guère de commun avec les extractions que l’« amputation ». L’activité résumante n’est pas mystérieuse — elle est seulement fort complexe — et il est juste que les chercheurs se proposent de débrouiller l’écheveau de ses opérations. C’est pourquoi l’on ne peut qu’envisager avec intérêt les recherches dans ce domaine. Il nous semble, en tout cas, que les opérations engagées pour produire un résumé ne sont pas toutes de nature profondément différente de celles qui visent à produire des auto-extraits (car la répétition, donc la fréquence des mots et des énoncés, joue un rôle là aussi) ou des indexations automatiques (c’est-à-dire des représentations, sur un plan conceptuel, des documents).

V. R. Stiajkine donne, pour mesurer la représentativité d’un terme, une hypothèse de travail intéressante, en posant qu’elle est fonction du nombre (le critère statistique n’est donc pas écarté) et de la nature des relations dans lesquelles ce terme apparaît. Il y a là une voie qu’il vaut la peine d’explorer à fond et une méthode qui semble prometteuse. Nous sommes ici dans le domaine de la recherche fondamentale à long terme, et fort éloignée des perspectives immédiatement pratiques des tenants de l’auto-extrait. L’automate ne pourra exécuter des résumés comparables à ceux que font les humains que s’il est doué d’une bonne connaissance du domaine scientifique, et doué d’une espèce de réflexion, ce qui ne semble réalisable qu’au terme de longues recherches dans les secteurs de l’apprentissage automatique et de l’intelligence artificielle.

L’indexation automatique

Nous définissons l’indexation comme une traduction de documents écrits en langue naturelle vers leur représentation dans un langage documentaire (c’est-à-dire une classification, parfois assortie d’un système de relations syntaxiques).

Toutes les méthodes d’indexation automatique sont encore expérimentales, et elles consistent toutes dans l’analyse de résumés bibliographiques faits « à la main ». Il ne semble pas encore être question d’indexer automatiquement des documents de la taille d’un article. Certains chercheurs russes (A. I. Mikhaïlov, directeur du Centre de documentation scientifique et technique de Moscou [Viniti], en particulier) songent sérieusement à indexer des articles entiers par des procédures automatiques, et l’indexation serait alors identifiée au « résumé » de l’article. Ce point de vue n’est pas celui de la majorité des chercheurs, qui, plus modestement, considèrent que les problèmes du résumé ou de l’indexation d’articles entiers ne seront pas en voie d’être résolus avant, au mieux, trente ans, et pensent que le statu quo, c’est-à-dire l’indexation automatique de résumés faits à la main, est la solution actuellement raisonnable.