grille de calcul

Système informatique offrant de façon transparente à ses utilisateurs un ensemble de ressources (temps de calcul, espaces de stockage) distribuées sur un grand nombre de sites.

Le terme « grille » est la traduction du mot anglais « grid », qui signifie également « réseau électrique ». L’analogie est puissante, puisqu’un réseau électrique parvient à satisfaire ses innombrables clients à partir d’un ensemble de ressources très distribuées sans que ces clients n’aient rien à en connaître et sans qu’ils informent au préalable le réseau de leurs besoins immédiats.

Structure et fonctionnement des grilles de calcul

Les éléments constitutifs d’une grille sont les nœuds (centres de ressource), le réseau informatique rapide qui les relie (en général, à une vitesse d’au moins 100 Mb/s) et le logiciel (ou middleware, presque toujours développé sous forme de logiciel libre) installé sur chaque nœud, qui analyse les requêtes des utilisateurs et répartit automatiquement leurs travaux sur les différents nœuds en fonction des disponibilités, grâce à un système central contenant l’information sur l’état de chaque site.

On distingue différents types de grilles suivant le type de matériel disponible à chaque nœud : les grilles de supercalculateurs, qui relient des supercalculateurs ; les grilles de production ou de recherche, ensembles administrés de centaines ou de milliers d’ordinateurs individuels ; et les grilles pair-à-pair (utilisées par exemple pour le téléchargement de fichiers musicaux sur Internet), qui relient des ordinateurs individuels de particuliers

Bien qu’une grille soit en général basée sur un logiciel qui lui est propre, il est possible d’interconnecter plusieurs grilles à l’aide de définitions d’interfaces communes et de passerelles adaptées. Si une ressource disponible sur une grille est visible de l’autre et qu’un travail soumis à partir d’une grille puisse être exécuté sur l’autre, les deux grilles sont dites interopérables. Un organisme international, l'Open Grid Forum, veille au développement progressif de standards qui permettront une grande interopérabilité entre les différentes grilles ainsi que le développement par l’industrie logicielle des services élémentaires constituant une grille.

Le développement des grilles

Les grilles de calcul se sont développées au début des années 2000, dès que l’évolution technologique et des tarifs ont rendu abordables les réseaux informatiques académiques à très haute vitesse, supérieure à 1 gigaoctet par seconde. En effet, une telle vitesse permet d’envoyer des données distantes dans un processeur à un rythme voisin de celui de traitement interne des données. Cela permet donc de traiter des données stockées loin avec une efficacité comparable à un traitement local. Ce découplage entre localisation des ressources de calcul et de stockage est une caractéristique essentielle des grilles de calcul.

Grilles et supercalculateurs

Les grilles de calcul ne peuvent cependant pas remplacer un supercalculateur, ensemble compact de nombreux processeurs reliés par des liaisons informatiques très performantes. En effet, même si les liaisons entre les différents nœuds d’une grille sont très rapides, le temps de communication d’un processeur à l’autre est beaucoup plus lent que sur un supercalculateur dès que les nœuds sont éloignés ce qui est toujours le cas dans une grille de production. Les grilles de calcul ne peuvent donc pas remplacer les supercalculateurs pour les applications nécessitant des dialogues importants entre les différents processeurs, comme les prévisions météorologiques, mais, inversement, elles permettent d'effectuer à moindre coût des tâches pouvant se répartir en parallèle sur de nombreux processeurs sans qu’ils aient à échanger beaucoup d’informations.

Les grilles de calcul et les supercalculateurs sont donc des outils très complémentaires. Il existe également des grilles de supercalculateurs formées d’une dizaine de supercalculateurs, par exemple les grilles DEISA (programme européen) et TERAGRID (programme américain). Dans cette configuration, la tâche n’est pas répartie sur plusieurs sites, mais elle est soumise au centre le plus disponible, ce qui nécessite que l’ensemble des données concernées soit accessible depuis chaque site.

Les avantages des grilles

Les grilles ont pour atout la mise en commun d’un très vaste ensemble de ressources, qui autorisent le traitement de volumes considérables de données réparties à travers le monde ainsi qu'une très grande flexibilité dans l’attribution des ressources à différentes communautés d’utilisateurs regroupés en organisations virtuelles. Lorsque les utilisateurs regroupés au sein d’une telle organisation virtuelle sont eux-mêmes répartis, la grille facilite beaucoup leur collaboration. Ainsi les grilles de calcul sont-elles un très bon outil pour intégrer les scientifiques des pays en voie de développement dans le concert international de leur discipline. En leur facilitant l’accès aux données et leur en offrant la possibilité de les analyser depuis leur laboratoire, les grilles de calcul luttent très efficacement contre la fuite des cerveaux des meilleurs chercheurs des pays en voie de développement à condition toutefois que ceux-ci disposent de connexions avec un débit suffisant (de l’ordre de 10 Mb/s). Un gros effort international tourné vers l’Asie, l’Amérique du Sud et plus récemment vers l’Afrique est entrepris dans ce sens.

Une architecture aussi flexible qu’une grille de calcul se prête bien au calcul à la demande, dans lequel un utilisateur soumet sur la grille une quantité importante de travaux dans un temps limité. La gestion des pics et des creux d’activité s’en trouve considérablement facilitée. Les grilles de calcul se sont ainsi révélées être des outils de choix pour la gestion des catastrophes naturelles (inondations, tremblements de terre, épidémies sanitaires, etc.), nécessitant de mobiliser dans un temps très court des ressources de calcul très importantes afin d'effectuer les simulations nécessaires en vue de réduire l’impact des catastrophes observées.

Le problème de la sécurité

L’un des problèmes majeurs auxquels les grilles doivent faire face est la sécurité. Il faut en effet réussir à identifier chaque utilisateur sur l’ensemble des machines constituant les grilles, qui appartiennent le plus souvent à des domaines administratifs totalement différents, et à réguler ses droits d’usage. La solution retenue est la délivrance d’un certificat unique par utilisateur, véritable passeport informatique reconnu par toutes les machines de la grille. Ce certificat est délivré (ou révoqué le cas échéant) par une autorité de certification nationale. Chaque autorité de certification nationale doit être reconnue et validée par ses pairs. La sécurité des données est également un défi majeur, résolu en premier lieu par le cryptage des données sensibles et la restriction des droits d’accès aux données aux seuls membres des organisations virtuelles concernées. Dans le monde industriel, pour ne prendre aucun risque, les grilles sont le plus souvent installées sur un réseau privé (intragrilles), éliminant ainsi tout risque important. À ce jour, grâce à l’ensemble des précautions prises, il ne semble pas qu’une grille de calcul soit un outil informatique plus vulnérable qu’un centre de données classique.

Les utilisations actuelles

Les grilles sont utilisées principalement dans le monde de la recherche et l’Europe a réussi à prendre une avance importante dans le domaine des grilles de production. En 2008, la plus grande grille de production au monde est la grille EGEE, déployée sur plus de 250 sites, qui regroupe 80 000 ordinateurs et 20 petaoctets de stockage. Elle s’appuie sur le réseau informatique dédié à la recherche GEANT, reliant tous les pays européens et comportant des accès vers l’Afrique du Nord, l’Asie ou les Etats-Unis. Ses nœuds sont installés dans les laboratoires de recherche participant au projet qui assurent le financement de l’équipement et sa maintenance. Une équipe centrale d’environ 50 personnes réparties dans quelques grands centres assurent à tour de rôle la cohésion de l’ensemble et sa surveillance La grille EGEE traite 24 heures sur 24 plus de 300 000 travaux quotidiens soumis par plusieurs milliers d’utilisateurs appartenant à une dizaine de communautés scientifiques différentes.

L’exploitation des données issues du plus puissant accélérateur de particules mondial, le LHC (Large Hadron Collider), installé au Cern, près de Genève, repose entièrement sur la grille de production .EGEE et son homologue américaine Open Science Grid. La recherche de nouvelles molécules pouvant lutter contre la malaria ou la grippe aviaire, la comparaison de séquences de génomes, l’étude en ligne des tremblements de terre, la recherche d’images radiologiques semblables à celle d’un malade donné dans une grande collection d’images en provenance d’un réseau de dizaine d’hôpitaux représentent quelques-unes des applications spectaculaires actuelles des grilles de calcul.

Les grilles de recherche

Les grilles sont également un objet de recherche en sciences de l’informatique. Les études portent principalement sur les conditions que les grilles doivent remplir pour garantir la même très bonne efficacité quand le nombre de nœuds et/ou le nombre d’utilisateurs devient très important. La fiabilité de la grille en cas de panne d’un ou plusieurs de ses constituants, sa capacité d’autodiagnostic et d’autoréparation sont également des sujets importants. La France a déployé une grille de calcul de conception originale (GRID5000) entièrement dédiée à ce type de recherche.

Perspectives

Les grilles de calcul sont des outils informatiques encore jeunes et donc susceptibles de beaucoup évoluer. Leur forte implantation actuelle dans le monde de la recherche leur garantit toutefois plusieurs années d’utilisation avec seulement des changements mineurs afin d’exploiter au mieux les investissements déjà réalisés. L’avènement progressif de standards industriels issus de l'Open Grid Forum confortera cette dynamique. Dans le monde industriel, le marché du calcul ou du stockage à la demande, appelé « cloud computing », où l’offre informatique est basée sur des ressources distribuées, se développe rapidement. Ces deux technologies présentent de nombreuses analogies et leur fusion à terme apparaît très probable. Pour un déploiement massif des grilles de calcul dans le monde industriel, il sera également nécessaire que les éditeurs de logiciels applicatifs propriétaires adaptent leur schéma de licence à une utilisation sur une grille, suivant quelques exemples pionniers en la matière.