Recherche : Des IA génératives polyglottes sans sensibilité régionale mises au point à l’EPFL

Image d'illustration des IA mises au point par l'EPFL et ses partenaires internationaux. Photo : EPFL.

Des équipes de recherche de l’EPFL (Ecole polytechnique fédérale de Lausanne) et internationales ont développé des Intelligences artificielles (IA) génératives polyglottes, sans sensibilité régionale, dénommées : INCLUDE.

Elles permettent d’évaluer l’incapacité des Grands modèles de langage (LLMs), à comprendre le contexte culturel. Ils maîtrisent, certes, de nombreuses langues, mais échouent à intégrer les connaissances culturelles, régionales, et juridiques associées à ces langues. Par exemple, on peut poser une question juridique en Grec, sur les règles de circulation locales, à un agent conversationnel comme Claude ou ChatGPT. En quelques secondes, il répondra dans le même langage grec parfait, en se basant, toutefois, sur la législation… britannique.

Ce type d’erreur révèle une limite majeure que les nouvelles IA développées par les chercheurs de l’EPFL et leurs partenaires internationaux aident à corriger. Elles permettent de mesurer si un modèle est non seulement précis dans une langue donnée, mais aussi capable d’intégrer la culture et les réalités socio-culturelles qui lui sont propres.

METHODOLOGIE

Les travaux de recherche et de développement des IA INCLUDE ont été menés par des équipes de traitement du langage naturel (NLP Lab) de l’EPFL, du Laboratoire de recherche sur les solutions aux problèmes complexes d’apprentissage automatique (COHERE Labs) et d’autres partenaires internationaux.

Elles ont réuni plus de 197’000 questions à choix multiple, issues d’examens académiques, professionnels et réglementaires, rédigées dans 44 langues et 15 systèmes d’écriture. En collaboration avec des interlocuteurs natifs, ces questions proviennent d’institutions authentiques, couvrant des domaines comme la littérature, le droit, la médecine ou la navigation.

La grille d’évaluation inclut, à la fois des savoirs régionaux explicites (lois locales, histoire nationale) et des savoirs culturels implicites (normes sociales, perspectives historiques).

Lors des tests sur les grands modèles actuels, ceux-ci ont systématiquement obtenu de moins bons résultats sur les sujets d’histoire régionale que sur des généralités identitaires nationales, même dans la même langue.

Rfl s-a/Com/Ibc