L’IA, une alliée pour la préservation des langues autochtones ?

Détails: Catégorie : Langues et cultures régionales et minoritaires; Mis à jour : 13 Septembre 2025

Original publié le 31 juillet 2025

Des chercheurs et des roboticiens d’origine autochtone élaborent des solutions innovantes pour contribuer à la sauvegarde des langues en voie de disparition

Points clé à retenir : préserver les langues autochtones

Plus d’un tiers des plus de 6 000 langues que compte le monde risquent de disparaître, dont beaucoup sont parlées par des peuples autochtones
De nouveaux outils basés sur l’intelligence artificielle sont en cours de développement, sous la supervision de locuteurs natifs, afin d’aider à l’apprentissage des langues autochtones.

Le robot a la forme d’une boîte de soupe en conserve avec une petite tête et des oreilles d’animaux. Tel le perroquet des légendes de pirates, il est conçu pour se percher sur l’épaule de l’utilisateur afin d’écouter sa conversation et même y participer. Contrairement à la plupart des perroquets, ce robot parle couramment l’anishinaabemowin, la langue parlée par le peuple anishinaabe d’Amérique du Nord. Cet appareil constitue une innovation en matière de technologie portable pour la préservation des langues, grâce à son modèle d’intelligence artificielle conçu pour les apprendre et les reproduire.

Danielle Boyer, une roboticienne anishinaabe de 24 ans, a conçu le « Skobot » pour converser dans des langues autochtones en danger, et ainsi contribuer à leur préservation. Ces petits robots en plastique aux couleurs vives sont personnalisables et sont souvent décorés d’accessoires, allant des tutus roses aux chapeaux hauts-de-forme. C’est son enfance modeste dans le Michigan qui a donné l’envie à Danielle de rendre l’enseignement technique plus accessible aux jeunes d’origine autochtone comme elle. Son association aide à la distribution des Skobots et enseigne la robotique et les nouvelles innovations aux élèves. Cette invention s’inscrit dans un groupe émergent d’initiatives qui utilisent les outils d’IA pour préserver les langues en voie de disparition, une technologie qui, selon certain·es, serait particulièrement prometteuse pour les langues autochtones menacées.

Environ 40 % des près de 6 700 langues que compte le monde risquent de disparaître, et beaucoup d'entre elles sont parlées par les populations autochtones. Des chercheurs ont démontré que les bénéfices apportés par la sauvegarde de ces langues vont au-delà de la simple préservation culturelle. Selon une étude, garder un lien avec son héritage linguistique pourrait faire baisser le taux de suicide chez les adolescents, mais aussi améliorer la santé physique et diminuer le nombre de cas de diabètes et de consommation excessive d'alcool.

Les nouvelles technologies à base d’IA modifient le rapport à l’apprentissage des langues et les outils éducatifs. Selon Danielle, le Skobot est l’un des premiers jouets qui parlent une langue autochtone. Inspiré des jouets parlants à l’effigie d’Elmo, le robot conçu par l’ingénieure fonctionne grâce à la détection de mouvement et répond aux questions dans la langue d’arrivée avec une vraie voix d’enfant. Pour l’utiliser, l’adolescent n’a qu’à demander au Skobot la traduction d’un mot ou d’une expression. Le modèle d’IA intégré au jouet analyse ensuite sa demande puis sélectionne le fichier audio correspondant, telle une véritable conversation.

Tout comme le Skobot, la plupart des nouvelles technologies à base d’IA mises au point par des scientifiques d’origine autochtone concernent une communauté linguistique bien spécifique. Jacqueline Brixey, une informaticienne diplômée de l’Université de Californie du Sud qui fait désormais partie de l’Université du Wisconsin, a créé un robot conversationnel appelé « Masheli », capable de communiquer en chacta. Ce dernier, entraîné à partir d’un ensemble d’histoires sur les animaux, peut écouter l'utilisateur et lui répondre en anglais ou dans la langue d’arrivée et ainsi développer ses aptitudes conversationnelles.

L’initiative québécoise FLAIR (First Languages A.I. Reality), un projet développé par l’Institut québécois d’intelligence artificielle Mila, élabore des outils visant à aider les populations autochtones à préserver leur langue. FLAIR adopte une démarche plus globale en mettant au point une plateforme d’outils éducatifs qui intègrent l’IA, dont l’objectif à terme est de créer une technologie de préservation des langues adaptable aux besoins de différents groupes. « Ainsi, il y aura plus de locuteurs. C’est le seul but de cette démarche », affirme Michael Running Wolf, cofondateur et principal architecte du projet. L’une des innovations du groupe est la « langue en boîte » : cet appareil contient un programme indépendant et répondant aux instructions orales, qui peut être adapté à différentes langues. La création de ces cours de langues et de culture est rendue possible par les travaux de recherche de FLAIR sur la reconnaissance vocale automatique, grâce auxquels les modèles d’IA peuvent entamer une conversation similaire à celle des humains.

La plupart des systèmes de traduction à base d’IA nécessitent une quantité non négligeable de données d’entraînement pour produire des résultats corrects. Pour les langues disposant de nombreuses ressources comme l’anglais et l’espagnol, les modèles sont généralement entraînés grâce à des millions de phrases mises en parallèle, ce qui leur permet d’apprendre à produire des traductions satisfaisantes. Les outils tels que Google Traduction apprennent des schémas implicites d’usages grammaticaux et linguistiques recueillis à partir de grandes quantités de données, ce qui leur permet de prédire des traductions exactes d’une langue à l’autre.

Seulement, comment faire lorsqu’une langue dispose de peu de ressources publiquement accessibles ? Jared Coleman, un informaticien de l’université Loyola Marymount, travaille sur une nouvelle approche permettant de faire face à ce défi. La langue autochtone de Coleman, le paiute parlé dans la Vallée de l’Owens, peut être considérée comme une langue « sans ressources », car il n’existe pas suffisamment de données publiquement accessibles qui permettent d’entraîner correctement les grands modèles de langage types à base d’IA pour celle-ci. C’est pourquoi Coleman a plutôt choisi de programmer un outil qui permette de familiariser un logiciel de traduction utilisant un grand modèle de langage aux règles grammaticales et lexicales de la langue, puis de lui demander de produire des traductions à partir de ces connaissances. Le peu de données d’entraînements dont dispose le modèle l’oblige donc à utiliser des stratégies de contournement pour trouver le sens de la phrase de départ, tout comme le ferait une personne qui apprendrait une langue. « Cette méthode permet de s’assurer que la grammaire de la phrase d’arrivée sera toujours correcte », explique-t-il.

Quant à l’apprentissage d’une langue en revanche, de nombreux ingénieurs autochtones prennent le soin de préciser que l’IA ne peut pas se substituer aux aînés et à ceux qui perpétuent les traditions. Les Skobots sont destinés à être utilisés auprès des jeunes en complément des cours de langues, et Danielle Boyer et son équipe déclinent poliment les propositions d’achat de leur produit par des particuliers. « Nos langues sont des organismes vivants. Nos langues ont besoin d’être connectées à leur communauté. Nos langues doivent se transmettre de bouche à oreille, affirme-t-elle, la technologie ne fait pas tout ».

L’attention que porte Coleman à l’exactitude grammaticale et la volonté de Boyer de combiner l’apprentissage technologique à l’expertise humaine viennent toutes deux de la même inquiétude : l’IA peut se tromper. En décembre 2024, la Montreal Gazette a publié un article sur la diffusion de livres d’apprentissage de la langue abénakise générés par l’IA. Les livres en question, vendus sur Amazon, contenaient des traductions erronées ou même des mots qui n’existaient pas en abénaki. Des membres de la Première Nation des Abénakis ont donc jugé ces ouvrages dévalorisants et décourageants pour les personnes souhaitant apprendre et faire revivre cette langue en danger. En effet, lorsqu’une communauté lutte pour conserver sa souveraineté linguistique après des siècles d’assimilation culturelle, voir du contenu incorrect être vendu par pur profit est particulièrement blessant, ont confié certaines sources à la Gazette.

En raison du peu de données disponibles sur les langues en voie de disparition, l’obtention d’informations correctes est bien souvent plus difficile. C’est pourtant ce manque de ressources qui, selon Coleman, rend l’exactitude primordiale : « Les fausses informations sur la langue se répandent en un clin d’œil, et les gens les adoptent vite », dit-il.

Les principaux grands modèles de langage comme ChatGPT possèdent peu de contenu sur les langues autochtones. « Nous devrions avoir notre mot à dire sur l’utilisation de nos langues, affirme Jacqueline Brixey. ChatGPT pourrait s’en sortir en chacta, mais sa grammaire est pour le moment incorrecte ; il diffuse donc de fausses informations sur cette tribu. Il invente ce qu’il prétend être des histoires tribales », ajoute-t-elle.

Michael Running Wolf, qui a déjà travaillé avec l’assistant personnel d’Amazon Alexa, ajoute que les efforts des géants de la tech ne suffisent pas à limiter les dégâts potentiels causés par la circulation d’informations erronées sur les langues. « Des contrôles de sécurité doivent être mis en place, ce qui n’est pas le cas, du moins pas comme les communautés le mériteraient », explique-t-il.

Running Wolf et d’autres soulignent l’importance d’examiner les motivations et les méthodes de ceux qui souhaiteraient travailler sur les langues en danger. Ce n’est pas surprenant quand on connaît l’exploitation passée des langues autochtones. En 1890, un anthropologue blanc du nom de Jesse Walter Fewkes a produit des enregistrements de contes et de chansons de la nation passamaquoddy sur cylindre phonographique, dont plusieurs étaient sacrés et destinés à rester secrets. Pendant près d’un siècle, les tribus locales n’ont pas eu accès à ces enregistrements et au savoir qu’ils renfermaient. Aujourd’hui considérés comme les plus anciennes archives ethnographiques orales qui subsistent à ce jour, ces enregistrements ont été au cœur d’un débat sur l’autonomie de la langue et sa réhabilitation au nord-est du continent.

Plus récemment, fin 2024, la tribu sioux de Standing Rock a attaqué en justice une entreprise de matériel éducatif pour enregistrement abusif de personnes parlant le lakota. Les membres de la tribu affirmaient que la société conservait illégalement et sans leur accord des enregistrements de leurs aînés dont elle tirait profit, puis exigeait de l’argent lorsque la tribu souhaitait y accéder.

Sachant que chaque tribu possède une culture différente, entraîner des modèles d’IA avec des données dans une langue autochtone peut avoir des conséquences imprévues, surtout lorsqu’il s’agit de contes ancestraux et populaires. Comme l’a expliqué Coleman, certaines histoires de sa tribu ne doivent être racontées qu’en hiver : « Comment garder cette tradition si tout est disponible en ligne ? », dit-il. Autrement dit, les modèles d’IA ne saisissent pas les nuances culturelles. Ils peuvent donc mal les interpréter s’ils ne sont pas correctement entraînés.

Dans leurs travaux, Brixey et Boyer insistent sur le fait que les participant·es peuvent à tout moment retirer leurs enregistrements et demander à ce que leur savoir ne soit pas inclus dans les données d’entraînement destinées à l’IA. Ces mesures permettent entre autres de garantir la souveraineté totale des tribus sur les données qui les concernent (ou sur leur savoir culturel), parmi lesquelles les langues représentent une part importante. L’UNESCO, l’organisme international en charge de la préservation du patrimoine culturel, a publié une déclaration visant à défendre le droit des populations autochtones à contrôler et à disposer de leurs données dans le cadre du développement des modèles d’IA pour la sauvegarde des langues. Selon l’UNESCO, prendre en compte le contexte et la sensibilité culturelle autochtone lorsque l’on étudie leur savoir, peu importe sous quelle forme il se trouve, « est essentiel au respect, à la protection et à la promotion générale de la diversité et de l’inclusivité ».

Les chercheur·euses autochtones à l’origine de ces projets de préservation des langues grâce à l’IA souhaitent mettre l’accessibilité et la diversité au premier plan des innovations technologiques. Comme l'ont expliqué les chercheuses Uma Pradhan et Joyeeta Dey, préserver les langues à l’aide de l’IA contribue à réparer les injustices historiques vécues par les communautés que l’on a découragées ou à qui l’on a même interdit de parler leur langue maternelle par le passé. Ces initiatives permettent non seulement de garder ces langues en vie en augmentant leur nombre de locuteurs, mais aussi de conserver la signification culturelle de celles-ci dans des espaces de technologie dominés depuis toujours par l’anglais, le chinois mandarin et autres langues internationales.

Running Wolf perçoit le développement de ces différents outils de sauvegarde des langues autochtones à base d’IA comme un moyen de rester au fait des innovations mondiales. Il espère que les travaux de FLAIR permettront de garantir que la voix des populations autochtones sera entendue dans la réalité virtuelle, augmentée, ou dans le métavers à venir.

« Nos peuples n’appartiennent pas qu’au passé, ils font aussi partie du présent et de l’avenir, précise Danielle Boyer. Nous avons toujours été des scientifiques. Nous avons toujours été des ingénieurs. Nous avons toujours été innovants. »

Autrice de l'article original : Serena Jampel

Traduit par Lorena Danhyer

Source : https://www.smithsonianmag.com/science-nature/can-ai-help-revitalize-indigenous-languages-180987060/