Fabroni Bill Yoclounon, fondateur de IamYourClounon et spécialiste en digitalisation des langues et cultures béninoises et africaines
L’intelligence artificielle accessible en fongbé, en haoussa ou encore en wolof est sans doute un moyen révolutionnaire de réduire la fracture technologique entre les pays du Nord et l’Afrique. Mais face à la diversité des langues sur le continent, peut-on espérer une africanisation des LLM ? Mieux, les modèles développés en Afrique par des Africains ne doivent-ils pas s’approprier nos langues ?
Selon l’UNESCO, l’Afrique compte entre 1 500 et 3 000 langues. Avec une telle richesse linguistique, les solutions LLM « Made in Africa » ont un défi de taille à relever. Pendant que les Occidentaux se concentrent sur le développement de modèles axés sur des structures alphabétiques et linguistiques « standards », les startups africaines doivent saisir les opportunités presque illimitées qu’offre l’IA pour adresser les problèmes du continent.
Sur cette question, Fabroni Bill Yoclounon, fondateur de IamYourClounon et spécialiste en digitalisation des langues et cultures béninoises et africaines, évoque l’utilité de l’IA pour la préservation du patrimoine culturel de l’Afrique. D’après lui, « il est crucial pour les Africains de s’exprimer et d’assurer la transmission de leurs langues par le biais des machines intelligentes. L’IA devient aujourd’hui une opportunité pour corriger le tir, alors que par le passé, les langues africaines étaient essentiellement parlées et peu documentées. »
De son côté, l’Union africaine, dans son document stratégique pour l’IA sur le continent, indique que celle-ci peut stimuler la croissance économique, créer de nouvelles industries, générer des opportunités d’emploi et développer de nouveaux créneaux d’activité économique pour les femmes et les jeunes. Mais le processus de digitalisation et d’automatisation des langues africaines a encore du chemin à parcourir.
Les possibilités des LLM en langues locales pour les citoyens et l’État
La promesse des LLM africains ne se limite pas au symbole : elle touche au quotidien des populations. Sur le continent, il existe des solutions d’intelligence artificielle qui révolutionnent divers aspects de la vie. Au Kenya par exemple, UlizaLlama, un LLM open source multilingue (swahili, haoussa, yoruba, xhosa, zoulou), offre un soutien personnalisé en temps réel sur la santé maternelle, atteignant des millions de personnes via des ONG et des services publics.
NDEMRI, au Cameroun, utilise des LLM (comme GPT-4 adapté) pour fournir des conseils agricoles localisés aux fermiers ruraux par SMS, couvrant la gestion des sols, des ravageurs et des prix du marché. Ainsi, les LLM ont le potentiel de soutenir et d’aider à résoudre les défis complexes et urgents de l’Afrique dans les domaines de la santé, de l’agriculture, de l’éducation et de la prestation des services publics.
Pour Fabroni Yoclounon, ils favorisent un apprentissage accéléré des langues africaines et la production de contenus locaux. Il évoque également leur capacité à renforcer l’identité africaine ainsi que la souveraineté. « La question des langues est une question de souveraineté. La souveraineté linguistique est au service de la souveraineté étatique d’un pays », précise-t-il.
La présence des langues africaines dans un LLM pourrait également accélérer la conception des curricula scolaires en langues locales. « Les enfants pourraient ainsi apprendre et étudier dans leur langue, et en être fiers », explique-t-il.
Pour les services publics, l’intégration des langues africaines dans un LLM faciliterait l’accès aux prestations essentielles qui, au-delà de la santé et de l’éducation, concernent aussi les services financiers. « Pouvoir effectuer des opérations financières dans sa langue est déterminant, car de nombreux parents ne maîtrisent pas le français et se retrouvent bloqués dans leurs démarches. » Pourtant, les données sont limitées et les langues locales complexes. La réalité du terrain révèle un écart significatif entre l’ambition et la faisabilité.
Les langues africaines et modèles de langage : un mariage difficile
Derrière l’enthousiasme, des contraintes techniques et structurelles freinent encore l’élan. En effet, les langues africaines présentent une morphologie complexe, un manque d’orthographe standardisée et des scripts variés.
« Pour entraîner les machines, il faut des milliers d’heures de données vocales, transcrites et validées dans les langues. Leur rareté et l’absence de travaux de qualité freinent leur intégration dans les systèmes. […] Nos langues sont tonales et s’écrivent avec des tons et des diacritiques bien précis. Un ton mal placé change le sens du mot. Cela demande plus de travail aux personnes qui collectent les données et doivent les traiter », renseigne le fondateur de IamYourClounon.
De plus, le développement de LLM nécessite une infrastructure coûteuse et des compétences rares, des difficultés aggravées par le fossé numérique et les coûts élevés en Afrique. Le financement insuffisant et la dépendance des projets africains aux partenariats externes limitent la scalabilité de LLM pourtant prometteurs.
Si la dynamique de valorisation des langues est en croissance, elle se heurte encore aux biais culturels et politiques historiques qui marginalisent les langues indigènes au profit des langues coloniales. Néanmoins, il est probable que le continent trouve son rythme malgré les grands défis qui s’imposent.
Les voies du succès des LLM
Pour que l’IA parle réellement africain, un cap clair doit être fixé. La stratégie continentale sur l’intelligence artificielle de l’UA n’inscrit pas encore la digitalisation et l’automatisation des langues africaines comme une intervention prioritaire. Paradoxalement, sans cela, l’inclusion numérique — qui dépasse aujourd’hui la simple couverture internet ou la maîtrise d’un smartphone — ne serait pas possible.
Sur le chemin des LLM « Made in Africa », il existe des défis qui, avec de l’engagement et de l’investissement, pourraient être surmontés. Cela passe d’abord par la création de bases de données massives à travers des plateformes adaptées comme All Voices, qui mobilisent les locuteurs natifs pour enregistrer voix et textes dans plus de 40 langues à faibles ressources, ayant déjà généré 400 Go de données vocales et textuelles.
« Il faut créer et collecter des données. Aucune méthode n’est de trop. Il faut de la fast data, de la data de qualité et de moindre qualité. Il faut créer et produire de la donnée partout et en open source », préconise le spécialiste, ayant activement participé au projet #JaimeMaLangue initié par le gouvernement béninois.
En s’appuyant sur des modèles de langage déjà disponibles, les LLM pourront s’adapter aux langues locales à partir de petits jeux de données initiaux, puis s’enrichir progressivement grâce à un mécanisme d’itération validé par l’humain. Au-delà de la question du financement, la volonté politique de soutenir les initiatives locales est primordiale.
« Il ne s’agit pas seulement de regarder les géants technologiques, mais de créer nous-mêmes nos propres leaders. Il y a de grandes entreprises aujourd’hui, des startups, qui font des merveilles sur le continent. Il faut investir dans ces structures, et il appartient à nos chefs d’État de le faire afin de bâtir une véritable souveraineté linguistique et numérique », suggère Fabroni Bill Yoclounon.





