Logo de l'OEP
Logo de l'OEP

Indicateurs de présence des langues sur Internet (Funredes, fr, en, es, pt)

Daniel Pimenta

Observatoire de la diversité linguistique et culturelle dans l’Internet

http://funredes.org/lc

Lien de la ressource : http://funredes.org/lc2022

Résumé

Des indicateurs fiables et maintenus de l'espace des langues sur Internet sont nécessaires pour soutenir des politiques publiques appropriées et des études linguistiques bien informées. Les sources actuelles sont rares et souvent fortement biaisées. Le modèle de production d'indicateurs sur la présence des langues dans l’Internet, lancé par l'Observatoire en 2017, a atteint un niveau de maturité raisonnable et ses produits de données sont partagés sous licence CC-BY-SA 4.0. Il traite désormais 329 langues (locuteurs L1 > un million) et tous les biais associés au modèle ont été contrôlés à un seuil acceptable, permettant de compter sur un intervalle de confiance estimé à +-20%. Certains des indicateurs (principalement le pourcentage de locuteurs L1+L2 connectés à l’Internet par langue et dérivés) reposent sur Ethnologue Global Dataset #24 pour les données démolinguistiques et l’UIT, complété par la Banque mondiale, pour le pourcentage de personnes connectées à l’Internet par pays. Le reste des indicateurs s'appuie sur les sources précédentes plus une grande combinaison de centaines de sources différentes pour les données liées aux contenus Web par langue. Cet article porte sur la description des nouvelles ressources linguistiques créées. Les considérations méthodologiques ne sont exposées que brièvement et seront développées dans un autre article.

Mots clés: Ressource linguistique, Langues, Internet, Indicateurs, Multilinguisme

Exemple

Langues_sur_internet-principaux_indicateurs.jpeg

Télécharger fr, en, es, pt