Logo de l'OEP
Logo de l'OEP

Nouvelle version améliorée d'une approche alternative pour produire des indicateurs de la présence des langues dans l’Internet (Funredes)

Daniel Pimienta
Observatoire de la diversité linguistique et culturelle
dans l’Internet
http://funredes.org/lc

Août 2021

Dans un contexte de rareté de données fiables sur l'espace des langues dans l’Internet, l'approche alternative de 2017 pour la production d'indicateurs du comportement dans l’Internet des 140 langues avec plus de 5 millions de locuteurs, a été enrichie et actualisée. Les améliorations de cette approche, laquelle est basée sur la collecte d'une large série de micro-indicateurs des langues ou des pays dans divers espaces ou applications de l’Internet (ou en relation avec l’Internet) sont exposés. L'utilisation des dernières données produites par Ethnologue a permis de disposer des chiffres démolinguistiques les plus fiables et actualisés et également de fournir les éléments pour surmonter l'un des biais majeurs de la méthode, lié au traitement des locuteurs L2. Les six indicateurs de la présence des langues dans l’Internet qui ont été définis et instruits en 2017 (internautes, trafic, usage, contenus, index sociétaux et
interfaces), et les quatre macro-indicateurs qui en sont déduits (puissance, capacité, gradient et productivité des contenus) sont reproduits, après mises à jour pour 2021 de toutes les sources. Les résultats montrent une présence de l'anglais en diminution relative, autour de 25 % (versus 30% en 2017) et le chinois en forte augmentation, tandis que l'espagnol se conforte en troisième position. Le français partage désormais la quatrième place avec l'hindi, avec une avance réduite, par rapport à 2017, sur un groupe de langues aux positions très proches : portugais, russe, arabe et allemand. Comme dans l'édition 2017, tous les biais possibles dérivés de la méthode, des hypothèses ou des sources sont examinés et une estimation est proposée qui prend en compte ces biais, pour les langues de majeure puissance. Il est prévu pour fin 2021 un nouvel ensemble d'améliorations avec la possibilité d'étendre
les résultats pour les 332 langues avec plus de 1 million de locuteurs L1.

Mots clés: Langues, Internet, diversité linguistique, indicateurs, biais

Contenu
RESUMÉ
................................................................................................................................................................ 2
CONTEXTE
........................................................................................................................................................... 5
1.
INTRODUCTION ......................................................................................................................................... 7
2.
DIFFÉRENCES PAR RAPPORT À LA PREMIÈRE VERSION................................................................. 7
2.1 Adoption de la base de données d’Ethnologue comme source démolinguistique ...................... 7

2.2 Gestion des L2 et du multilinguisme
............................................................................................. 8
2.3 Source pour les personnes connectées à l’Internet
..................................................................... 9
2.4 Gestion des sources pour les micro-indicateurs ......................................................................... 10

2.4.1
INDEX .................................................................................................................................................... 11
2.4.2
CONTENUS ........................................................................................................................................... 12
2.4.3
TRAFIC .................................................................................................................................................. 14
2.4.4
INTERFACES ....................................................................................................................................... 15
2.4.5
USAGES ................................................................................................................................................. 15
2.5
Résumé des indicateurs ........................................................................................................ 15
3.
RÉSULTATS ............................................................................................................................................... 17
4. ANALYSE DES RÉSULTATS........................................................................................................................ 20

5. ANALYSE DES BIAIS .................................................................................................................................... 21

5.1
Les biais propres à la méthode ............................................................................................. 21
5.2
Biais de la sélection des sources ........................................................................................... 22
5.3
Les biais des sources ............................................................................................................. 22
5.3.1 Les biais de Wikimédia ............................................................................................................................. 25

5.3.2 Les biais d’Alexa ........................................................................................................................................ 31

5.4 Correction des biais..................................................................................................................... 33

6.
CONCLUSIONS ET PERSPECTIVES ....................................................................................................... 37
RÉFÉRENCES ..................................................................................................................................................... 39

ANNEXE 1. LISTE DES MICRO INDICATEURS ET SOURCES ................................................................... 40

ANNEXE 2 : MACROLANGUES....................................................................................................................... 49

ANNEXE 3 : LISTE DES PAYS OU TERRITOIRES OU L'UIT NE PROPOSE PAS DE DONNÉES ............ 50

ANNEXE 4 : RÉSULTATS POUR TOUTES LES LANGUES .......................................................................... 51

Télécharger