Logo de l'OEP
Logo de l'OEP

Baromètre Calvet des langues du monde (source : Portalingua)


Zuletzt aktualisiert: 19 Mar 2011

Publié  à l'origine sur Portalingua

Utiliser le baromètre

Le contenu de la rubrique « Poids des langues » est proposé sous la responsabilité de ses auteurs, Alain Calvet et Louis-Jean Calvet.

Sont ici prises en compte les 137 langues de plus de 5 millions de locuteurs (selon Ethnologue). La même valeur 1 est accordée par défaut à chacun des dix facteurs. En déplaçant les curseurs ci-dessous chacun pourra pondérer le coefficient des différents facteurs en fonction de l'importance qu'il souhaite leur accorder.

La partie « poids des langues » du site a été réalisée par Alain Calvet, docteur ès sciences et Louis-Jean Calvet, docteur ès lettres et sciences humaines, professeur de linguistique.

Lorsque l’on s’interroge sur l’importance relative des langues, le critère du nombre de locuteurs est toujours le premier à apparaître : quelle est la langue la plus parlée au monde ? Combien de gens parlent cette langue ?, etc. Mais cette approche pose un double problème. D'une part, le décompte des locuteurs n’est pas une science exacte et les différentes sources disponibles donnent des chiffres différents et ne parviennent pas toujours aux mêmes classements. Par ailleurs, d’autres facteurs jouent un rôle dans la détermination du « poids » des langues. Ce baromètre repose pour le moment sur dix facteurs choisis parce qu’ils apparaissent comme pertinents, mais aussi parce que les données étaient disponibles pour chacun d’entre eux. Il est bien sûr possible d’envisager d’autres facteurs que ceux qui sont ici pris en compte . La genèse de ce travail remonte au colloque tenu à Aix-en-Provence en septembre 2007. Le projet a évolué depuis lors et évoluera encore comme nous le verrons plus bas.

Nous avons pris en compte les langues qui selon Ethnologue ont plus de cinq millions de locuteurs, elles sont au nombre de 137. Le choix du site Ethnologue comme point de départ est à nos yeux justifié par le fait que malgré ses imperfections il est le plus complet et le plus cohérent pour ce type d’étude. Les sources des différents facteurs et la manière dont ils sont traités sont décrites plus bas.

Par défaut, nous affectons la même importance à chacun des facteurs, mais en modifiant la position des curseurs de pondération, chacun pourra modifier le classement en fonction de ses besoins.

Facteurs et sources

Nombre de locuteurs

Il s’agit des locuteurs de langue première, tels que répertoriés par le site Ethnologue. Ce choix implique bien sûr que nous acceptions la liste des langues proposée par ce site, ce qui pose quelques problèmes. Ethnologue a en effet tendance à diviser à l’extrême certaines langues en variantes différentes. Nous n’en prendrons qu’un exemple, celui du malais. Le site donne plus de vingt malais différents, à quoi il faut ajouter l’« indonésien » (ou bahasa indonesia), donné comme partageant 80 % de mots apparentés avec le malais standard qui lui-même est donné comme appartenant à une « macro langue » malais. Mais l’indonésien n’appartient pas, toujours selon le site, à cette macro langue. Et nulle part n’est posée la question de l’éventuelle intercompréhension entre ces différents malais. En outre, Ethnologue ne prend en compte que le nombre des locuteurs L1, ce qui a le désavantage de donner peu de visibilité au phénomène véhiculaire : ainsi, l’indonésien a pour Ethnologue un peu plus de 23 millions de locuteurs L1, mais 140 millions de locuteurs L2. Et cette absence de visibilité est encore plus manifeste avec une langue comme le swahili, donné avec un peu plus de 300.000 locuteurs L1 en Tanzanie et 30 millions de locuteurs L2, soit cent fois plus. Mais, ici comme pour les autres facteurs, nous nous sommes interdit de corriger nos sources, pour d’évidentes raisons de cohérence scientifique. En revanche, nous ne suivons pas toujours Ethnologue pour ce qui concerne les noms des langues, que nous avons bien sûr traduits de l’anglais mais aussi parfois modifié. Ainsi, le site confond parfois le nom d’un peuple (Mossi) et celui de sa langue (mooré), ou encore distingue entre farsi Est et farsi Ouest là où nous distinguons entre dari et farsi. Mais cela ne change rien à la liste des langues, qui sont définies de manière unique grâce à un code à trois caractères, le code ISO 639-3.

Nombre de pays dans lesquels la langue a un statut officiel

Nous ne prenons en compte que les langues officielles de jure, dans la liste établie par le site de l’Université Laval. Nous nous en séparons cependant sur un point. Ce site comptabilise parfois la même langue pour un pays et une ou deux régions du pays en question. Par exemple, l’allemand est considéré comme officiel en Suisse, dans le canton de Berne, de Fribourg, etc., ou encore le Français est considéré comme officiel en Belgique, à Bruxelles capitale, dans la communauté francophone de Belgique… Dans ces cas, nous ne comptons le pays qu’une fois.

Il faut alors noter que la taille d’un pays n’est pas ici prise en compte, seule la souveraineté importe ce qui conduit à considérer que Monaco, le Liechtenstein ou Andorre sont plus importants que la Bavière ou la Californie. Nous avons en outre corrigé quelques oublis, comme le quechua.

Nombre d’articles dans Wikipédia

Nous utilisons ici les données que l’on trouve sur le site de Wikipédia.

Le nombre que nous retenons est la somme de tous les articles publiés dans Wikipédia depuis l’origine de l’encyclopédie jusqu’au 23 novembre 2009. En cas d’ambiguïté, par exemple lorsque Wikipédia affecte un nombre d’articles à une langue alors qu’il en existe des variantes, nous affectons à chaque variante un nombre d’articles calculé au prorata du nombre de ses locuteurs. C’est le cas des azéris (du nord et du sud), des farsis (de l’est et de l’ouest), des panjabis (de l’Est et de l’Ouest) et des pashtouns (central et du nord). En revanche dans le cas des ouzbeks, la totalité des articles a été affectée à l’ouzbek du nord parlé en Ouzbékistan, les 1.5 millions de locuteurs de l’ouzbek du sud vivant pour la plupart en Afghanistan ont été ignorés.

Nombre de prix Nobel de littérature

Nous utilisons ici les données que l’on trouve sur le site http://nobelprize.org/. Les valeurs ont été mises à jour en novembre 2009. Le prix de Hertha Müller est donc pris en compte. Nous affectons le prix à la langue dans laquelle l’auteur a écrit l’essentiel de l’œuvre qui l’a distingué. Ainsi, Rabindranath Tagore écrit en Bengali, Gao XingJian en Mandarin, bien que titulaire d’un passeport français et Herta Müller en Allemand, même si elle est roumaine.

Entropie

L’entropie est une fonction qui permet de quantifier le « désordre ». Elle a été utilisée à l’origine en thermodynamique, puis a trouvé des applications en théorie de l’information et plus récemment en linguistique. Nous l’utilisons ici pour différencier une langue parlée dans un seul pays d’une langue parlée dans plusieurs pays, pi sera donc la proportion des locuteurs d’une langue donnée vivant dans les pays concernés. Classiquement l’expression mathématique de l’entropie est la suivante :

Entropie = -Σ(pi x Log(pi))

dans laquelle pi est la probabilité pour un système de se trouver dans un état donné et Log(pi) le logarithme naturel de cette probabilité, le symbole Σ indique que l’on fait la somme de tous les états pi possibles. Dans notre cas nous utilisons évidemment pi ainsi que défini plus haut. La valeur minimale de cette fonction est zéro et il n’existe pas de valeur maximale définie.

Considérons une langue parlée très majoritairement (98%) dans un pays et dont quelques locuteurs vivent dans un second, l’entropie sera :

(0,98 x Log0,98 +0,02 x Log0,02) = 0,098

Une langue dont les locuteurs sont répartis de manière égale sur trois pays aura une entropie de

(0,33 x Log0,33 + 0,33 x Log0,33 + 0,34 x Log0,34) = 1,099

Voyons à présent quelques exemples réels, ceux du marathi, de l’amharique, de l’espagnol et de l’arabe :

  • Marathi : 0,003
  • Amharique:0,019
  • Espagnol : 2,509
  • Arabe : 2,279

L’entropie n’a donc rien à voir avec le nombre global de locuteurs d’une langue, mais bien avec la façon dont ces locuteurs sont répartis dans l’aire ou les aires dans lesquelles cette langue est parlée. Elle est calculée à partir des données de population décrites plus haut.

Taux de fécondité

Nous utilisons ici les données que l’on trouve sur le site des Nations Unies ayant trait au programme de développement humain. L’indice de fécondité est le nombre d’enfants par femme. Pour affecter une valeur à chaque langue, nous faisons une moyenne pondérée de l’indice dans chacun des pays dans lesquels la langue est parlée, sous réserve que le nombre de locuteurs dans le pays considéré soit au moins égal à 1 % du nombre de locuteurs de la langue dans le monde. Par exemple, 80 % des locuteurs de l’ourdou vivent en Inde et 18 % au Pakistan, l’indice de fécondité affecté à l’ourdou sera donc :

Féconditéourdou = (0,80 x FéconditéInde + 0,18 x FéconditéPakistan)/(0,80 + 0,18)

En revanche, 0,7% des locuteurs de l’ourdou vivent au Royaume-Uni et 04 % au Bangladesh. Nous négligeons la contribution de ces locuteurs, leur proportion étant trop faible pour que les valeurs des indices de fécondité du Royaume-Uni et du Bangladesh aient un impact significatif sur la valeur relative à l’ourdou.

Le site de l’UNDP cité ci-dessus ne fournit de données que pour les pays affiliés à l’ONU et pour lesquels un indice a été effectivement calculé, ce qui exclut notamment les pays non membres de l’ONU et les pays en guerre. Dans les cas où le pays n’est pas référencé sur le site nous utilisons les données fournies par : L’état du monde 2009, Bertrand Bedie, Sandrine Tolotti, Paris, La Découverte 2008.

Indice de développement humain (IDH)

Nous utilisons ici les données que l’on trouve sur le site des Nations Unies ayant trait au programme de développement humain.

L’indice de développement humain est un indice composite prenant en compte le produit national brut par individu, l’espérance de vie à la naissance et le niveau d’éducation. Il quantifie le niveau de développement d’un pays. Pour affecter une valeur à chaque langue, nous faisons une moyenne pondérée de l’indice dans chacun des pays dans lesquels la langue est parlée sous réserve que le nombre de locuteurs dans le pays considéré soit au moins égal à 1 % du nombre de locuteurs de la langue dans le monde. Par exemple, 80 % des locuteurs de l’ourdou vivent en Inde et 18 % au Pakistan, l’IDH affecté à l’ourdou sera donc :

IDHourdou = (0,80 x IDHInde + 0,18 x IDHPakistan)/(0,80 + 0,18)

En revanche, 0,7 % des locuteurs de l’ourdou vivent au Royaume-Uni et 0,4 % au Bangladesh. Nous négligeons la contribution de ces locuteurs, leur proportion étant trop faible pour que les niveaux de développement du Royaume-Uni et du Bangladesh aient un impact significatif sur la valeur relative à l’ourdou. Le site de l’UNDP cité ci-dessus ne fournit de données que pour les pays affiliés à l’ONU et pour lesquels un indice a été effectivement calculé, ce qui exclut notamment les pays non membres de l’ONU et les pays en guerre. Dans ce cas nous affectons au pays non documenté un indice supposé que nous décidons par analogie avec les pays voisins et/ou comparables. Ainsi, nous avons considéré les indices suivants :

  • Corée du Nord : 0,600
  • Irak : 0,600
  • Somalie : 0,400
  • Taiwan : 0,900

Taux de pénétration d’internet

Nous utilisons ici les données que l’on trouve sur le site Internet World Stats qui maintient à jour le nombre de liaisons internet dans chacun des pays du monde.

L’indice de pénétration d’Internet est le nombre d’utilisateurs d’Internet divisé par la population totale du pays. Pour affecter une valeur à chaque langue, nous faisons une moyenne pondérée de l’indice dans chacun des pays dans lesquels la langue est parlée sous réserve que le nombre de locuteurs dans le pays considéré soit au moins égal à 1 % du nombre de locuteurs de la langue dans le monde. Par exemple : 80 % des locuteurs de l’ourdou vivent en Inde et 18 % au Pakistan, l’IDH affecté à l’ourdou sera donc :

Internetourdou = (0,80 x InternetInde + 0,18 x InternetPakistan)/(0,80 + 0,18)

En revanche, 0,7 % des locuteurs de l’ourdou vivent au Royaume-Uni et 0,4 % au Bangladesh. Nous négligeons la contribution de ces locuteurs, leur proportion étant trop faible pour que les valeurs des indices de pénétration d’Internet du Royaume-Uni et du Bangladesh aient un impact significatif sur la valeur relative à l’ourdou. Les données utilisées sont celles indiquées sur le site utilisé le 21 novembre 2009.

Nombre de traductions, langue cible et langue source

Nous utilisons ici les données de l’Index translationum que l’on trouve sur le site de l’UNESCO.

Dans certains cas l’Index translationum indique une langue qui aurait « disparu ». C’est le cas du serbo-croate, code iso [hbs] qui indique qu’avant 1992 ce que parlaient les Croates, les Bosniaques et les Serbes était considéré comme une seule et même langue. Après 1992, translationum compile les traductions à partir du croate [hrv], du bosniaque [bos] et du serbe [srp]. Pour tenir compte des traductions antérieures à 1992, nous les répartissons entre les trois langues « nouvelles » au prorata du nombre de traductions à partir de ces trois langues après 1992. Cette méthode n’est bien sûr pas parfaite, mais nous avons pensé que l’affectation des traductions antérieures à 1992 au seul serbe favoriserait celui-ci par rapport au croate et au bosniaque. L’affectation du nombre total de traductions antérieures à 1992 aux trois langues favoriserait celles-ci par rapport aux autres langues. Un cas analogue de langue hypothétique se présente avec le « chinois ». Translationum reporte des données pour le chinois [zho], le chinois ancien [och] et le chinois yué [yue]. Dans ce cas, nous affectons les données relatives au « chinois » [zho] au seul mandarin et les données relatives au yué à celui-ci. Les données relatives au chinois ancien [och] ne sont pas prises en compte, tout comme celles relatives au grec ancien et au latin.

Une troisième situation est celle de l’arabe, il existe un arabe « standard » [ara] et plus de 25 arabes dialectaux. Tous les arabes dialectaux sont évidemment des langues vivantes et l’arabe standard ou littéraire est une langue « commune » qui ne possède aucun locuteur en langue maternelle. Cependant, l’Index translationum reporte des données pour l’arabe standard [ara] et l’arabe marocain [ary] mais rien pour les arabes égyptien et algérien qui sont les plus parlés avec le marocain ni pour aucune des autres variétés dialectales. Dans ce cas contrairement au serbo-croate et au chinois les données relatives à l’arabe standard sont affectées à lui et à lui seul. La raison de ce choix réside pour une part dans notre volonté de respecter les décisions des peuples. Les Croates, Bosniaques et Serbes souhaitent qu’il existe trois langues différentes correspondant à leurs trois pays. Dans le cas des arabes, la communauté arabo-musulmane souhaite qu’il existe une langue commune supposée comprise de tous au travers du Coran. Le cas du chinois est plus difficile à rationaliser. Il existe évidemment plusieurs chinois parlés, non intercompréhensibles, mais « un seul » chinois écrit commun à toutes les variétés dialectales. L’information compilée sous le code [zho] chinois ne permet pas d’affecter la traduction à l’une ou l’autre des variétés. Nous aurions pu choisir d’affecter les valeurs au prorata du nombre de locuteurs de celles-ci. Nous avons fait l’hypothèse que la grande majorité des traductions venaient du chinois mandarin et donc affecté toutes les données du chinois [zho] au chinois mandarin [cmn]. Certains lecteurs mieux informés pourront être en désaccord avec notre choix, il fallait en faire un et nous assumons celui-ci.

Le cas du tchèque [ces] et du slovaque [slk] est encore différent. L’Index translationum ne reporte pas de langue commune antérieure à la séparation des deux pays. Nous respectons ici les affectations de l’index. Nous aurions pu rechercher les traductions antérieures à la séparation des deux pays et les affecter à chacune des deux langues au prorata des traductions postérieures à la séparation. Nous avons ici choisi de respecter le choix de l’index, il n’existait pas de langue tchécoslovaque, mais bien un tchèque et un slovaque.

Ces considérations s’appliquent au cas des langues sources que des langues cibles.

Traitement des données

Les différents facteurs utilisés, comme ceux que nous pourrions ajouter, ne nous donnent pas le même type de classement : des valeurs catégorielles d’une part (oui/non) et des valeurs continues d’autre part (une hiérarchie de 1 à 7000, s’il y a 7000 langues dans le monde).

Pour résoudre ce problème, nous avons normé les valeurs brutes en procédant à une transformation linéaire suivant la formule :

Valeurnormée = (Valeurbrute-ValeurBruteminimale) / ( ValeurBrutemaximale-ValeurBruteminimale)

Cette transformation affecte la valeur normée 1 à la valeur brute maximale du facteur, la valeur normée 0 à la valeur brute minimale et des valeurs intermédiaires réparties de façon linéaire pour les autres valeurs.

Le résultat est que tous les facteurs varient entre 0 et 1 ce qui permet de leur affecter un poids « égal ».

Utilisation d’autres facteurs

Pour établir un classement des langues, on peut évidemment utiliser bien d’autres facteurs et chacun peut les imaginer. À titre d’exemple, nous pouvons citer :

  • La langue est-elle officielle dans un organisme international ?
  • Nombre de publications scientifiques dans la langue
  • Nombre de prix Nobel scientifiques dont les auteurs s’expriment dans la langue
  • Taux d’alphabétisation des pays dans lesquels la langue est parlée
  • La langue est-elle utilisée dans les moteurs de recherche sur Internet ?
  • Existe-t-il une suite bureautique dans la langue ?
  • Classement des entreprises des pays dans lesquels la langue est parlée
  • Taux de pénétration de la téléphonie fixe et mobile dans les pays dans lesquels la langue est parlée
  • Nombre d’étudiants étudiant la langue comme langue étrangère
  • Nombre de pays dans lesquels il est possible d’étudier la langue comme langue étrangère
  • Taux de croissance du PIB
  • Taux de possession d’un ordinateur personnel dans les pays dans lesquels la langue est parlée
  • Production et/ou exportation cinématographiques dans la langue considérée
  • Et bien d’autres.

Un des problèmes dans le traitement de nos données est que toutes les lignes et colonnes doivent être remplies. En cas de données manquantes, nous avons quatre solutions :

  1. Supprimer la ligne (donc une langue)
  2. Supprimer la colonne (donc un paramètre)
  3. Affecter la valeur zéro à la langue concernée pour ce paramètre
  4. Affecter à la valeur manquante la valeur moyenne des valeurs présentes dans la colonne

La solution 1 est acceptable, mais si elle est employée trop souvent nous nous retrouverons avec un nombre de langues très restreint, c’est-à-dire les grandes langues des grands pays du monde, quel que soit le sens que nous donnons au mot grand.

La solution 2 n’est évidemment pas envisageable, nous souhaitons ici ajouter des paramètres et non en supprimer.

La solution 3 peut être acceptée. Par exemple, affecter la valeur nulle au nombre de publications scientifiques dans une langue mineure de Papouasie ou du Cameroun n’est bien sûr pas une cause d’erreur grave.

Nous pouvons employer la quatrième solution si nous sommes certains que la valeur cherchée n’est pas nulle, mais que nous sommes incapables de la trouver dans les bases de données. Nous pouvons affecter la valeur moyenne des langues « comparables » pour lesquelles le paramètre est disponible. Nous ne sommes pas très loin du choix arbitraire de la valeur. Nous sommes dans un constat d’échec. Il est donc clair que nous souhaitons des données complètes, homogènes dans la source et la méthode de calcul et si possible dans le temps.

Dans certains cas, les données sont parfaitement disponibles et introduire un nouveau paramètre serait facile. Dans d’autres, nous n’avons pas été capables de localiser une source convenable, ce qui ne signifie pas qu’une telle source n’existe pas.

Il se pose alors un nouveau problème, celui de l’indépendance des données. En effet, on observe par exemple que la fécondité est corrélée négativement avec l’Indice de développement humain, le coefficient de corrélation étant égal à -0,81. De même, la valeur Wikipédia est très corrélée avec la valeur langue source (R= 0,93). Il existe bien d’autres exemples de corrélations entre les divers paramètres, il est ici inutile de les citer tous. Pour parler clair, l’information que nous traitons est redondante, cela n’apparait pas de manière évidente, mais une analyse statistique simple des données met le phénomène en évidence. L’ajout de nouveaux facteurs augmentera cet aspect redondance de l’information. Il existe une méthode mathématique simple pour traiter ce problème : l’analyse en composantes principales (ACP). Elle consiste à calculer de nouveaux facteurs virtuels dont aucun n’est corrélé avec les autres. Le résultat est que le pourcentage d’information fourni par les composantes principales est concentré sur un nombre restreint de facteurs. Dans notre cas, les dix paramètres peuvent être réduits à cinq paramètres totalement indépendants les uns des autres et qui retiennent 94 % de l’information comme on peut le voir ci-dessous :

CP N°Valeur proprePourcentagePourcentage cumulé
1 5,0332 50,332 50,332
2 2,0517 20,517 70,849
3 0,9341 9,341 80,190
4 0,8256 8,256 88,446
5 0,5522 5,522 93,967
6 0,3049 3,049 97,017
7 0,1228 1,228 98,244
8 0,0977 0,977 99,221
9 0,0572 0,572 99,793
10 0,0207 0,207 100,000

L’avantage est une simplification du problème, l’inconvénient est que l’analyse de la signification des composantes principales qui sont des combinaisons des paramètres originaux réclame un effort de réflexion supplémentaire. Ceci constitue une voie de recherche pour l’avenir.

Faites votre propre classement

Nos dix facteurs sont considérés dans notre traitement comme équivalents, c’est-à-dire qu’ils sont affectés du même coefficient. Mais le visiteur de ce site pourra utiliser notre travail pour faire son propre classement. Il dispose pour cela de deux possibilités: soit changer le coefficient de certains facteurs, leur donner plus ou moins d’importance, à l’aide des curseurs, soit supprimer certains facteurs, en mettant le curseur à zéro. Ce baromètre des langues constitue en effet une aide à la décision en matière de politique linguistique, et l’on peut dans ce cadre avoir besoin d’un classement fondé sur une partie seulement des facteurs que nous utilisons. Imaginons par exemple que les concepteurs d’un nouveau logiciel doivent choisir un nombre limité de langues dans lesquelles le rédiger. Ils peuvent sélectionner trois facteurs (nombre de locuteurs, nombre d’articles dans Wikipédia, pénétration d’Internet) particulièrement pertinents pour leur propos et mettre les autres à zéro. Imaginons maintenant que, pour lancer une radio internationale, des entrepreneurs se demandent en quelles langues émettre pour avoir la diffusion la plus large. Ils peuvent sélectionner trois facteurs (nombre de locuteurs, statut officiel, entropie) et mettre les autres à zéro. Un tel choix assure un grand nombre de locuteurs potentiels, des locuteurs ayant un niveau de vie suffisant pour posséder un récepteur de radio, et la probabilité que la langue d’émission soit reconnue et donc enseignée à l’étranger. Le résultat de ces opérations donnerait pour les dix premières langues les classements suivants :

Classement « logiciel »

  • Anglais
  • Mandarin
  • Japonais
  • Allemand
  • Français
  • Néerlandais
  • Suédois
  • Finnois
  • Danois
  • Espagnol

Classement « radio »

  • Anglais
  • Mandarin
  • Français
  • Espagnol
  • Allemand
  • Japonais
  • Italien
  • Portugais
  • Néerlandais
  • Suédois

Bien entendu, le choix des facteurs reste de la responsabilité de l’utilisateur et notre propos n’est ici que de donner deux exemples possibles.

 

Facteurs Pondération
Nombre de locuteurs
Entropie
Indice de développement humain
Taux de fécondité
Taux de pénétration d'Internet
Nombre d'articles dans Wikipédia
Langues officielles
Prix Nobel de littérature
Traduction : langue source
Traduction : langue cible
Rang Langue Score
1. anglais 7,238
2. français 4,587
3. espagnol 4,465
4. allemand 4,156
5. néerlandais 2,997
6. japonais 2,776
7. suédois 2,772
8. arabe 2,660
9. italien 2,634
10. danois 2,495
11. finnois 2,459
12. russe 2,318
13. mandarin 2,303
14. hébreu 2,303
15. polonais 2,279
16. portugais 2,223
17. hongrois 2,140
18. allemand suisse 2,133
19. grec 2,095
20. catalan 2,031
21. coréen 1,973
22. croate 1,971
23. tchèque 1,961
24. serbe 1,960
25. flamand 1,927
26. slovaque 1,885
27. malais 1,849
28. min nan 1,820
29. peul 1,798
30. arménien 1,783
31. albanais 1,780
32. turc 1,672
33. kurde 1,667
34. lombard 1,654
35. vénitien 1,641
36. farsi 1,622
37. napolitain 1,588
38. kazakh 1,561
39. quechua 1,551
40. roumain 1,546
41. bulgare 1,545
42. turkmène 1,520
43. belarus 1,514
44. somali 1,487
45. filipino 1,475
46. azéri du sud 1,467
47. kikongo 1,448
48. haoussa 1,435
49. dari 1,412
50. ukrainien 1,409
51. azéri du nord 1,399
52. tatar 1,398
53. baloutch 1,371
54. nyanja 1,319
55. ilocano 1,314
56. cebuano 1,308
57. cantonais 1,292
58. hiligaynon 1,280
59. mongol 1,277
60. hmong 1,271
61. vietnamien 1,262
62. hakka 1,257
63. kinyarwanda 1,250
64. tigrinia 1,199
65. ourdou 1,199
66. yoruba 1,192
67. sindhi 1,170
68. min dong 1,166
69. ouighour 1,166
70. bengali 1,164
71. wu 1,159
72. sukuma 1,154
73. ouzbèque du nord 1,150
74. igbo 1,143
75. thai 1,138
76. kikuyu 1,133
77. zhuang 1,127
78. panjabi de l'ouest 1,121
79. jinyu 1,120
80. créole haitien 1,118
81. xiang 1,111
82. gan 1,091
83. tamoul 1,090
84. min bei 1,080
85. sotho du sud 1,077
86. thai du nord-est 1,075
87. thai du nord 1,069
88. indonésien 1,068
89. pashtoun du nord 1,062
90. hindi 1,055
91. malgache 1,043
92. javanais 1,037
93. seraiki 1,013
94. luba-kasai 1,004
95. pashtoun central 1,003
96. mooré 0,985
97. soundanais 0,967
98. zoulou 0,963
99. sinhala 0,958
100. amharique 0,953
101. oromo 0,951
102. madurais 0,938
103. khmer central 0,931
104. minangbakau 0,928
105. népalais 0,917
106. sylheti 0,916
107. xhosa 0,916
108. pandjabi de l'est 0,914
109. maithili 0,913
110. akan 0,913
111. bhojpuri 0,904
112. télougou 0,897
113. gujarati 0,888
114. kashmiri 0,883
115. malayalam 0,874
116. marathi 0,867
117. rangpuri 0,857
118. rajasthani 0,848
119. awadhi 0,845
120. santali 0,841
121. shona 0,826
122. marwari 0,824
123. kannada 0,822
124. oriya 0,816
125. assamais 0,811
126. chhattisgarhi 0,793
127. haryanvi 0,787
128. magahi 0,787
129. deccan 0,787
130. konkani 0,784
131. kanauji 0,783
132. bagheli 0,781
133. varhadi-nagpuri 0,780
134. lambadi 0,779
135. mewati 0,778
136. birman 0,624
137. chittagonien 0,509