vechea versiune a site-ului Portalingua

Ponderea limbilor

Barometrul Calvet al limbilor din lume

Secţiunea „ponderea limbilor” a acestui site a fost realizată de Alain Calvet, doctor în ştiinţe şi de Louis-Jean Calvet, doctor în litere şi ştiinţe umaniste, profesor de lingvistică

Atunci când ne punem întrebări despre importanţa relativă a limbilor, primul criteriu care ne vine în gând este numărul de locutori: care este cea mai vorbită limbă din lume? Câţi locutori o vorbesc?, etc. Dar această abordare pune o dublă problemă. Pe de-o parte numărarea locutorilor nu este o ştiinţă exactă şi diversele surse disponibile indică cifre diferite şi nu ajung la acelaşi clasament. Pe de altă parte, alţi factori au un rol important în determinarea „ponderii” limbilor. Acest barometru se bazează pe şase factori aleşi nu numai pentru pertinenţa lor ci şi pentru că pentru fiecare dintre ei existau date. La originea acestui studiu se află comunicarea prezentată la colocviul de la Aix-en-Provence din septembrie 2007. Proiectul a evoluta însă şi va evolua aşa cum vom vedea mai jos.

Am luat în consideraţie cele 137 de limbi din Ethnologue care sunt vorbite de peste cinci milioane de locutori. Alegerea site-ului Ethnologue ca punct de plecare este justificată după părerea noastră de faptul că, în ciuda unor imperfecţiuni, el este cel mai complet şi coerent în ce priveşte acest tip de studiu. Sursele diferiţilor factori şi modul în care aceştia au fost trataţi sunt descrise mai jos.

Fiecărui factor i s-a atribuit aceeaşi valoare dar prin modificarea poziţiei cursorului, utilizatorul va putea modifica clasamentul în funcţie de necesităţi.

Factori şi surse

Locutori

Este vorba de locutorii primei limbi, aşa cum sunt înregistraţi pe site-ul Ethnologue ceastă alegere şi deci acceptarea implicită a listei limbilor propuse pe acest site, pune anumite probleme. Ethnologue are tendinţa să divizeze la maximum anumite limbi în diferite variante. Am ales un singur exemplu, „malaeza” Site-ul prezintă peste 20 de variante diferite ale acestei limbi la care trebuie adăugată şi „indoneziana” (sau bahasa indoneziană), care utilizează 80% de cuvinte înrudite cu malaeza standard care este ea însăşi considerată ca o „macro-limbă”. Dar indoneziana nu aparţine întotdeauna, aşa cum indică site-ul, acestei macro-limbi. Şi în niciun moment nu se discută de eventuala intercomprehensiune între diferitele tipuri de malaeză. Mai mult, Ethnologue nu ia în consideraţie decât locutorii L1, reducând astfel vizibilitatea fenomenului vehicular: astfel, indoneziana are, după Ethnologue, puţin peste 23 de milioane de locutori de L1 dar 140 de milioane de locutori. Această lipsă de vizibilitate este cu atât mai pregnantă în cazul limbii swahili care are puţin peste 300.000 de locutori L1 în Tanzania şi peste 30 de milioane de locutori L2, adică de o sută de ori mai mult. Dar în acest caz, precum şi în cazul altor factori, nu avem dreptul să corectăm sursele noastre, din motive evidente de coerenţă ştiinţifică.

Nu respectăm însă întotdeauna Ethnologue în ce priveşte denumirea limbilor pe care le-am tradus din engleză dar le-am şi modificat. Astfel site-ul confundă uneori numele unui popor (Mossi) cu limba sa (mooré) şi face diferenţa între farsi de est şi farsi de vest în timp ce noi facem diferenţa între dari şi farsi. Toate acestea nu schimbă cu nimic lista limbilor care au un cod unic ISO 639-3.



Limbile oficiale

Nu vom lua în consideraţie decât limbile oficiale de jure, din lista stabilită pe site-ul Universităţii Laval. Ne diferenţiem totuşi dintr-un singur punct de vedere. Acest site contabilizează uneori aceeaşi limbă pentru o ţară şi una sau două regiuni în discuţie. De exemplu, germana este considerată ca limbă oficială în Elveţia, în cantonul Berna, Fribourg etc., iar franceza este considerată ca limbă oficială în Belgia, la Bruxelles (capitala), în comunitatea Francofonă din Belgia… În aceste cazuri, noi nu numărăm ţara decât o singură dată. Am corectat de altfel câteva omisiuni ca de exemplu quechua şi aymara.



Wikipedia

Utilizăm aici informaţiile de pe site-ul Wikipedia.

Numărul obţinut este suma tuturor articolelor publicate pe Wikipedia de la crearea sa până în noiembrie 2009.

În caz de ambiguitate, de exemplu atunci când Wikipedia atribuie un număr de articole unei limbi iar noi considerăm că există variante, atribuim fiecărei variante un număr de articole calculate în raport cu numărul de locutori.

Acesta este cazul limbii azere (din Nord şi din Sud), farsi (din est şi din vest), punjabi (din est şi din vest) şi paştuna (din centru şi din Nord). Nu aceeaşi este situaţia limbii uzbece, totalitatea articolelor a fost afectată limbii uzbece din Nord vorbită în Uzbekistan, iar cei 1,5 milioane de locutori ai limbii uzbece din Sud, care locuiesc în cea mai mare parte în Afghanistan, au fost ignoraţi.



Premii Nobel

Utilizăm aici informaţiile de pe site-ul Prix Nobel. Valorile au fost actualizate în noiembrie 2009. Premiul atribuit scriitoarei Hertha Müller este luat în considerare.

Premiul este afectat limbii în care autorul a scris majoritatea cărţilor sale. Astfel Rabindranath Tagore a scris în bengali, Gao XingJian în dialectul mandarin deşi este titularul unui paşaport francez, Hertha Müller în germană deşi este de origine română.



Entropia

Entropia este o funcţie care permite cuantificarea „dezordinii”. Ea a fost utilizată la început în termodinamică, apoi a fost aplicată în teoria informaţiei şi, mai recent, în domeniul lingvisticii. Expresia sa matematică este Entropie = -Σ(pi x Log(pi)), în care pi este probabilitatea unui sistem de a se găsi într-o stare dată şi Log(pi)) este logaritmul natural al acestei probabilităţi. Valoarea minimă a acestei funcţii este zero şi nu există o valoare maximă definită. O utilizăm aici pentru a face diferenţa între o limbă vorbită într-o singură ţară şi o limbă vorbită în mai multe ţări, pi va fi deci pentru noi raportul dintre locutorii unei limbi date care locuiesc într-o ţară dată, şi toate ţările din lume în care această limbă este vorbită vor fi luate în consideraţie.

Să presupunem că o limbă este majoritară (98%) într-o ţară X şi numai câţiva locutori ai săi trăiesc în alta, entropia va fi:

(0,98 x Log0,98 +0,02 x Log0,02) = 0,098

O limbă vorbită în trei ţări care au aproape acelaşi număr de locutori va avea o entropie de:

(0,33 x Log0,33 + 0,33 x Log0,33 + 0,34 x Log0,34) = 1,099

Să vedem acum câteva exemple reale pentru marathi, amharică, spaniolă şi arabă:

  • Marathi: 0,003
  • Amharică:0,019
  • Spaniolă: 2,509
  • Arabă: 2,279

Entropia nu are nimic în comun cu numărul total al locutorilor unei limbi, ea depinde de repartizarea acestora în zona sau zonele în care această limbă este vorbită.



Fecunditate

Utilizăm aici informaţiile referitoare la programul de dezvoltare umană de pe site-ul Naţiunilor Unite Indicele de fecunditate exprimă numărul de copii născuţi de o femeie.

Pentru a atribui o valoare fiecărei limbi, se face o medie ponderată a indicelui din fiecare dintre ţările în care limba este vorbită cu condiţia ca numărul locutorilor ţării luate în consideraţie să fie cel puţin egal cu 1% din numărul locutorilor limbii în lume. De exemplu: 80% de locutori de urdu trăiesc în India şi 18% în Pakistan, indicele de fecunditate atribuit pentru urdu este deci:

Fecunditateurdu = (0.80 x FecunditateIndia + 0.18 x FecunditatePakistan)/(0.80+0.18)

Dar numai 0.7 % de locutori de urdu trăiesc în Marea Britanie şi 0.4 % în Bangladesh. Nu luăm în consideraţie contribuţia acestor locutori, procentajul fiind foarte redus pentru ca valorile indicilor de fecunditate din Marea Britanie şi Bangladesh să aibă un impact semnificativ asupra valorii relative pentru urdu.

Site-ul UNDP citat mai sus nu oferă date decât pentru ţările membre ale ONU şi pentru care un indice a fost calculat, fiind astfel excluse ţările nemembre şi ţările în război. În cazurile în care ţara nu este prezentă pe site, utilizăm datele furnizate de L’état du monde 2009, Bertrand Bedie, Sandrine Tolotti, Paris, La Découverte 2008.



Indicele dezvoltării umane (IDU)

Utilizăm aici informaţiile referitoare la programul de dezvoltare umană de pe site-ul Naţiunilor Unite.

Indicele dezvoltării umane este un indice care combină o serie de criterii printre care produsul naţional brut pe cap de locuitor, speranţa de viaţă la naştere şi standardele de educaţie. El cuantifică nivelul de dezvoltare al unei ţări.

Pentru a atribui o valoare fiecărei limbi, se face o medie ponderată a indicelui din fiecare dintre ţările în care limba este vorbită cu condiţia ca numărul locutorilor ţării luate în consideraţie să fie cel puţin egal cu 1% din numărul locutorilor limbii în lume. De exemplu: 80% de locutori de urdu trăiesc în India şi 18% în Pakistan, IDU pentru urdu va fi deci:

IDUurdu = (0.80 * IDUIndia + 0.18 * IDUPakistan)/(0.80+0.18)

Dar numai 0.7 % de locutori de urdu trăiesc în Marea Britanie şi 0.4 % în Bangladesh. Nu luăm în consideraţie contribuţia acestor locutori, procentajul fiind foarte redus pentru ca nivelul de dezvoltare din Marea Britanie şi Bangladesh să aibă un impact semnificativ asupra valorii relative pentru urdu.

Site-ul UNDP citat mai sus nu oferă date decât pentru ţările membre ale ONU şi pentru care un indice a fost calculat, fiind astfel excluse ţările nemembre şi ţările în război. În acest caz, atribuim ţării respective un indice ipotetic pe care îl stabilim prin analogie cu ţările vecine şi/sau comparabile Astfel, am estimat indicii următori:

  • Coreea de Nord: 0.600
  • Irak: 0.600
  • Somalia: 0.400
  • Taiwan : 0.900



Rata de penetrare a Internetului

Utilizăm aici informaţiile de pe site-ul Internet World Stats care actualizează sistematic numărul conexiunilor Internet din toate ţările din lume.

Rata de penetrare a Internetului reprezintă numărul de utilizatori Internet împărţit la populaţia totală a ţării.

Pentru a atribui o valoare fiecărei limbi, se face o medie ponderată a indicelui din fiecare dintre ţările în care limba este vorbită cu condiţia ca numărul locutorilor ţării luate în consideraţie să fie cel puţin egal cu 1% din numărul locutorilor limbii în lume. De exemplu: 80% de locutori de urdu trăiesc în India şi 18% în Pakistan, RPI pentru urdu va fi deci:

InternetUrdú = (0,80 x InternetÍndia + 0,18 x InternetPakistan)/(0,80 + 0,18)

Dar numai 0,7 % de locutori de urdu trăiesc în Marea Britanie şi 0,4 % în Bangladesh. Nu luăm în consideraţie contribuţia acestor locutori, procentajul fiind foarte redus pentru ca valorile ratei de penetrare à Internetului din Marea Britanie şi Bangladesh să aibă un impact semnificativ asupra valorii relative pentru urdu.

Datele utilizate sunt cele prezentate pe site (21 noiembrie 2009).



Numărul traducerilor, limba ţintă şi limba sursă

Numărul traducerilor, limba ţintă şi limba sursă Utilizăm aici informaţiile de pe site-ul UNESCO Index translationum

În unele cazuri, Index translationum indică o limbă care a „dispărut”

Este cazul limbii sârbo-croate, cod ISO [hbs], care confirmă că limba vorbită înainte de 1992 era o limbă unică pentru croaţi, bosniaci şi sârbi. După 1992 Index translationum, înregistrează traducerile din croată [hrv], din bosniacă [bos] şi din sârbă [srp]. Pentru a ţine cont de traducerile anterioare anului 1992, acestea au fost repartizate între cele trei limbi „noi” proporţional cu numărul de traduceri din aceste limbi după 1992. Această metodă nu este, bineînţeles, perfectă, dar am considerat că atribuirea traducerilor anterioare anului 1992 numai limbii sârbe, ar favoriza-o faţă de croată şi bosniacă. Atribuirea numărului total de traduceri anterioare anului 1992 celor trei limbi, le-ar favoriza faţă de alte limbi.

Un caz analog de limbă ipotetică se prezintă pentru „chineză”. Index translationum consemnează date despre chineză [zho], despre chineza veche [och] şi chineza yue [yue]. În acest caz, atribuim informaţiile relative la chineză [zho] dialectului mandarin şi cele referitoare la yue acestei limbi. Informaţiile referitoare la chineza veche [och] nu sunt luate în consideraţie, şi nici cele referitoare la greaca veche sau la latină.

Al treilea caz este cel al limbii arabe, există araba „standard” [ara] şi mai mult de 25 de dialecte arabe. Toate dialectele arabe sunt de fapt limbi vii şi araba standard sau literară este o limbă comună care nu este limba maternă a niciunui locutor. Cu toate acestea, Index translationum, consemnează informaţii despre araba standard [ara] şi araba marocană [ary] dar niciuna despre araba egipteană şi araba algeriană, care împreună cu araba marocană sunt cele mai vorbite sau despre alte varietăţi dialectale. În acest caz, spre deosebire de sârbo-croată, informaţiile despre araba standard sunt consemnate numai pentru această limbă.

Motivul acestor alegeri constă în dorinţa noastră de a respecta deciziile popoarelor. Croaţii, bosniacii şi sârbii ţin la existenţa celor trei limbi diferite care corespund celor trei ţări diferite. În cazul limbilor arabe, comunitatea arabo-musulmană doreşte existenţa unei limbi comune pe înţelesul tuturor prin intermediul Coranului. În ce priveşte chineza, este mai greu de raţionat. În mod evident există mai multe limbi chinezeşti vorbite, dar o „singură” limbă chineză scrisă comună pentru toate varietăţile dialectale. Informaţiile consemnate sub codul [zho] nu permit afectarea traducerii altei varietăţi. Am fi putut să le distribuim în mod proporţional cu numărul de locutori.

Am considerat că marea majoritate a traducerilor sunt din chineza (mandarină) şi am afectat toate informaţiile referitoare la chineză [zho] chinezei mandarine [cmn]. Anumiţi locutori mai bine informaţi ar putea să nu fie de acord cu alegerea noastră, a trebuit însă să facem o alegere pe care o asumăm.

Cazul limbilor cehe [ces] şi slovace [slk] este mai deosebit. Index translationum nu consemnează nicio limbă anterioară comună pentru aceste două ţări. În acest caz am respectat distribuţia indexului. Am fi putut căuta traducerile anterioare separării celor două ţări şi să le afectăm fiecărei limbi în funcţie de traducerile posterioare separării. Am decis să respectăm alegerea făcută de Index translationum, nu exista o limbă „cehoslovacă” ci o limbă cehă şi una slovacă. Aceste consideraţii se aplică atât în cazul limbilor sursă cât şi în cazul limbilor ţintă.

Prelucrarea datelor

Diverşii factori utilizaţi, precum şi cei pe care îi vom putea adăuga, nu ne oferă acelaşi tip de clasament: valori categoriale pe de-o parte (da/nu) şi valori continue pe de altă parte (o ierarhie de la 1 la 7.000, dacă există 7.000 de limbi în lume).

Pentru a rezolva această problemă, am normalizat valorile brute procedând la o transformare lineară conform formulei:

Valoareanormalizată=Valoareabrută - Valoareabrutăminimă) / (Valoareabrutămaximă - Valoareabrutăminimă)

Această transformare atribuie valoarea normalizată 1 valorii maxime a factorului, valoarea normalizată 0 valorii brute minime şi valori intermediare repartizate liniar altor valori.

Rezultatul este că toţi factorii variază între 0 şi 1 permiţând astfel afectarea unei ponderi „egale”.

Utilizarea altor factori

Pentru stabilirea unui clasament al limbilor, putem bineînţeles să utilizăm şi alţi factori uşor de imaginat. Am putea cita de exemplu:

  • Este limba oficială a unui organism internaţional?
  • Numărul publicaţiilor ştiinţifice în limba respectivă.
  • Numărul de premii Nobel pentru ştiinţă pentru autori care se exprimă în limba respectivă.
  • Rata alfabetizării ţării în care este vorbită limba respectivă.
  • Există programe informatice (software) pentru această limbă?
  • Clasamentul firmelor din ţările în care este vorbită limba respectivă.
  • Rata de penetrare a telefoniei fixe şi mobile
  • Numărul studenţilor care studiază limba ca limbă străină.
  • Numărul ţărilor în care este posibilă studierea limbii ca limbă străină.
  • Rata de creştere a PIB.
  • Numărul posesorilor de calculatoare în ţara în care limba este vorbită.
  • Realizări şi/sau exportări cinematografice în limba respectivă.
  • Şi mulţi alţii.

Sistemul nostru de prelucrare a datelor prevede ca toate rândurile şi coloanele să fie completate. În cazul unor date care lipsesc avem patru soluţii:

  1. suprimarea rândului (deci o limbă)
  2. suprimarea coloanei (deci a unui parametru)
  3. stabilirea valorii 0 pentru limba respectivă pentru acest parametru
  4. stabilirea valorii care lipseşte la valoarea medie a valorilor prezente în coloană

Soluţia 1 este acceptabilă dar dacă este folosită prea des ne vom regăsi cu un număr foarte restrâns de limbi, adică marile limbi din marile ţări din lume, oricare ar fi sensul pe care îl dăm cuvântului mare.

Soluţia 2 nu este uşor de aplicat, intenţia noastră este să adăugăm noi parametri şi nu să îi suprimăm.

Soluţia 3 poate să fie acceptată. De exemplu, a atribui o valoare nulă numărului de publicaţii ştiinţifice într-o limbă minoră din Papuasia sau Camerun, nu este o eroare gravă.

Putem să folosim a patra soluţie dacă suntem siguri că valoarea căutată nu este nulă, dar suntem incapabili să o găsim în bazele de date. Putem să atribuim valoarea medie a limbilor „comparabile” pentru care parametrul este disponibil. Nu suntem prea departe de o alegere arbitrară a valorii. Constatăm eşecul acestei acţiuni.

Prin urmare este evident că dorim date complete, omogene în ce priveşte sursa şi metoda de calcul.

În unele cazuri, datele sunt total disponibile şi introducerea unui nou parametru ar fi foarte uşoară. În altele, nu am fost capabili să localizăm o sursă convenabilă, aceasta nu înseamnă însă că sursa nu există. O nouă problemă apare, anume independenţa datelor. Am remarcat de exemplu că fecunditatea este corelată în mod negativ cu indicele dezvoltării umane, coeficientul de corelaţie fiind egal cu –o,81. La fel se întâmplă cu valoarea Wikipedia care este corelată cu valoarea limba sursă (R=0.93). Există şi alte exemple de corelaţii între diverşi parametri dar este inutil să le cităm aici. Pentru a fi mai clar, informaţia pe care o prelucrăm este redondantă, nu este evidentă, dar o analiză statistică simplă a datelor pune în evidenţă fenomenul. Adăugarea unor noi factori va mări acest aspect de redondanţă a informaţiei. Există însă o metodă matematică simplă pentru a trata această problemă: analiza în componente principale (ACP). Ea consistă în calcularea noilor factori virtuali care nu sunt corelaţi unul cu altul. Rezultatul este că procentul informaţiei furnizat de componentele principale este concentrat pe un număr restrâns de factori. În cazul nostru, cei zece parametri pot să fie reduşi la cinci parametri total independenţi unul de altul şi care absorb 94% de informaţii, aşa cum putem vedea mai departe:

CP N° Valoare proprie Pourcentaj Pourcentaj cumulat
1 5,0332 50,332 50,332
2 2,0517 20,517 70,849
3 0,9341 9,341 80,190
4 0,8256 8,256 88,446
5 0,5522 5,522 93,967
6 0,3049 3,049 97,017
7 0,1228 1,228 98,244
8 0,0977 0,977 99,221
9 0,0572 0,572 99,793
10 0,0207 0,207 100,000

Avantajul este o simplificare a problemei, inconvenientul este că analiza semnificaţiei componentelor principale care sunt combinaţii ale parametrilor de origine cere un efort de gândire suplimentar. Aceasta constituie o temă de studiu pentru viitor.

Faceţi propriul clasament

Cei zece factori ai noştri sunt consideraţi în procesul nostru de prelucrare ca echivalenţi, adică li s-a atribuit acelaşi coeficient. Dar vizitatorul acestui site va putea utiliza studiul nostru pentru a-şi face propriul clasament. În acest scop el dispune de două posibilităţi: fie să schimbe coeficientul anumitor factori, dându-le mai multă sau mai puţină importanţă, sau să suprime anumiţi factori punând cursorul la zero. Acest barometru al limbilor constituie de fapt un sprijin pentru deciziile din domeniul politicii lingvistice, domeniu în care este nevoie de un clasament bazat pe o parte din factorii pe care îi utilizăm. Să ne imaginăm de exemplu că dezvoltatorii unui nou software trebuie să aleagă un număr limitat de limbi în care să-l redacteze. Ei pot să aleagă trei factori (numărul de locutori, numărul articolelor din Wikipedia, penetrarea Internetului) pertinenţi pentru proiectul lor şi să îi pună pe ceilalţi la zero. Să ne imaginăm acum că, pentru a lansa un post de radio internaţional, antreprenorii se întreabă în ce limbi pot să emită pentru a asigura o difuzare cât mai mare. Ei pot selecţiona trei factori (numărul de locutori, statutul oficial, entropia) şi să-i pună pe ceilalţi la zero.

O asemenea alegere asigură un număr mare de locutori potenţiali, locutori care au un nivel de viaţă corespunzător achiziţionării unui radio şi probabilitatea ca limba de difuzare să fie recunoscută şi deci predată în străinătate. În urma acestor operaţii am putea obţine următorul clasament pentru primele zece limbi.

Clasament „software”

  • Engleză
  • Mandarin (dialect)
  • Japoneză
  • Germană
  • Franceză
  • Olandeză
  • Suedeză
  • Finlandeză
  • Daneză
  • Spaniolă

Clasament „radio”

  • Engleză
  • Mandarin (dialect)
  • Franceză
  • Spaniolă
  • Germană
  • Japoneză
  • Italiană
  • Portugheză
  • Olandeză
  • Suedeză

Este de la sine înţeles că utilizatorii îşi asumă responsabilitatea alegerii factorilor, noi am dat aici numai două exemple posibile.

Atunci când ne punem întrebări despre importanţa relativă a limbilor, primul criteriu care ne vine în gând este numărul de locutori: care este cea mai vorbită limbă din lume? Câţi locutori o vorbesc? etc. Dar această abordare pune o dublă problemă.

Pe de-o parte numărarea locutorilor nu este o ştiinţă exactă şi diversele surse disponibile indică cifre diferite şi nu ajung la acelaşi clasament.

Pe de altă parte, alţi factori au un rol important în determinarea „ponderii” limbilor. Acest barometru se bazează pe şase factori aleşi nu numai pentru pertinenţa lor ci şi pentru că pentru fiecare dintre ei existau date

Uniunea Latină

Fondată în 1954, Uniunea Latină este o organizaţie internaţională care reuneşte 37 de state membre ale căror activităţi sprijină diversitatea culturală şi multilingvismul.

DTIL

Direcţia Terminologie şi Inginerie Lingvistică

Tél. (33 1) 45 49 60 62

portalingua@unilat.org

Menţiuni legale

Scrisoare de informare

Înscrieţi-vă pentru a primi informaţii despre activităţile noastre:

avec le soutien du ministère de la Culture et de la Communication (Délégation générale à la langue française et aux langues de France - DGLFLF).