Proiectul AINA a depășit un milion de tăieturi de voce (fraze înregistrate) în acest weekend mai puțin de cinci luni după începerea campaniei „Limba noastră este vocea ta” „pe care Guvernul Cataloniei a lansat-o la mijlocul -Februarie, cu scopul de a colecta cât mai multe voci posibil pentru a alimenta prima versiune a corpus de voce de catalană , esențială pentru învățați mașinile să înțeleagă și să vorbească limba noastră.
De când a început campania și până în prezent, aceasta a ajuns deja la 1. 06. noi clipuri vocale înregistrate și aproape 1. 400 a înregistrat ore noi . Acestea sunt repere care se adaugă celor atinse de campanie datorită răspunsului excelent al cetățenilor, care au făcut ca catalanul să treacă în puțin peste o lună pentru a fi a doua limbă în lume cu mai mulți vorbitori în Common Voice, doar în spatele englezei, și asta în mai puțin de două luni să atingă unul dintre obiectivele pe care promotorii a proiectului se stabilise pentru întreg 2022: depășiți 2. ore de înregistrare pe platformă (în prezent, mai mult de 2. 206 ).
Înregistrarea donatorilor și validarea vocală, noi etape
Pentru a construi corpus vocal al limbii (seturi de date) de care o mașină are nevoie pentru a o învăța și pentru a o putea înțelege și vorbi, este necesar să existe milioane de date vocale care să includă bogăția și nuanțele limbajului oral, cu toate registrele și variantele sale dialectale.
Din acest motiv, campania „Limba noastră este vocea ta” invită vorbitorii catalani cetățeni de toate vârstele, genurile, condițiile și mediile de origine să-și „dea” vocea prin web proiectaina.cat
, de unde toată lumea poate citi, înregistra și valida un număr nelimitat de fraze grupate 5 câte 5 pe platforma Mozilla Common Voice. În acest sens, validarea de către cetățeni a sintagmelor citite și înregistrate de alți „donatori” (pentru a face acest lucru trebuie să fie accesat prin fila „Ascultă” a platformei) este la fel de important ca înregistrarea vocală, ca și datele de voce înregistrate, acestea trebuie neapărat să treacă printr-un proces de validare înainte de a fi considerate „potrivite” pentru proiect.
De asemenea, în ciuda faptului că această colaborare se poate face complet anonim ima și fără nicio înregistrare prealabilă , cunoașterea parametrilor de gen, vârstă și variantă dialectală a persoanei „care dă” voce îl face foarte ușoară munca de clasificare a datelor obținute și, în același timp, ne permite să știm dacă toată diversitatea lingvistică a catalanului este luată în considerare. Prin urmare, campania încurajează cetățenii să se înregistreze și să-și creeze un profil pe platformă pentru a avansa mai rapid în obiectivele proiectului AINA. . În prezent, profilul vocal majoritar de pe platforma Mozilla Common Voice rămâne cel al bărbaților dintre 09 și 59 ani de vorbire centrală catalană, deși lipsa înregistrării prealabile a unui număr semnificativ de „donatori” înseamnă că există un procent mare de participanți a căror sex, vârstă și/sau varianta dialectală utilizată nu pot fi identificate 09%).
Despre proiectul AINA
Promovat de Departamentul Vicepreședinție și Politici Digitale și Teritoriu în colaborare cu Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC-CNS), AINA este un proiect bazat pe tehnologii de date și Inteligența Artificială pentru a face posibil ca mașinile să înțeleagă și să vorbească catalana cu scopul final ca cetățenii să poată interacționa cu ei și să participe la lumea digitală în catalană la același nivel cu vorbitorii unei limbi globale, cum ar fi engleza, și astfel să prevină stingerea digitală a limbii catalane
În acest sens, proiectul AINA construiește corpuri și modele ale limbii catalane pentru a facilita companiilor de tehnologie să își dezvolte soluțiile sau serviciile specifice (traducători, asistenți personali, sintetizatoare de vorbire, clasificatoare de texte etc.) în limba noastră. 424082 Sursa: Proiectul AINA are peste un milion de voci noi înregistrate pentru a face mașinile să înțeleagă și să vorbească catalana