Cercetători americani de la MIT CSAIL (Computer Science & Artificial Intelligence Laboratory) au conceput un sistem de inteligenţă artificială capabil să genereze o imagine digitală a unei persoane doar în funcţie de vocea acesteia, ascultând o scurtă înregistrare audio.

Informația a fost publicată de LiveScience, care citează un studiu publicat la sfârşitul lunii trecute în jurnalul arXiv şi care nu a fost încă evaluat în sistemul peer-review.

Denumit Speech2Face, acest sistem este o reţea neuronală - un computer care gândeşte într-un mod similar cu un creier uman - şi a fost "antrenat" de oamenii de ştiinţă cu ajutorul a milioane de clipuri video educaţionale de pe internet, în care vorbesc peste 100.000 de oameni diferiţi.

Pornind de la această bază de date, Speech2Face a învăţat să facă asociaţii între timbrul vocii şi anumite trăsături ale feţei. Apoi sistemul AI a fost folosit pentru a genera faţa care corespunde unei anumite înregistrări audio.

Deocamdată sistemul AI nu ştie cu exactitate cum arată un individ pornind doar de la sunetul vocii acestuia, însă reţeaua neuronală recunoaşte anumite caracteristici ale vocii care definesc în principal genul, vârsta şi etnia, elemente generale pentru mari categorii de oameni, conform autorilor sistemului.

"Astfel, acest model va produce chipuri care arată generic. El nu va produce imagini ale anumitor indivizi", notează oamenii de ştiinţă.

Chipurile generate de Speech2Face privesc drept înainte şi au expresii neutre. Ele nu corespund exact persoanelor ale căror voci au fost analizate în cadrul studiului.

Cu toate acestea, sistemul identifică de obicei în mod curent categoria de vârstă a subiectului a cărui voce a analizat-o, etnia şi genul său.

Confruntat cu variaţii de limbă, sistemul AI a fost însă uşor de păcălit. Spre exemplu, când a ascultat o persoană asiatică vorbind în chineză, sistemul a generat figura unui asiatic. Însă atunci când aceeaşi persoană a vorbit în engleză, sistemul a fost păcălit şi a generat imaginea unei persoane caucaziene.

De asemenea, sistemul şi-a demonstrat limitele şi în ceea ce priveşte interpretarea genului persoanei în funcţie de tonalităţile vocii.

Astfel, AI-ul a asociat vocile mai groase, mai grave, cu subiecţi de sex masculin şi vocile mai subţiri, cu tonalităţi mai ridicate cu subiecţi de genul feminin, asociere care nu este de fiecare dată corectă.

Conform cercetătorilor, aceste limitări sunt legate de faptul că baza de date folosită pentru pregătirea sistemului provine doar din clipurile video educative de pe YouTube şi nu este reprezentativă la nivelul întregii populaţii umane.

Sursa: Agerpres