Odată cu popularitatea atât de multor platforme de streaming, conținutul devine destul de divers și diferit. Din ce în ce mai mulți oameni urmăresc emisiuni în limbi străine precum „Money Heist” și „Dark”, deoarece sunt spectacole bune și sunt disponibile în toată lumea. Cu toate acestea, unora dintre noi le place să vizioneze emisiunile noastre într-o limbă pe care o înțelegem. Uneori subtitrările nu sunt suficiente. Acestea fiind spuse, dublarea spectacolelor străine într-o altă limbă poate deveni consumatoare de timp și costisitoare pentru companiile de producție. Acesta este principalul motiv pentru care multe spectacole nu sunt dublate în limbi străine. Ei bine, cercetătorii Amazon pot avea o soluție la această problemă.
Într-o lucrare publicată pe serverul de pre-tipărire Arxiv.org, cercetătorii Amazon au teoretizat și testat o nouă tehnologie „vorbire în vorbire”. Folosește AI pentru a converti discursul original într-un discurs tradus și pentru a rafina discursul tradus pentru a-l face să sune mai asemănător omului. Acesta este doar un prim pas către dezvoltarea unui mod mai ușor și mult mai ieftin de dublare de emisiuni și filme.
Cum functioneaza
Această tehnologie „vorbire în vorbire” este mult mai complicată decât pare. Traducerea unui discurs original într-un discurs străin folosind computerele este o sarcină agitată. Nu se traduce o limbă în alta doar din resursa audio, dar sunt implicați mai mulți pași.
Procesul de dublare automată include în esență 3 pași. În primul rând, vorbirea originală trebuie convertită într-un format text. Al doilea pas implică traducerea textului în limba dorită. În cele din urmă, textul tradus generează noua vorbire.
Acum, există complicații ale dezvoltării noului discurs din textul în vorbire tradus. Vorbirea tradusă ar trebui să se potrivească cu viteza și emoția vorbirii originale. De asemenea, ar trebui să transmită sunetele de fundal și să elimine reverberația.
Pentru ca acest proces complicat să funcționeze, cercetătorii Amazon au confirmat acest lucru tehnologia lor de la vorbire la vorbire a fost instruită pe mai mult de 150 de milioane de perechi engleză-italiană de expresie pentru a determina viteza unui segment de vorbire a vorbirii traduse pentru a se potrivi cu viteza vorbirii originale. Acest pas asigură pauzele și pauzele din discursul tradus pentru a se potrivi cu discursul original.
Un model în faza text-to-speech s-a antrenat pe 47 de ore de înregistrări vocale. Acest model generează o secvență de context din textul care este introdus într-un vocoder pre-instruit, care acoperă secvența într-o formă de undă de vorbire.
Această tehnologie este capabilă, de asemenea, să extragă sunete de fundal din sunetul original și să îl plaseze în sunetul tradus pentru a-l face mai asemănător cu sunetul original. În cele din urmă, se aplică un pas separat numit pas de reverberare pentru a adăuga reverberarea sunetului original la cel tradus.
Va fi util?
Procesul este cu siguranță unul complicat, dar cercetătorii au scris că munca lor viitoare va fi dedicată îmbunătățirilor dublării automate. Poate elimina necesitatea ca actorii vocali să dubleze un spectacol sau un film într-o altă limbă. Va deveni mai puțin consumator de timp și mult mai ieftin să dublăm conținutul în limba dorită. Și da, va aduce beneficii caselor de producție să livreze mai multe spectacole și filme spectatorilor, făcând lista mult mai diversă.