A Google új beszédszintetizátora az eddigi legemberibb hangon szólal meg

A Google kutatói egy új frissítést eszközöltek a Tacotron szöveget beszéddé alakító rendszerükön, amiről a csapat úgy nyilatkozott, hogy az általa készített hangfelvételeket egy emberekből álló közönség nem tudta megkülönböztetni a valódi felvételektől. A kutatók a módszerükről egy tanulmányt is készítettek, aminek korai változata már olvasható is.

Már évek óta sok kutató dolgozik, hogy minél emberibbé tegyék a számítógépek által generált beszédet és kevésbé gépiessé. Ennek a célnak egy részét képezi a szöveget beszéddé alakító alkalmazások fejlesztése. A legtöbb ember hallott már ezekről az alkalmazásokról és sokan közölük már ki is próbálták – ha például a fordítóprogramok kiejtési funkciójára vagy az automatizált telefonhívásokra gondolunk.

A jelenlegi kezdeményezésben a Google csapata egyesíti a Tacotron és a WaveNet projektek során szerzett tudásukat és ezzel létrehozta a Tacotron 2-t – ami technológiailag teljesen más szinten áll a korábbiakhoz képest. A minták alapján nagyon nehéz és bizonyos esetekben szinte lehetetlen megmondani, hogy melyik hang tartozik egy valódi emberhez és melyik egy géphez.

Az alábbi példák közül az egyiket a Tacotron 2 generálja, a másik egy emberi felvétel, de melyik melyik?

Hogy elérjék ezt a pontosságot a kutatók egy sorról sorra haladó módszert dolgoztak ki, ami úgy működik, hogy a betűk feltérképezése mellett különböző hangzásbéli jellemzőket is hozzárendel a betűkhöz. Ez egy 80 dimenziós spektrogrammot eredményez, amit ezután egy másik rendszerbe táplálnak, ami ezt 24-kHz hullámformába önti a WaveNet rendszerén alapulva. Mindkét rendszer olyan neurális hálózatokon alapul, amiket beszéd példákon és azok leírt változataival edzettek. Az új rendszer már képes változó hangerő, kiejtés, hangleejtés és beszédsebesség megfelelő megválasztására – ami így sokkal emberszerűbb beszédet eredményez.

A kutatók azt is megjegyezték, hogy ez a fejlesztés egyáltalán nem azt jelenti, hogy befejezték volna a munkát és még továbbra is vannak olyan összetett szavak, amiknek kiejtésén dolgozniuk kell, hogy a rendszer azt valós időben is rendesen ejtse ki. Illetve a kutatók több érzelmet is szeretnének adni a beszédhez, így a hallgató például bánatot vagy boldogságot is kihallhat belőle.

Ez a fejlesztés nem csak a tudomány számára jelentős, hanem rengeteg hétköznapi felhasználása is lehet például az egyre nagyobb teret kapó virtuális asszisztensek terén.

A hangfelvételek közül a második a gép által generált hang.

Forrás: arxiv.org Kép: techcrunch.com

Szerkesztő: arsratio

Oszd meg

Hozzászólás küldése

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöljük.

This site uses Akismet to reduce spam. Learn how your comment data is processed.