Cloudová technológia Google Deepmind na prevod textu na reč číta texty takmer s natívnosťou; skutočný zvuk

S neurónovými sieťami je teraz možné mať celkom prirodzene znejúce hodiny čítania. Tím spoločnosti Deepmind spoločnosti Google vyvinul algoritmus prevodu textu na reč, ktorý môžu vývojári ľahko zahrnúť do svojich projektov - vrátane 32 hlasov v mnohých jazykoch, ako je angličtina, nemčina a japončina.

deepmind

Google predstavil svoju cloudovú službu prevodu textu na reč v beta verzii. Tento systém je určený na prevod písaných textov do jazyka, ktorý znie čo najprirodzenejšie. Google na tento účel využíva Deepmind, oddelenie zaoberajúce sa neurónovými sieťami na rôzne úlohy - okrem hier Go a Starcraft 2 aj hovorené texty.

Vývojári by mali byť schopní používať cloudové prevody textu na reč pre svoje vlastné projekty. Na tento účel poskytuje Google programovacie rozhranie (API), ktoré umožňuje získavať a oslovovať vopred vyškolené modely z cloudu. Spoločnosť využíva technológiu Wavenet na generovanie reči, ktorá znie čo najprirodzenejšie. Toto je neurónová sieť, ktorá generuje zvukové signály z rôznych neurónov. Toto je v súčasnosti k dispozícii iba pre hlasy USA.

Video: Google TTS vyskúšané [1:26]

Video: Google TTS vyskúšané [1:26]

Väčšina hlasov v angličtine

Služba funguje na mobilných zariadeniach, ako sú smartphony, a na počítačoch, reproduktoroch a televízoroch. Momentálne tiež ponúka výber z 30 rôznych hlasov. Väčšina z nich je však spojená s britskou alebo americkou angličtinou. So samotným Wavenetom sa dá použiť aj iný americký dialekt. Rozdiel je marginálny. V nemeckom jazyku však existujú iba dva hlasy bez podpory Wavenet: ženský a mužský. Zábavný vedľajší efekt: Čítanie anglických textov s nemeckým hlasom funguje s typicky nemecky znejúcim prízvukom. Medzi ďalšie jazyky patrí španielčina, portugalčina, francúzština, turečtina a japončina. Kvalitu je možné vyskúšať vo webovom nástroji s testovacími textami.

Okrem voľby hlasu je možné meniť aj ďalšie parametre. Používatelia môžu upraviť výšku a rýchlosť reči. Obidve ovládacie prvky však tiež sfalšujú hlasový zvuk, takže napríklad rýchlo hovoriaca čítačka znie skôr ako počítač. Zdrojové texty JSON je možné zobraziť aj vo webovom nástroji, aby vývojári mohli ľahko začleniť texty do svojich aplikácií. Texty je možné exportovať do rôznych zvukových súborov, ako sú MP3, Linear16 a Ogg Opus. Poskytovaná je aj podpora SSML. Intonáciu a pauzy počas hovoru možno navyše manuálne upraviť pomocou značiek.

Cloudový prevod textu na reč je možné testovať bezplatne. To si však vyžaduje účet Google a členstvo v platforme Google Cloud Platform, ktorú je možné testovať aj dvanásť mesiacov s kreditom 300 amerických dolárov.