Princípy, stav techniky, rozpoznávanie jedného slova závislé od hovoriaceho - spektrum vedy

Princípy, stav techniky, rozpoznávanie jedného slova závislé od hovoriaceho

Jazyková komunikácia je veľmi zložitý proces. Človek chápe rečový prejav nielen z toho, čo počuje; skôr využíva celú svoju jazykovú skúsenosť, ako aj svoje predchádzajúce vedomosti z predmetu a partnera; Hodnotí tiež neverbálne zložky, ako sú gestá, mimika a emocionálny tón hlasu. Tieto ďalšie informácie môžu byť dokonca dôležitejšie ako znenie. Pre prirodzený jazyk je koniec koncov charakteristická vysoká miera nadbytočnosti (t. J. Čo je vlastne nadbytočné), takže na komunikáciu často stačia slovné narážky alebo fragmenty jazyka. To vysvetľuje, prečo je konverzácia možná aj v hlučnom prostredí.

Ak by niekto chcel realizovať tento fenomenálny výkon rozpoznávania prostredníctvom technického systému, musel by mať v konečnom dôsledku vedomosti, skúsenosti a inteligenciu človeka. Dá sa dlho filozofovať, či je to dosiahnuteľný alebo zmysluplný cieľ. U vývojára systému na rozpoznávanie reči, ktorý musí vždy brať do úvahy technické úsilie (a teda aj náklady), to určite neplatí; musí predovšetkým vidieť konkrétne uplatnenie. To ukazuje, že často sú postačujúce veľmi obmedzené formy rozpoznávania reči; je kľúčové nájsť najvhodnejšie riešenie pre konkrétnu aplikáciu.

Komunikácia so strojmi prostredníctvom prirodzeného jazyka - namiesto obvyklej klávesnice a obrazovky, všeobecnejšie prostredníctvom prepínačov a zobrazovacích zariadení - ponúka množstvo výhod: Používateľ sa nemusí učiť nové technológie, ale pracuje s najznámejšou formou komunikácie; pre ďalšie činnosti má voľné oči a ruky, nie je viazaný na konkrétne miesto a môže dokonca ovládať stroj na diaľku pomocou telefónu. Hlasový vstup a výstup sú možné aj v tmavých, špinavých a prašných miestnostiach a sú možno jediným prostriedkom komunikácie so strojom pre ľudí so zdravotným postihnutím, ktorí nemôžu používať klávesnicu. V opačnom smere sa hovorený výrok stroja dostane aj k rozptýlenému alebo nepozornému používateľovi.

Proti použitiu tejto formy komunikácie sa hovorí, že výkon a spoľahlivosť sú pre niektoré aplikácie stále neuspokojivé. Okrem toho existujú slabé stránky každej jazykovej komunikácie: obťažovanie hlukom okoloidúcich, nežiaduce možnosti počúvania a rušenie okolitým hlukom, čo je v súčasnosti stále veľký problém systémov rozpoznávania reči.

Najdôležitejšie aplikácie nájdete v nasledujúcich poliach:

- Zadávanie čísel a zoznamov slov: Ak musíte zo šablóny písať dlhé stĺpce s číslami alebo slovami, musíte neustále meniť pohľad medzi šablónou, klávesnicou a obrazovkou, čo je z dlhodobého hľadiska nepríjemné, únavné a zdroj chýb. Tento problém sa vyhýba okamžitým slovným vstupom bez odvrátenia pozornosti. Na korektúry možno použiť rečový výstup zo zariadenia.

Aj v súčasnosti niektorí kontrolóri kvality vo výrobe automobilov prenášajú svoje správy o chybách priamo prostredníctvom rádiového spojenia do počítača rozpoznávajúceho hlas, ktorý nielen uchováva denník, ale aj odosiela zodpovedajúcu správu zodpovednej strane - prípadne výrobnému počítaču. Výhodou oproti neskoršiemu písomnému hodnoteniu je rýchla odpoveď; toto znižuje mieru odmietnutia.

- Ovládanie strojov a počítačov. Systém nielen rozpozná zadaný príkaz, ale ho aj vykoná spustením akcie. Hlasom ovládané obrábacie stroje sú už na trhu. Existujú automobily, v ktorých otváranie okien, stierače čelného skla, rádiá a telefóny dodržiavajú hovorené príkazy. Určité ovládacie a korekčné funkcie v osobných počítačoch je možné spustiť aj pomocou rozpoznávačov reči. K dispozícii sú hlasovo ovládané invalidné vozíky pre ľudí s ťažkým motorickým postihnutím. Pre bezpečnostné funkcie sa hlasové ovládanie zatiaľ nepoužilo, pretože otázka zodpovednosti v prípade zlyhania systému ešte nie je objasnená.

- Informačné a objednávkové systémy. Užívateľ vyjadruje určité požiadavky alebo želania a systém dáva hovorenú odpoveď (pozri článok Helmuta Mangolda na strane 97).

- Diktátové systémy. Akýkoľvek plynulo hovorený text by sa mal konvertovať na písaný text. Táto aplikácia vyžaduje najrozsiahlejšiu formu rozpoznávania reči (pozri články od Marcusa Spiesa na strane 90 a Volkera Steinbißa na strane 94).

Metódy rozpoznávania reči sú zvyčajne rozdelené do troch tried: rozpoznávanie jednotlivých slov, kľúčových slov v plynulom texte alebo nepretržitého prejavu. V uvedenom poradí sa náročnosť a úsilie dramaticky zvyšujú. Ďalším kritériom je závislosť rečníka. Bežné systémy musia byť pred skutočným použitím prispôsobené príslušnému reproduktoru. Nezávislosť reproduktorov je možné dosiahnuť zaškolením systému vopred s čo najväčším počtom reproduktorov. Úsilie je o to značné; spoľahlivosť detekcie napriek tomu zvyčajne klesá.

Rozpoznávanie jednotlivých slov závislých od hovoriaceho je zobrazené podrobnejšie nižšie. V súčasnosti je to najpoužívanejšia a technicky najvyspelejšia forma rozpoznávania reči.

Proces sa v zásade skladá z dvoch etáp (obr. 1): predspracovanie, pri ktorom sa z rečového signálu extrahujú parametre relevantné pre rozpoznanie, a klasifikácia, ktorá nájde súvisiaci význam prostredníctvom porovnania vzorov medzi testovacím a referenčným vzorom.

Predbežné spracovanie

Prvý stupeň zahŕňa obmedzenie frekvencie (filtrovanie), normalizáciu hlasitosti a analógovo-digitálnu konverziu; to druhé je potrebné pre ďalšie spracovanie (dnes výlučne digitálne). Takto digitalizovaný rečový signál už pozostáva z diskrétnej postupnosti čísel, z ktorých každé popisuje zvukovú energiu v určitom časovom okamihu. Tieto doby vzorkovania sú však také blízke, že sa zachovajú základné vlastnosti pôvodne spojitého signálu; hovorí sa o kvázi spojitom signáli.

Množstvo dát, ktoré je v tejto podobe príliš veľké, sa teraz musí znížiť, aby informácie zbavené nadbytočného predradníka čo najpresnejšie charakterizovali príslušné vlastnosti rečového signálu. Z početných možností pre tento krok považujeme z dôvodu prehľadnosti v nasledujúcom texte extrakciu parametrov z rečového spektra. Vezmite si ako príklad slovo čin, ktoré sa hovorí raz krátko a raz dlho. V časovom signáli (obr. 1a) možno plosívny t rozpoznať podľa jeho nízkej energie signálu a jeho nepravidelného priebehu; druhá označuje komponenty vysokofrekvenčného signálu. Samohláska a sa vyznačuje vysokou energiou signálu a pomerne pravidelným pravidelným chodom.

Môžete tiež vidieť, že rozprávanie pomaly predlžuje samohlásku, ale nie plosívne. Slovo hovorené pomaly teda nie je iba spomalená verzia slova hovoreného rýchlo, čo sa musí brať do úvahy pri spracovaní.

Zvukový signál je teraz rozdelený na frekvencie; matematicky to zodpovedá Fourierovej transformácii aplikovanej na časové intervaly okolo 20 až 30 milisekúnd. Vo frekvenčnom znázornení (obr. 1b), tak ako predtým pri samohláskach, sú vysoké energie koncentrované v rozsahu nižších frekvencií (okolo 1 000 Hertzov); také energetické maximá sa nazývajú formanty. Naproti tomu frekvenčný rozsah pre plosives je veľmi široký a siaha až okolo 10 kilohertzov. Pred t na konci slova nie je takmer žiadna energia; také pauzy charakterizujú fázy zvyšovania tlaku, ktoré sú všeobecne potrebné pre hovorenie o úvahách.

Časová škála už bola zhrubnutá do mriežky intervalov spomenutých Fourierovou transformáciou. Vo väčšine prípadov sa redukcia dát ešte ďalej skombinuje s kombináciou mnohých hodnôt na kvázi spojitej frekvenčnej škále spriemerovaním cez 8 až 20 relatívne širokých frekvenčných pásiem. Zvyšné čísla zase zhrubnuté zaokrúhľovaním tvoria takzvaný vektor funkcií: veľmi hrubý obraz pôvodného spektra, ktorý je pre proces rozpoznávania úplne postačujúci (obr. 1 c).

Rečový signál, napríklad hovorené slovo, sa tak stal časovou sekvenciou vektorov znakov. Pauzy hovorenia pred a za každým slovom, ktoré stoja len zbytočný úložný priestor, sú určené a eliminované špeciálnym detektorom pauzy; Uloží sa iba príslušné slovo. Týmto sa predspracovanie končí.

Učenie a uznávanie

Aby bolo možné prispôsobiť systém konkrétnemu reproduktoru, hovorí reproduktor slovo, ktoré sa prevedie opísaným spôsobom na postupnosť vektorov funkcií, ktoré od tej doby tvoria referenčný vzor. Význam hovoreného slova sa systému obvykle oznamuje pomocou klávesnice. Význam a súvisiaci rečový signál sú teraz uložené v pamäti referenčných vzorov. Niekoľko referenčných vzorov pre to isté slovo je možné skombinovať do jedného priemeru, ktorý kompenzuje náhodné odchýlky v hlasovom zázname. Rovnako postupujete pri všetkých slovách, ktoré sa má systém naučiť.

Keď po skončení fázy učenia používateľ vysloví ktorékoľvek z naučených slov, systém prevádza zvukový signál rovnakým spôsobom na postupnosť vektorov funkcií - testovací vzor. Toto porovnáva jeden po druhom so všetkými uloženými referenčnými vzormi, určuje ten, ktorý je najviac podobný súčasnému vzoru, a vydáva jeho význam (obr. 1 vpravo).

Pre toto porovnanie je potrebné uviesť dva vzory do spoločnej časovej škály, pretože nikto nevyslovuje to isté slovo dvakrát presne rovnakou rýchlosťou. Jednoduché stlačenie alebo natiahnutie časovej osi by bolo zbytočné, pretože - ako už bolo spomenuté - zmena rýchlosti reči má rôzne účinky na rôzne zvuky. Takzvaná dynamická úprava času sa ukázala ako veľmi efektívna metóda: Každé malé časové obdobie je jednotlivo natiahnuté alebo stlačené takým spôsobom, aby korešpondencia medzi testovanou a referenčnou vzorkou bola čo najväčšia (obr. 2). Výsledná nelineárna adaptačná funkcia sa nazýva funkcia dynamického časového deformovania; slovo warp (vietor) veľmi jasne popisuje, ako sa adaptačná funkcia vinie súradnicovým systémom.

Posledným krokom spracovania je opätovné nastavenie. Pretože sa hlas reproduktora v priebehu času mení, testovacie vzory, ktoré boli spoľahlivo rozpoznané, sa používajú na obnovenie uložených referenčných vzorov vytvorením vhodne váženého priemeru oboch. Vďaka tomu systém pracuje nielen so slovami uloženými počas fázy učenia, ale aj s nedávno vyslovenými slovami.

Ďalšie postupy

Dve ďalšie, veľmi úspešné metódy, pracujú s pomerne nepriamym porovnaním vzorov namiesto priameho porovnania tu uvedených testovacích a referenčných vzorcov.

Uznanie pomocou takzvaných skrytých Markovových modelov je v súčasnosti jasným favoritom. Tie sa vracajú k ruskému matematikovi Andrejovi Andrejewitschovi Markowovi (1856 až 1922). Pracujete s odhadmi pravdepodobnosti, s akými za stavom systému (napríklad vektorom funkcií) nasleduje iný - alebo dokonca rovnaký - (pozri najmä článok Marcusa Spiesa na strane 90).

Druhým z týchto konceptov sú neurónové siete. Pozostávajú z paralelnej sieťovej štruktúry primitívnych spínacích prvkov, ktoré sú modelované na skutočných nervových bunkách. Niektoré parametre týchto prvkov sa môžu vo fáze učenia automaticky prispôsobiť tak, že určité vektory funkcií prítomné na vstupe poskytujú určitý výsledok na výstupe (pozri „Ako sa neurónové siete učia zo skúseností“, autor Geoffrey E. Hinton, Spectrum of Science, november 1992, strana 134. ). Neurónové siete sú veľmi vhodné na rozpoznávanie reči; sú obzvlášť úspešné, keď sú testovacie vzory sfalšované interferenciou (napríklad okolitým hlukom).

Stále nie je jasné, ktorá zo spomínaných stratégií bude z dlhodobého hľadiska prevládať. Skryté Markovove modely by mohli ľahko prekonať nové typy neurónových sietí optimalizovaných na rozpoznávanie reči.

Na ďalšie zlepšenie výkonu rozpoznávačov reči sa okrem akusticko-fonetických informácií obsiahnutých vo vektoroch znakov hodnotia ďalšie informačné zdroje. Veľmi dôležitou sú znalosti súvisiace s úlohami. Vo väčšine aplikácií je rozsah aplikácie obsahovo obmedzený, takže je len relatívne málo povolených slov. Z tohto dôvodu napríklad program na rozpoznávanie reči pre riadenie stroja mohol ľahko opraviť príkaz, ktorý bol nesprávne rozpoznaný ako „strojový les“, na platný príkaz „stroj zastaviť“.

S tým úzko súvisia aj pragmatické vedomosti: program rozpoznávania reči dostáva informácie o stave jeho prostredia a zaregistruje foneticky založené rozpoznanie ako nepravdivé, ak je v rozpore s podmienkami prostredia. Ak napríklad rozpoznávací systém riadenia stroja vie (prostredníctvom správ z meracích senzorov), že stroj je v prevádzke, rozpoznal by príkaz „zapnúť stroj“ ako nezmyselný a nahradil by ho príkazom „zastaviť stroj“ - alebo spustiť dopyt.

Najnovší stav techniky

Teraz je možné bez problémov implementovať rozpoznávače jednotlivých slov závislé od reproduktora pre malú slovnú zásobu (až niekoľko stoviek slov). Väčšina systémov, ktoré sú v súčasnosti k dispozícii, je tohto typu.

V niektorých prípadoch sú ponúkané rozpoznávače jednotlivých slov nezávislé od reproduktora až do 50 slov; mnohé sú však stále vo fáze výskumu alebo vývoja. Tieto systémy sú v telekomunikačnom sektore naliehavo potrebné s novými používateľmi, od ktorých je zrejmé, že nie je možné požiadať o školiacu fázu vždy pred použitím. Typickou aplikáciou sú telefónne informačné systémy.

V čele vývoja je niekoľko rozpoznávačov, ako napríklad systém „Dictate-30K“ od americkej spoločnosti Dragon Systems, ktorý je založený na skrytých markovských modeloch a má kapacitu až 30 000 slov. To vo všeobecnosti postačuje na tvorbu normálnych textov, aj keď vezmete do úvahy, že slovo má zvyčajne rôzne skloňované tvary a každá forma sa počíta ako samostatné slovo. Vďaka tomu, že sa systém bez fázy tréningu prispôsobuje reproduktorom, ktoré pre neho nie sú známe, má takmer vlastnosti rozpoznávača nezávislého od reproduktora. Hardvér je umiestnený na karte, ktorú je možné zapojiť do osobného počítača. Hlavná aplikácia je v kancelárskej oblasti. Nevýhodou je určite to, že používateľ musí medzi jednotlivými dvoma slovami prestávať (pretože ide o rozpoznávač jedného slova), čo si vyžaduje trhaný, neprirodzený spôsob hovorenia.

Obzvlášť zaujímavou úlohou je rozpoznávanie kľúčových slov v plynule hovorenom jazyku, takzvané špinenie slov. Tvorí prechod k nepretržitému rozpoznávaniu reči, ale v žiadnom prípade si nevyžaduje jeho výpočtové úsilie. Rozvíja svoje silné stránky, kde sú dôležité iba špeciálne informácie - napríklad príkazy, dotazy, mená alebo čísla. Napríklad používateľ letového informačného systému používajúceho slovné špinenie má značnú slobodu formulovať svoju odpoveď na otázku, kam by chcel letieť; systém to správne pochopí, ak správne rozpozná v hovorenom texte iba slovo „Hamburg“. Týmto spôsobom je možné dosiahnuť vysokú úroveň akceptácie používateľom.

Je prekvapujúce, že takýchto systémov je len niekoľko. Jedným z dôvodov môže byť to, že špinenie slov je zvlášť vhodné na počúvanie hlasových kanálov (najmä telefónnych liniek), a preto vyšetrovania podliehajú dôvernosti.

Najvýhodnejšou, ale zároveň najťažšou technikou je rozpoznávanie nepretržitej reči. Problémy vznikajú predovšetkým zo skutočnosti, že hranice slov často nie sú rozpoznateľné v toku jazyka alebo neexistujú vôbec: „V pondelok“ sa hovorí „pondelok“. Toto znemožňuje porovnanie na základe slov, takže je potrebné prepnúť na jednotlivé zvuky.

Na svete existuje len veľmi málo systémov, ktoré by tieto problémy riešili; väčšina z nich je stále v štádiu laboratória alebo prototypu. Okrem „Speech Processing System 6000“ od spoločnosti Philips (porovnaj článok Volkera Steinbißa na strane 94) by mal byť spomenutý hlavne systém „Sphinx“, ktorý by mal Kai-Fu Lee a jeho kolegovia z Carnegie Mellon University v Pittsburghu spomenúť (Pensylvánia). Je v podstate založený na skrytých Markovových modeloch a neobsahuje žiadne nové stratégie alebo komponenty; Vysoký výkon spočíva skôr v skutočnosti, že najlepšie zo známych rozpoznávacích algoritmov boli zložito kombinované. „Sfinga“ dokáže rozpoznať nepretržitú reč so slovnou zásobou približne 1000 slov a presnosťou približne 95 percent. Systém je v súčasnosti stále v laboratórnej fáze.

Automatické rozpoznávanie reči je nepochybne jednou z najdôležitejších technických inovácií v oblasti komunikácie človek - stroj. Dostupné systémy majú stále ďaleko od výkonu rozpoznávania, ktorý by bol porovnateľný s výkonom ľudí, ale je možné ich už použiť na rôzne úlohy. Väčšina technických aplikácií má aj tak veľmi obmedzené požiadavky na systém rozpoznávania reči. Stále však existuje značná potreba výskumu a činnosti v netechnickej oblasti: optimálna koncepcia dialógu človek - stroj.

Bibliografia

- Spracovanie a prenos reči. Od Klausa Fellbauma. Springer, Heidelberg 1984.

- Automatické rozpoznávanie reči. G. Ruske. Oldenbourg, Mníchov 1988.

- Jazyková komunikácia človek - stroj. Upravil Helmut Mangold. Oldenbourg, Mníchov 1992.

- Rozpoznávanie reči a porozumenie. Posledné pokroky, trendy a aplikácie. Redigovali P. Laface a R. de Mori. Springer, Heidelberg 1992.

- Pokroky v spracovaní rečových signálov. Redigovali Sadaoki Furui a M. Mohan Sondhi. Marcel Dekker, New York/Bazilej/Hong Kong 1992.