Priebežné rozpoznávanie posunkového jazyka vo veľkom slovníku - stiahnutie PDF zadarmo

Kontinuálne rozpoznávanie posunkového jazyka na rozsiahlej slovnej zásobe Philippe Dreuw, Morteza Zahedi, David Rybach, Thomas Deselaers, Hermann Ney [email protected] Workshop posunkového jazyka 27. októbra 2006 Predseda informatiky 6 RWTH Aachen University, Nemecko P. Dreuw a kol .: Continuous Rozpoznávanie posunkovej reči 1 Workshop o posunkovej reči 2006, 27. októbra 2006

veľkom

Prehľad 1 Úvod 2 Prehľad systému 3 Modelovanie slov 4 Výsledky 5 Záver P. Dreuw a kol.: Kontinuálne rozpoznávanie posunkovej reči 2 Workshop o posunkovej reči 2006 27. októbra 2006

1 Úvod Podobnosti: rozpoznávanie reči/rozpoznávanie znakovej reči hovorený jazyk časová postupnosť zvukov posunková reč časová postupnosť znakov/posunkov akustický signál časová postupnosť akustických vektorov, (akustická realizácia zvukov) vizuálny signál časová postupnosť vizuálnych vektorov, (vizuálna realizácia znakov) rozdiely: gramatika Paralelizmus využívania a indexovania miestnosti posunkového jazyka P. Dreuw a kol .: Kontinuálne rozpoznávanie posunkového jazyka 3 Workshop posunkového jazyka 2006 27. októbra 2006

Problémy robustných rozpoznávacích systémov Jazyk Izolované znaky Nepretržité znaky Počet reproduktorov 00 11 00 11 000 111 000 111 0000 1111 00000 11111 00000 11111 000000 111111 0000000 1111111 0000000 1111111 00000000 11111111 000000000 000000000 111111111 11111111 0000001100 11111111111 0000 problémov Rýchlosť medziľudských rozdielov rodový dialekt koartikulácia ticho Čo sa výrazne líši v rozpoznávaní reči? Čo nám chýba Údaje: približne 400 hodín reči oproti 5 10,7% 8,7% 8,7% 26,2% Frekvencie slov pri výcviku P. Dreuw a kol .: Nepretržité rozpoznávanie posunkového jazyka 11 Workshop posunkového jazyka 2006 27. októbra 2006

Aplikácia: Sledovanie hlavy Problémy: 2.3 Sledovacie ruky sú často pred tvárou, rotácia hlavy, výrazná mimika Pozadie: farby pleti, štruktúra. Myšlienka: kombinovať informácie o farbe pleti a vlastnostiach tváre P. Dreuw a kol.: Kontinuálne rozpoznávanie posunkovej reči 12 Workshop o posunkovej reči 2006 27. októbra 2006

Príklady sledovania Sledovanie hlavy a ruky v databáze RWTH-Boston-104 Sledovanie hlavy v databáze RWTH-Phoenix s modelom tela P. Dreuw a kol .: Kontinuálne rozpoznávanie posunkovej reči 13 Workshop o posunkovej reči 2006 27. októbra 2006

2.4 Použité funkcie Ručné funkcie (zo sledovania): Poloha ruky Pohyb ruky Trajektoria ruky ut 1 ut 2 Základné nastavenie: Vlastnosti obrazu založené na vzhľade Obrázky sú zmenšené na 32 - 32 pixelov a slúžia ako dobrý základný výsledok pri mnohých problémoch s rozpoznávaním obrazu, úspešné pri rozpoznávaní gest. použité P. Dreuw a kol .: Kontinuálne rozpoznávanie posunkového jazyka 14 Workshop posunkového jazyka 2006 27. októbra 2006

3 Modelovanie slov Rozpoznávanie vo veľkej slovnej zásobe: Celé slovné modely nie sú užitočné, nie je k dispozícii dostatok výcvikového materiálu. Vyžaduje sa väčšie množstvo pamäte. Riešenie: Vytvorte slovné modely zreťazením čiastkových jednotiek slov. Lexikón výslovnosti rozpoznaný xyz:: x: x: Pozorovanie 1: yz: x Pozorovanie 2: yxx: z: y: Pozorovanie 3 x, y, z: Značky podjednotiek P. Dreuw a kol .: Nepretržité rozpoznávanie posunkovej reči 15 Workshop posunkovej reči 2006, 27. októbra 2006

Modelovanie slov Problémy pri rozpoznávaní posunkovej reči: Fonémy stále nie sú jasne definované. Nie je k dispozícii žiadny slovník výslovnosti. Fonémy sa vyskytujú súčasne (viacprúdové), výrazne viac fonémov v rozpoznávaní posunkovej reči ako fonémy v rozpoznávaní reči Prístup, ktorý nie je ľahko prenosný do rozpoznávania posunkovej reči Izolované znaky Známe hranice slov Nepretržité Znaky, neznáme hranice slov, kontextové efekty pri prechode slov, pohybová pentézia, ticho P. Dreuw a kol .: Kontinuálne rozpoznávanie posunkovej reči 16 Workshop o posunkovej reči 2006 27. októbra 2006

4 Výsledky Základné výsledky a kombinácia s charakteristikami ruky Príklady viet Charakteristická chybovosť zmenšený obrázok 37,0 Obrázok transformovaný PCA 27,5 + trajektória ruky 23,6 Windows 21.9 Kombinácia modelov 17.9 VŠETKY CHLAPCE DÁ UČITEĽOVI JABLKO VŠETKY CHLAPCE DÁVAJÚCI UČITEĽOVI JOHN NEMAL BY KÚPIŤ DOM JOHN BUDÚCNOSŤ NIE KÚPIŤ DOM ANN BLAME MARY ANN BLAME JOHN READ BOOK JOHN FUTURE FINISH READ BOOK P. Dreuw a kol .: Kontinuálne rozpoznávanie posunkového jazyka 17 Workshop posunkového jazyka 2006 27. októbra 2006

5 Záver Výsledky boli získané vo verejnej databáze Systém nevyžaduje špeciálny hardvér ani rukavice Rozpoznávanie znakovej reči s aktuálnym systémom rozpoznávania reči Dobré výsledky pri rozpoznávaní posunkovej reči dosahujú aj obrazové vlastnosti založené na vzhľade Mnoho princípov rozpoznávania reči je možné preniesť priamo do rozpoznávania posunkovej reči, čo je obzvlášť dôležité: kontextové informácie a jazykové modely P. Dreuw et al.: Kontinuálne rozpoznávanie posunkovej reči 18 Workshop o posunkovej reči 2006, 27. októbra 2006

Výhľad Preskúmajte ďalšie objavy rozpoznávania reči a obrazu: Adaptácia reproduktorov Ďalšie funkcie rozpoznávania Modelovanie slov Integrácia priestorových informácií z rozpoznávania do prekladu Rozpoznávanie JOHN IX DÁVAJTE ČLOVEKU IX NOVÝ KABÁT JOHN DÁVAJTE IX NOVÝ KABÁT Preklad bez priestorových informácií John dáva tomuto človeku preklad kabátu s Informácie o miestnosti John dáva mužovi tam kabát. P. Dreuw a kol .: Kontinuálne rozpoznávanie posunkovej reči 19 Workshop o posunkovej reči 2006, 27. októbra 2006

Ďakujeme za pozornosť Philippe Dreuw [email protected] http://www-i6.informatik.rwth-aachen.de/ P. Dreuw a kol .: Kontinuálne rozpoznávanie posunkovej reči 20 Workshop o posunkovej reči 2006 27. októbra 2006

Príloha: Bayesovské rozhodovacie pravidlo Video vstup X T 1 Analýza funkcií x T 1 Globálny < Search: argmax Pr(w N 1 ) Pr(xT 1 wn 1 )>w1 N Pr (x T 1 wn 1) Pr (w N 1) Word Model Inventory Language Model ŵ N 1 Recognized Word Sequence P. Dreuw et al .: Kontinuálne rozpoznávanie posunkového jazyka 21 Workshop posunkového jazyka 2006 27. októbra 2006

Príloha: Vlastné plochy Obrázok X je možné premietať do priestoru tváre lineárnou transformáciou φ: φ (x) = VT (X µ), kde V = [v 1. vm] je matica prvých vlastných vektorov a µ je priemer tvár vypočítaná na množine tréningových obrázkov. Projekcia z tvárového priestoru do obrazového priestoru je: φ 1 (X f) = V X f + µ, kde X f je obrazová reprezentácia v tvárovom priestore φ (x). Vzdialenosť medzi obrazom a jeho verziou premietanou dopredu a dozadu sa nazýva vzdialenosť priestoru na tvári. Môže sa použiť ako miera tvárnosti. d f (X) = X φ 1 (φ (x)) 2 P. Dreuw a kol .: Kontinuálne rozpoznávanie posunkového jazyka 22 Workshop posunkového jazyka 2006 27. októbra 2006

Príloha: Vlastné plochy Príklad premietaných obrázkov a výsledná vzdialenosť: X φ 1 (φ (x)) X φ 1 (φ (x)) df (X) 278 432 Na detekciu a sledovanie používame funkciu vzdialenosti od priestoru tváre ako funkciu skóre heads: sf (ut 1, ut; X tt 1) ​​= df (X t (ut)), kde X t (ut) označuje obdĺžnikovú škvrnu obrazu X t vycentrovanú v polohe u t. P. Dreuw a kol .: Kontinuálne rozpoznávanie posunkovej reči 23 Workshop o posunkovej reči 2006 27. októbra 2006

Príloha: Akustický model a jazykový model LM Scales majú rovnaký vplyv na Bayesovo rozhodovacie pravidlo Experimenty s rozpoznávaním reči ukázali, že rozpoznávanie je možné výrazne zlepšiť, ak má jazykový model väčší vplyv ako akustický model Hmotnosť α pre jazykový model a hmotnosť β pre akustický model: argmax w N 1 < p(w N 1 xt 1 )> < = argmax p α (w N w1 N 1 ) pβ (x T 1 wn 1 )> < >α = argmax w1 N β log p (wn 1) + log p (xt 1 wn 1) Faktor α β sa nazýva faktor jazykového modelu. P. Dreuw a kol .: Kontinuálne rozpoznávanie posunkovej reči 24 Workshop o posunkovej reči 2006 27. októbra 2006

Príloha: LM Perplexity Perplexita jazykového modelu a testovacieho korpusu w N 1 je definovaná ako: PP = p (w N 1 1) N [N = p (wnhn) n = 1 Pretože perplexita je inverzná pravdepodobnosť, je možno interpretovať ako priemerný počet možných slov na každom mieste v texte. Logaritmus zmätenosti sa rovná entropii textu, t.j. nadbytočnosť slov v testovacom korpuse vzhľadom na tento jazykový model. ] 1 N log P P = 1 N N log p (w n h n) n = 1 P. Dreuw a kol .: Kontinuálne rozpoznávanie posunkovej reči 25 Workshop o posunkovej reči 2006 27. októbra 2006

Príloha: Funkcie trajektórie ruky počítajú globálne vlastnosti popisujúce geometrické vlastnosti odhadu trajektórie ruky pre kovariančnú maticu Σ t pre polohy rúk v určitom časovom okne 2 + 1 µ t = Σ t = 1 2 + 1 1 2 + 1 t + t = t t + t = tut Σ tvt, i = λ t, ivt, ii (ut µ t) (ut µ t) T vlastné čísla λ t, i a vlastné vektory vt, i kovariančnej matice možno potom použiť ako globálne znaky. P. Dreuw a kol .: Kontinuálne rozpoznávanie posunkovej reči 26 Workshop o posunkovej reči 2006 27. októbra 2006

Príloha: Vlastnosti trajektórie ruky 40 60 80 100 120 0 pozícií ruky ut vlastných vektorov vi 20 40 60 80 100 120 140 140 160 pozícií rúk ut vlastných vektorov vi 140 60 80 20 40 60 80 100 60 pozícií rúk ut vlastných vektorov vi 180 0 20 40 60 80 100 120 140 160 180 70 pozícií rúk ut Vlastné vektory vi 100 120 140 80 90 100 160 40 60 80 100 120 140 110 50 60 70 80 90 100 P. Dreuw a kol .: Kontinuálne rozpoznávanie posunkového jazyka 27 Workshop posunkového jazyka 27. októbra 2006

Príloha: Výsledky - kontextové informácie 40 veľkosť okna = 5 veľkosť okna = 3 veľkosť okna = 7 35 WER [%] 30 25 20 50 100 150 200 250 300 rozmer Kombinácia oknami PCA transformované obrázky P. Dreuw a kol .: Kontinuálne rozpoznávanie posunkovej reči 28 Workshop posunkového jazyka 2006 27. októbra 2006

Príloha: Výsledky - Jazykové modelovanie 80 70 60 zerogram unigram bigram trigram WER [%] 50 40 30 20 10 0 100 200 300 400 500 Výsledky škály LM pre rôzne jazykové modely a faktory zmeny mierky P. Dreuw a kol .: Kontinuálne rozpoznávanie posunkovej reči 29 Workshop posunkového jazyka 27. októbra 2006 2006