Inteligentné miestnosti - spektrum vedy

Inteligentné izby

Niekedy si prajete, aby dom vždy vedel, kde sú deti, a dal by vám vedieť, či urobili niečo nebezpečné; alebo by úrad automaticky vedel, kedy sa koná dôležitá schôdza, a neuskutočňoval hovory. A čo keby vaše auto rozpoznalo, že vás po dlhej ceste unavuje a vyzvalo vás, aby ste si v dostatočnom predstihu oddýchli?

Už dlho sa podnikajú pokusy o vývoj počítačových systémov s takýmto výkonom. Čoskoro mohli stroje prevziať niektoré z úloh opatrovateliek alebo sekretárok.

Prečo ste to nedokázali už dávno? Hlavný dôvod vidím v tom, že počítače sú hluché a slepé: Informácie o svete môžete získať iba pomocou klávesnice a myši. Ani mikrofón a kamera nepomáhajú, pokiaľ sa údaje, ktoré poskytujú, iba prenášajú alebo ukladajú, ale nevykladajú sa v zmysle ich významu. Verím, že stroj musí vnímať, čo jeho užívateľ robí, v oveľa širšom zmysle, než mu môže byť skutočne nápomocný. A čo viac, musí byť tiež schopný rozpoznať jeho osobu a byť schopný odhaliť jeho úmysly - aspoň v obmedzenej miere, v akej to dokáže iná osoba alebo dokonca pes.

Aby som sa priblížil k tomuto cieľu, moja výskumná skupina nedávno vyvinula systémy, ktoré rozpoznávajú tváre, mimiku a gestá. Už ju môžeme použiť na vytvorenie prostredia, ktoré sa správa v určitých aspektoch, ako je dom, kancelária alebo auto opísané vyššie.

Tieto inteligentné miestnosti, ako ich nazývame, sú vybavené kamerami a mikrofónmi, z ktorých dát počítačová sieť vypracuje hodnotenie toho, čo ľudia hovoria a robia v zaznamenanej oblasti. Môže pomocou pohybov tela, hovorenia a mimiky dať systému pokyny, vyvolať multimediálne informácie alebo vstúpiť do virtuálnych svetov - bez klávesnice a myši a bez nemotorných dátových rukavíc a prilieb.

Hlavná myšlienka je: Pretože inteligentné miestnosti vedia niečo o svojich obyvateľoch - z priameho vnímania alebo z iných zdrojov - môžu inteligentne reagovať na ich činy.

V spolupráci s Pattie Maes a mnou, doktorandi Trevor Darrell a Bruce M. Blumber skonštruovali v roku 1991 prvú inteligentnú miestnosť v našom mediálnom laboratóriu na Massachusetts Institute of Technology v Cambridge. To čoskoro vyústilo do experimentu, na ktorom sa zúčastnilo niekoľko pracovných skupín. V súčasnosti existuje päť takýchto miestností, všetky sú spojené telefónnymi linkami: tri v Bostone, jedna v Japonsku a jedna vo Veľkej Británii. Ďalšie inštalácie sú plánované v Paríži, New Yorku a Dallase.

Každá z týchto izieb je vybavená niekoľkými počítačmi. Žiadne z týchto zariadení nie je výkonnejšie ako bežné PC; každý je navrhnutý a zodpovedný za konkrétnu úlohu, napríklad jednu za analýzu obrázkov, druhú za zvuky a tretiu za gestá. Ak je potrebných viac zručností, jednoducho pridáme viac strojov.

Napriek rozdielom sú všetky služby rozpoznávania založené na rovnakom štatistickom princípe: maximalizácia pravdepodobnosti (analýza maximálnej pravdepodobnosti). Počítače porovnávajú prichádzajúce údaje s uloženými modelmi, vypočítajú stupeň korešpondencie a nakoniec určia model, ktorý sa k údajom najlepšie hodí.

Predtým, ako inteligentná miestnosť zistí, čo robí jej používateľ, musí ich vyhľadať. Za týmto účelom sme vyvinuli systém s názvom Pfinder (pre vyhľadávanie osôb), ktorý registruje a sleduje miesto pobytu osoby, pokiaľ sa pohybuje v miestnosti.

V takom prípade systém potrebuje pre analýzu maximálnej pravdepodobnosti model ľudského tela: popis s čo najmenším počtom číselných hodnôt, ktorý je napriek tomu dostatočne presný na to, aby bol porovnateľný s údajmi z videokamery. Náš model sa skladá z niekoľkých jednoduchých, vzájomne prepojených geometrických tvarov, ktoré nazývame guľôčky (doslova: guľôčky alebo hrudky). Postačuje sedem blobov - na ruky a nohy, ako aj na hlavu, hornú a dolnú časť tela (obrázok 1). Blob sa vyznačuje svojou farbou a geometrickými rozmermi pre polohu, orientáciu a tvar. Okrem toho existujú informácie o tom, ako presné alebo spoľahlivé sú tieto informácie: Namiesto jediného čísla pre súradnicu polohy alebo špecifikáciu farby existuje distribúcia okolo strednej hodnoty (presnejšie: kovariančná matica).

Výsledkom je do istej miery modelový koncept, ktorý systém vytvára z miestnosti a z ľudí v nej: kyprú spojenú figurínu so správnou pozíciou a postavením, vloženú do modelu textúry pozadia miestnosti. S týmto obrázkom porovnáva Pfinder každý nový záznam videokamery; Program vytvorí zoznam, ktorý ukazuje, ktoré rastrové body (pixely) by mali patriť ku ktorému blobu podľa koncepcie modelu a ktoré by nemali.

Extrapoluje to z minulosti: ak sa horná časť tela používateľa posunula o jednu sekundu skôr doprava rýchlosťou 1 meter za sekundu, Pfinder má podozrenie, že stred kvapky, ktorá modeluje hornú časť tela, je na ďalšiu desatinu sekundy vzdialený o desatinu metra viac. Tieto predpovede sa upravujú ich porovnaním s typickými pohybovými vzormi, ktoré systém vyťažil z pozorovania tisícov ľudí. Napríklad extrapolácia zahŕňa skúsenosť, že horná časť tela sa dá ohnúť v porovnaní s dolnou časťou tela, ale nie je možné ju vyrovnať, alebo že sa ruky a nohy pohybujú podstatne rýchlejšie ako kmeň.

V ďalšom kroku program porovnáva obraz a obraz z fotoaparátu tak, že odčíta farbu a jas oboch obrazov po pixeloch a vyhodnotí výsledok z hľadiska pravdepodobnostného tvrdenia. Napríklad, ak je rozdiel v jase pixelu 10 percent a súčasne distribučná funkcia súvisiaceho objektu blob hovorí, že k takémuto rozdielu dôjde iba v 1 percente prípadov, potom je šanca, že tento pixel patrí do tohto objektu blob, iba 1 zo 100.

Vyžadujú sa ďalšie úpravy. Ak je časť tela používateľa v tieni, existujú rozdiely v jase, ktoré nemajú nič spoločné so spomínanou pravdepodobnosťou. Pfinder preto nájde tiene - definované ako oblasti, ktoré sú tmavšie, ako sa očakávalo - a upraví farebné hodnoty svojich pixelov na jednotný jas.

Zmeny osvetlenia alebo usporiadania predmetov v miestnosti môžu tiež spôsobiť, že im systém bude nesprávne priradiť. Ak napríklad používateľ odloží knihu zo stola a položí ju na poličku, pozadie sa zmení na dvoch miestach: starom a novom mieste knihy. Preto Pfinder neustále aktualizuje údaje o pozadí - teda pixeloch, ktoré nie sú obsadené guľkami - priemerovaním medzi starou a novou hodnotou farby.

Po všetkých týchto rôznych výpočtoch a kompenzáciách Pfinder nakoniec určí blob, ku ktorému najtesnejšie patrí pre každý pixel nového obrázka. To zase získa nové hodnoty pre údaje modelu blob a pozadia, ako aj pre súčasné rýchlosti, ktoré sa používajú na extrapoláciu nasledujúceho obrázka. Týmto spôsobom zostáva systém neustále aktuálny vďaka neustálej súhre medzi súčasným a imaginárnym obrazom.

Kto a ako?

Ďalšou úlohou je určiť, kto je v miestnosti a čo hovorí. Existuje už veľa algoritmov na rozpoznávanie reči (Spektrum der Wissenschaft, marec 1994, strana 86). Prakticky všetky tieto systémy uspokojivo fungujú, iba ak je mikrofón v tesnej blízkosti reproduktora. Za obzvlášť inteligentnú by sa nepovažovala miestnosť, ktorá rozumie iba osobe, ktorá stojí v určitom bode - konkrétne pred mikrofónom; Reč by mala byť rozpoznateľná aj vtedy, keď sa reproduktor pohybuje voľne v miestnosti a stále sú tam zvuky.

Naše riešenie tohto problému je založené na tom, že spoločnosť Pfinder neustále pozná polohu používateľa. To je dôvod, prečo je možné vypočítať časy prechodu zvuku z jeho úst do niekoľkých pevne nainštalovaných mikrofónov. Elektronické oneskorovacie obvody zaisťujú, že všetky zvukové signály reproduktora v systéme sa spájajú súčasne a tým sa zvyšujú, zatiaľ čo všetky ostatné sú spriemerované. Takto získate signál dostatočnej kvality; porovnáva sa so známymi slovami a slovo s maximálnou zhodou sa považuje za hovorené.

Porozumenie pokynu je rovnako dôležité ako poznanie, kto ho dáva. Najrýchlejší spôsob, ako spoznať človeka, je určite jeho tvár. Systém najskôr potrebuje modely všetkých tvárí, ktoré má identifikovať. Matematická metóda z lineárnej algebry, analýza vlastných vektorov, priniesla niečo ako umelé štandardné tváre; hovoríme im Vlastné tváre. Akákoľvek tvár je vytvorená tak, že sa každá jednotlivá tvár vynásobí určitým faktorom a potom sa všetky aditívne prekrývajú; modelom tváre potrebným na analýzu je systém týchto váhových faktorov.

Ak kamera inteligentnej miestnosti teraz objavila osobu, identifikačný systém izoluje tvár, ktorú predtým našiel Pfinder, od okolitého prostredia a normalizuje jej kontrast. Program potom vypočíta, ako je to podobné pre každý vlastný tvar, alebo čo sa rovná tej istej veci, ktoré váhové faktory by sa museli použiť na jeho zloženie z vlastných tvarov. Výsledkom týchto hodnôt podobnosti je model, ktorý sa porovnáva s uloženými modelmi ľudí, ktorí sú už známi. Naše inteligentné miestnosti našli tú pravú osobu z testovacích skupín niekoľkých stoviek ľudí s mierou úspešnosti 99 percent.

Na vrchu tamtoho. Napríklad tutoriál by mal vedieť, či majú študenti záujem alebo sa nudia. Naša inteligentná miestnosť preto analyzuje svoj výraz hneď, ako nájde a rozpozná tvár (obr. 2). Špecializovaný počítač za týmto účelom porovnáva pohyby tváre s adresármi pohybov, ktoré sú typické pre určité emócie (obrázky 3 a 4). Osoba, ktorá sa usmieva, otáča kútikmi úst a dvíha určité časti čela; ak iba imitujete úsmev, pohybujete iba ústami. Nášmu systému sa podarilo správne určiť vybranú mimiku u malej skupiny testovaných osôb na 98 percent.

Aby boli domy, kancelárie a autá skutočne užitočné, musia predsa súvisieť so základným vnímaním identity človeka, jeho výrazom a jazykom. Jeden a ten istý pohyb je koniec koncov možné interpretovať veľmi odlišne, podľa toho, čo jeho pôvodca chystá. Vodič, ktorý zloží nohu z plynu, môže chcieť zastaviť - alebo otočiť. Je tu však badateľný rozdiel: ak chcete zatočiť, zdvihnite ukazovateľ a položte ruky na volant iným spôsobom, aby ste sa pripravili na zatáčanie. Počítačový systém musí preto brať do úvahy kombináciu aktuálnych a bezprostredne predchádzajúcich pohybov.

Aby sme to dosiahli, prijali sme princípy z technológie automatického rozpoznávania reči: Slovo je v takomto systéme modelované sledom stavov - fonémy (jednotlivé zvuky) alebo časti foném - s určitou pravdepodobnosťou prechodu z jedného stavu do druhého: takzvaný Markovov reťazec ( Spectrum of Science, marec 1994, strana 90). Aby bolo možné rozpoznať hovorené slovo, systém sa snaží zosúladiť zvukový signál s rôznymi markovskými reťazcami; nakoniec rozhodne v prospech toho, kto s ním pracuje najlepšie.

Tento prístup sme zovšeobecnili, aby sme automatom umožnili odvodiť ich úmysly z pohybov človeka. Miesto fonémov prichádzajú určité elementárne pohyby. Napríklad sa musí rozlišovať, či sa človek iba vyvaľuje s vystretou rukou alebo na niečo ukazuje. Pre zobrazenie má systém vnútorný model zložený z troch stavov: zdvihnite ruku, nehybne držte a rýchlo odtiahnite. Len na predĺženie ruky však očakáva iba jeden nepretržitý pohyb.

Z doteraz vyvinutých systémov pre interpretáciu akcií najjednoduchšie z nich umožňujú používateľovi ovplyvňovať virtuálne prostredie pohybmi tela. ALIVE (Artificial Life Interaction Environment), spoločné úsilie skupiny Pattie Maes a mojej spoločnosti, prevádza popis používateľa poskytnutý spoločnosťou Pfinder na video model, ktorý je obývaný všetkými druhmi počítačom generovaných foriem života Životné prostredie je živé. Fantasy zvieratá vyhodnotia informácie o gestách, jazyku a polohe používateľa a reagujú na ne (obrázok 1). Ak sa pohybuje, akoby zdvihol palicu a odhodil ju ďaleko, urobí to isté aj videozáznam v prostredí ALIVE - a Silas, virtuálny pes, utečie a pritiahne sa. Silas môže tiež na povel sedieť alebo sa na seba prevrátiť.

Výstupné údaje inteligentnej miestnosti možno tiež použiť oveľa priamejšie. Polohu používateľa je možné napríklad preniesť do virtuálnej riadiacej miestnosti; slovo alebo pohyb ruky potom fungujú priamo ako pokyny počítačovému programu.

Môže to byť videohra v imaginárnom trojrozmernom prostredí, ktoré sa zaobíde bez obvyklých ovládacích prvkov, ako sú napríklad joysticky. Ak sa nepriateľ v scenérii priblíži zľava, hráčovi - v skutočnej miestnosti - stačí otočiť doľava, zdvihnúť ruku virtuálnou pištoľou a zakričať „tresk“ - a súper zavrčí.

Existujú však aj vážne použitia. Pomerne komplikovaný americký posunkový jazyk (ASL) je dobrým testom schopností našej miestnosti; preto sme zostrojili systém ich interpretácie (obr. 6). Modely jednotlivých postáv sme vytvorili kombináciou mnohých záznamov príslušných pohybov ruky - analyzovaných Pfinderom. Doteraz systém rozpoznával 40 ASL slov v reálnom čase s presnosťou na 99,2 percenta. S konštantnou rýchlosťou rozpoznávania a zvýšenou slovnou zásobou by malo byť možné vytvoriť systém rozpoznávania reči pre nepočujúcich a nemých.

Nie je náhoda, že som sa o automobile zmienil niekoľkokrát: Väčšina dopravných nehôd je spôsobená chybami vodiča. Preto vyvíjame inteligentný kokpit spolu s Andy Liu, vedcom v inštitúte základného výskumu spoločnosti Nissan v Cambridge (Massachusetts). Dlhodobým cieľom je vozidlo, ktoré sleduje činy vodiča a poskytuje užitočné informácie: o správnej trase a zaobchádzaní s vozidlom až po varovania pred nebezpečenstvom.

Vývoj sa začal opäť modelovaním. Z pohybov rúk a nôh mnohých vodičov na simulovanom kurze sme odvodili modely správania pre typické činnosti: vyhýbanie sa prekážke, sledovanie iného vozidla, odbočenie, zastavenie, rozjazd a zmena jazdného pruhu (obr. 5). Vďaka tomu by mal systém čo najrýchlejšie klasifikovať zamýšľané činnosti testovacieho vodiča. Na naše prekvapenie bola miera zásahov po pol sekunde 86 percent a po dvoch sekundách 97 percent.

Prinajmenšom v jednoduchých situáciách je možné sledovať pohyby človeka, identifikovať ich a interpretovať určité výroky a výrazy tváre - a to všetko v reálnom čase so skromným výpočtovým úsilím. Schopnosti našich systémov je možné kombinovať mnohými spôsobmi. Takto vyvíjame okuliare, ktoré ľudia rozpoznajú a zašepkajú ich mená do ucha nositeľa. Pracujeme na televíznych obrazovkách, ktoré sa zaregistrujú, keď sa niekto pozerá. A plánujeme vyvinúť kreditnú kartu, ktorá pozná jej majiteľa - a teda tiež vie, či nebola ukradnutá.

Ostatné výskumné skupiny v našom mediálnom laboratóriu pracujú na vybavení inteligentných priestorov hlbším porozumením ľudských činov a motívov. S ďalším pokrokom sa budú počítačové systémy správať čoraz viac ako autonómni pozorní asistenti.

Bibliografia

- Vizuálne ovládaná grafika. Autori A. Azarbayejani, T. Starner, B. Howowitz a A. Pentland v: IEEE Transactions on Pattern Analysis and Machine Intelligence, zväzok 15, číslo 6, strany 602 až 604, jún 1993.

- Systém ALIVE: Interakcia celého tela s autonómnymi prostriedkami. Autori: P. Maes, T. Darrell, B. Blumburg a A. Pentland za: Proceedings of Computer Animation '95, 1995.

- Rozpoznávanie výrazu tváre pomocou dynamického modelu a energie pohybu. Autori I. A. Essa a A. Pentland in: Zborník z piatej medzinárodnej konferencie o počítačovom videní. IEEE Computer Society Press, 1995.

- Smerom k rozšíreným riadiacim systémom. Autori: A. Pentland a A. Liu v: Zborník zo sympózia „Inteligentné vozidlá“ 95. Spoločnosť IEEE pre priemyselnú elektroniku, september 1995.

- Americká posunková reč v reálnom čase z videa pomocou skrytých Markovových modelov. Autor: T. Starner a A. Pentland: Medzinárodné sympózium o počítačovom videní, 1995. IEEE Computer Society Press, 1995.

- Pfinder: Sledovanie ľudského tela v reálnom čase. Autori: Christopher Wren, Ali Azarbayejani, Trevor Darrell a Alex P. Pentland za: Problémy integrácie vo veľkých systémoch dodávania komerčných médií. Redigovali A. G. Tescher a V. M. Bove. SPIE, zv. 2615, 1996.

- Mediálne laboratórium Massachusettského technologického inštitútu má množstvo článkov a správ na internete na adrese http: // www-white. media.mit.edu/vismod.