Aplikácia AI Microsoft pre nevidiacich je teraz k dispozícii aj v nemčine - DER SPIEGEL
Vývojár spoločnosti Microsoft Saqib Shaikh

Foto: Elaine Thompson/AP
Smartfón číta recepty, píše fotografie z dovolenky a spoznáva priateľov na večierkoch: pred dvoma rokmi spoločnosť Microsoft vydala digitálneho spoločníka pre ľudí so zrakovým postihnutím pomocou aplikácie pre iPhone „Seeing AI“. Od utorka je aplikácia k dispozícii okrem anglickej verzie aj vo francúzštine, španielčine, holandčine, japončine a nemčine.
V rozhovore pre SPIEGEL vysvetľuje Saqib Shaikh, hlavný vývojár aplikácie spoločnosti Microsoft, ktoré nové funkcie aplikácie umožnila umelá inteligencia (AI). Hovorí o svojej vízii digitálnych spoločníkov pre zrakovo postihnutých a nevidiacich ľudí, ale aj o problémoch, ktorým vývojári čelia, a o tom, prečo musíte byť pri tejto technológii trpezliví.
Saqib Shaikh Ako hlavný vývojár v spoločnosti Microsoft je zodpovedný za aplikáciu „Seeing AI“. Šajch stratil zrak v siedmich rokoch. V spoločnosti Microsoft pomohol vyvinúť vyhľadávač Bing a hlasovú asistentku Cortanu. Shaikh sa teraz primárne zaoberá tým, ako môže umelá inteligencia uľahčiť život ľuďom so zrakovým postihnutím.
ZRKADLO: Pán Shaikh, pred 15 rokmi ste prvýkrát dostali nápad vyvinúť digitálneho spoločníka pre ľudí so zrakovým postihnutím. Umelá inteligencia je technológia, na ktorú ste čakali?
Šajch: Vo výskume s umelou inteligenciou sme dosiahli obrovský pokrok. Ale chýba nám mnoho rokov od toho, aby sa počítače rozhliadali a porozumeli všetkému, čo vidia. Som slepý, takže rád chodím s manželkou a priateľmi na prechádzku. Potom diskutujeme o tom, čo vidia na tejto ceste. Povedia mi, keď objavia niečo vzrušujúce, alebo sa spýtam, či nemôžem priradiť zvuk. Prial by som si, aby jedného dňa mohla AI práve toto urobiť. Ako osobný asistent.
ZRKADLO: Ako dlho musíme čakať, kým digitálni pomocníci nahradia ľudských spoločníkov?
Šajch: Je veľmi ťažké vidieť do budúcnosti. Môžem len divoko špekulovať. Neviem, či to budú ďalšie dva, tri, štyri alebo päť rokov. Toľko sa toho deje v teréne. Každý rok sa dosahuje taký pokrok na jednej strane, ale na druhej strane sa stretávame aj s mimoriadne veľkými výzvami. Napríklad pre AI je stále veľmi ťažké rozpoznať, čo presne ľudia v konkrétnej situácii robia.
ZRKADLO: V čom je AI naozaj dobrá?
Šajch: Za posledných pár rokov sa počítače neuveriteľne rýchlo naučili preberať od ľudí jasne definované úlohy. Predovšetkým čoraz lepšie rozpoznávajú obrázky a jazyk. Umelá inteligencia je v týchto oblastiach najpokročilejšia. Vďaka tejto technológii je možné „Seeing AI“ použiť napríklad na dotýkanie sa fotografií. Používateľ to urobí dotykom na displej svojho smartphonu, aby zistil, či je pod jeho prstom viditeľný text, tvár alebo iný predmet.
ZRKADLO: Vidieť rozpoznávanie textu od AI funguje celkom dobre. Ale rozpoznávanie scén je stále mimoriadne chybné. Aplikácia zamieňa detské šmýkačky s hydrantmi, okrúhle okná sa interpretujú ako stopky a kamenné lavičky sa stávajú náhrobnými kameňmi. Čo je také ťažké na rozpoznávaní predmetov?
Šajch: O umelej inteligencii sa dá uvažovať ako o trojročnom dieťati. Ukážete mu veľa obrázkov a poviete mu: „Toto je auto. Toto je strom. Toto je pes.“ Na začiatku dieťa rozoznáva iba veci, ktoré už videlo. Potom to začne tieto veci popisovať vetami. Rovnako ako dieťa, aj umelá inteligencia sa časom zlepšuje. Vedci tiež pracujú na zabezpečení toho, aby sa tréningové metódy neustále zlepšovali.
ZRKADLO: Sprievodca nevidiacich a slabozrakých po celom svete pomocou aplikácie je celkom zodpovednosťou.
Šajch: Áno. Ale je to výskumný projekt. Mnoho funkcií je stále veľmi experimentálnych. Napriek tomu chceme dať používateľom príležitosť podieľať sa na novo vyvinutých technológiách spoločnosti Microsoft čo najskôr. Profitujeme z toho, že používatelia nám hovoria, čo si myslia o funkciách. Aplikáciu vyvíjame spolu s našimi zákazníkmi.
ZRKADLO: Neprekáža používateľom, že aplikácia neustále robí chyby?
Šajch: Pre niektorých to nemusí byť dokonalé. Napríklad používateľ mi povedal, že chce poslať fotografie z dovolenky svojej rodine domov. Aj keď aplikácia nerozpoznala všetko presne, dokázala aspoň rozlíšiť fotografie a zvoliť správne obrázky. Iný mi povedal, že skenuje oblasť, aby zistil, či je k dispozícii fotografia pre Facebook. Stačil mu hrubý popis aplikácie. Iný nám povedal, že pomocou aplikácie natáča televíziu na futbalových hrách, aby zistil výsledok. Komentátor spomenul prechodný výsledok príliš zriedka. Iní skenujú nápojové plechovky, aby rozlíšili colu od diétnej. Všetky tieto malé veci robia z aplikácie užitočného spoločníka.
ZRKADLO: Spoločnosti ako Google a Facebook robia veľké starosti so svojím výskumom AI, vyhrávajú duely proti go šampiónom a porážajú profesionálnych hráčov pokru. Čo robí Microsoft v súťaži o prvenstvo AI?
Šajch: V AI vidíme veľký potenciál na zlepšenie života ľudí so zrakovým postihnutím pomocou funkcie „Seeing AI“. Naši kolegovia ale vyvíjajú aj nástroje pre nedoslýchavých, napríklad na zobrazovanie titulkov v reálnom čase. Existuje aj množstvo ďalších príkladov, napríklad „Eye Gaze“, pomocou ktorého môžete počítač so systémom Windows ovládať iba pohybmi očí.