Nadhodnotená AI, algoritmy sú v skutočnosti lepšími lekárskymi profesionálmi

V minulosti sa opakovane objavoval dojem, že umelá inteligencia dokáže odhaliť choroby rovnako dobre ako skúsený lekár - ak nie lepšie. Nadpisy ako „Google tvrdí, že jej umelá inteligencia dokáže odhaliť rakovinu pľúc rok pred lekárom“, nepochybne vzbudzujú veľké očakávania. To zvyčajne zahŕňa vyhodnotenie súborov digitálneho obrazu pomocou algoritmov hlbokého učenia alebo skúseného lekára, napríklad pri diagnostike rakoviny pľúc alebo kože alebo pri diagnostike rôznych štádií slepoty. Myura Nagendran z Imperial College v Londýne a jeho kolegovia sa pýtajú v „British Medical Journal“, či je kvalita doteraz publikovaných štúdií skutočne dostatočná na to, aby preukázali, že testované algoritmy sú na rovnakej úrovni ako lekári.

Autori článku, ktorý zahŕňa významné osobnosti, ako sú Eric Topol z Scripps Research Translational Institute a John Ioannidis zo Stanfordskej univerzity, kritizujú, že väčšina štúdií, ktoré hodnotili, je zlej vedeckej kvality a nepriehľadná. Zásadne nespochybňujú potenciál umelej inteligencie a nechcú spomaliť jej vývoj, ale požadujú, aby sa štúdie, ktoré majú dokázať diagnostickú presnosť algoritmov, uskutočňovali podľa vysokých vedeckých štandardov a jednotných pravidiel. Autori tvrdia, že štúdie s malými dôkazmi ohrozujú bezpečnosť pacientov.

Architektúra sietí hlbokého učenia je založená na neurónových sieťach ľudského mozgu. Na rozpoznávanie obrazu sa používajú hlavne neurónové konvolučné siete, takzvané konvolučné neurónové siete. Tieto automaticky extrahujú vzory zo súboru obrazových údajov, napríklad na základe diagnózy pľúc alebo primárnej rakoviny. Pri tom sa naučia vzorce, ktoré si pravdepodobne spájajú s rakovinou pľúc alebo kože bez toho, aby používateľ musel niečo robiť. Siete potom nezávisle klasifikujú každý nový obrázok prepojením naučených vzorcov s trénovaným priradením rakoviny pľúc alebo kože. Doteraz však nebolo väčšinou možné pochopiť, ako bolo dané rozhodnutie prijaté, pretože siete vykonávajú svoju klasifikáciu bez vonkajšieho vplyvu. Výsledkom je, že nikto nevie, ktoré vzorce sa použili pri rozhodovaní v sieti a či skúsený lekár bude pri jeho rozhodovaní postupovať úplne inak alebo použije podobné vzorce ako algoritmus hlbokého učenia. Sieť neurálnej konvolúcie je preto čiernou skrinkou. Môžete len posúdiť rozhodnutie, nie ako prišlo.

Výsledky vytriezvenia

Nagendran a jeho kolegovia teraz skúmali, aká vysoká je kvalita štúdií publikovaných za posledných desať rokov a aké sú ich závery založené na dôkazoch. Analýza bola vytriezvená. Vedci zistili, že v rokoch 2010 až 2019 boli zverejnené iba dve vysoko kvalitné randomizované klinické štúdie, obe v uplynulom roku. Oba boli vyrobené v Číne. V súčasnosti prebieha osem randomizovaných štúdií, vrátane jedného v Spojených štátoch. Americký úrad pre kontrolu potravín a liečiv už napriek tomu schválil 16 algoritmov hlbokého učenia na vyhodnotenie údajov z lekárskeho obrazu.

Randomizované klinické štúdie sú najlepším spôsobom na porovnanie dvoch prístupov. V dvoch doteraz publikovaných randomizovaných štúdiách sa skúsení lekári v jednej študijnej skupine rozhodovali sami, v druhej študijnej skupine ich algoritmus podporoval. Z 81 nerandomizovaných štúdií, ktoré splnili kritériá na zaradenie, malo iba deväť štúdií perspektívny dizajn. V takýchto štúdiách sa nevytvárajú a neporovnávajú žiadne skupiny, skôr sa zhromažďujú a vyhodnocujú údaje o konkrétnej problematike. Avšak iba šesť z týchto prospektívnych štúdií sa uskutočnilo za každodenných klinických podmienok, a tak mali potenciál povedať čokoľvek o diagnostickej kvalite testovaných algoritmov za bežných podmienok. 58 z 81 štúdií bolo vysoko neobjektívnych. Mali horší dizajn štúdie alebo sa odchyľovali od uznávaných štandardov.

Prehnané tvrdenia

Celkovo 61 štúdií napriek tomu dospelo k záveru, že výkonnosť algoritmov bola porovnateľná alebo ešte lepšia ako výkonnosť skúsených lekárov. Iba v 31 štúdiách boli riaditelia štúdie takí sebakritickí, že pri sumarizácii alebo diskusii o svojich výsledkoch požadovali ďalšie štúdie na potvrdenie svojich zistení. Nagendran a jeho kolegovia sa tiež sťažujú, že každej štúdie sa zúčastnili v priemere iba štyria skúsení lekári. Vzhľadom na to, že aj skúsení lekári sú na rôznych úrovniach, musí byť skupina väčšia, aby bolo možné štatisticky potvrdiť výsledok. Len vo veľmi malom počte štúdií bol možný prístup k nespracovaným údajom a kódu. To znamená, že algoritmus nemôže byť skontrolovaný inými odborníkmi.

Autori sú však tiež sebakritickí voči vlastnej štúdii a poukazujú na jej slabé stránky. Napríklad nemôžete vylúčiť, že ste prehliadli príslušné štúdie. Zamerali ste sa na rozpoznávanie obrázkov pomocou hlbokého učenia. Vaše obvinenie, že mnohé štúdie nemajú požadovanú kvalitu, sa môže líšiť v iných oblastiach, v ktorých sa umelá inteligencia využíva v medicíne. Na základe svojej analýzy Nagendran a jeho kolegovia dospeli k záveru, že mnohé z predchádzajúcich tvrdení sú prehnané. Dokonca to vidia ako potenciálne zdravotné riziko pre pacientov a varujú pred používaním prehnaných formulácií, aby boli štúdie náchylné na nesprávnu interpretáciu a vyvolali neprimeraný humbuk. Toto pole potrebuje kvalitnú a transparentnú dôkazovú základňu - čokoľvek iné pacientovi neslúži.