Budúca digitalizácia tabúľ od veľkých dát po inteligentné dáta

Mníchov 1. 4. 2020

Technológia grafov: od veľkých dát po inteligentné dáta?

Ak majú byť údaje „inteligentné“, musia byť zodpovedajúcim spôsobom pripravené. Predchádzajúci problém: Údaje sú veľmi heterogénne, často neštruktúrované a spávajú na rôznych miestach v samostatných databázach (dátové silá). Informácie navyše zvyčajne nie je možné prehľadať alebo je ich vyhľadanie veľmi náročné.

tabúľ

Aby bolo možné získať späť skryté poklady a odvodiť z nich hypotézy, musia byť údaje prístupné, interoperabilné a prehľadateľné - až potom je možné „veľké údaje“ transformovať na „inteligentné údaje“ pomocou moderných IT riešení. Presne na tom pracuje s pomocou grafovej technológie projekt „Graphs to Fight Diabetes“ Nemeckého centra pre výskum cukrovky (DZD) v Mníchove. Tím dúfa, že to bude zahŕňať spojenie a systematickú analýzu údajov Hypotézy o osobnej prevencii a terapii. Aj pri horúcej téme, ako sú infekcie Covid-19, môže technológia grafov nadviazať spojenia, ktoré by bez tejto metódy mohli zostať skryté. V rozhovore Dr. Alexander Jarasch, ako to funguje.

DR. Alexander Jarasch, Mníchov

DR. Jarasch, na celom svete existuje veľmi rozsiahla databáza o cukrovke. Aký je s tým problém?
K dispozícii sú údaje zo širokej škály základných výskumných disciplín, pokusov na zvieratách, epidemiologických štúdií na univerzitách a klinických štúdií na univerzitných nemocniciach. Takto generované údaje sa však zvyčajne zaznamenávajú v takzvaných dátových silách, teda v excelových tabuľkách, textových súboroch alebo ideálne v databázach. Tieto údaje potom nie sú prepojené alebo len veľmi rudimentárne. Z tohto dôvodu je ťažké nadviazať spojenie medzi rôznymi výskumnými projektmi, ktoré sa zaoberajú cukrovkou rôznymi spôsobmi.

A tu prichádza na rad technológia grafov?
Súhlasím. V databázach grafov sú údaje natívne prepojené ako takzvané uzly a hrany. Napríklad: Ukladám BMI, výšku a podobne do osobného uzla pacienta. Ak sa potom na tomto pacientovi uskutoční experiment, pri ktorom sa napríklad odoberie krv a zmeria sa hodnota HbA1c, vytvorím nový uzol „odber krvi“. Na toto uložím množstvo vzorky krvi, hodnotu HbA1c, uložené v chladničke XY atď. Uzly „Osoba“ a „Odber krvi“ sú potom spojené okrajom. Potom môžem priamo vidieť napríklad to, akú hodnotu HbA1c má človek, aké má BMI a kde je uložená vzorka. Teraz môžem hľadať podobnosti medzi ľuďmi a vytvárať tak hypotézy o spojeniach. A čím viac údajov vložím do databázy grafov, tým pravdepodobnejšie nájdem korelácie alebo vzory.

Ako využívate túto technológiu v DZD?
Napríklad pre našu polohu, disciplínu a medzidruhové dotazovanie experimentov a vzoriek. Náš člen predstavenstva DZD prof. Martin Hrabě de Angelis mal víziu „dátového katalógu“ v DZD. Vďaka tomu môžeme pomerne jednoducho určiť: Kde sú uložené údaje? Môžem s Vami vôbec spolupracovať z dôvodu ochrany údajov? A koľko mám vzoriek? Povedzme, že chcem urobiť štatistický výkaz o parametri v experimente na myši s 20 myšami. Počet však nie je dostatočný na to, aby sa dali urobiť štatisticky významné vyhlásenia. V databáze grafov ste videli, že 5 800 myší s rovnakým parametrom bolo nameraných na inom mieste DZD - a potom môžem tieto údaje zlúčiť.

Nestáva sa systém čoraz mätúcejším, čím viac údajov sa spája?
Č. Trik je v tom, že máme interaktívny povrch, ktorý by lekári a vedci bez počítačového vzdelania mohli použiť na orientáciu. Môžete posúvať uzly a hrany tam a späť, rozložením ich zobrazíte podrobnosti a prepojené uzly, ich zasunutím zobrazíte veľký obraz. Týmto spôsobom je možné interaktívne vykonávať úplne nové analýzy údajov. Ak sa počet uzlov a hrán výrazne zvýši, môžete tiež posielať dotazy do databázy pomocou veľmi jednoduchého dotazovacieho jazyka.

Môžete tiež použiť technológiu grafov na prepojenie výskumných údajov o rôznych klinických obrázkoch?
Toto je ďalší krok. Pretože túto technológiu je možné použiť univerzálne a je možné ju ľahko rozšíriť alebo upraviť. A výpočtový výkon počítačov je teraz taký veľký, že je možné spracovať obrovské množstvo dát. V súčasnosti máme pilotný projekt s ďalšími nemeckými centrami zdravotníckeho výskumu s 1,8 miliardami uzlov a 3,9 miliárd okrajov!

O čom je tento pilotný projekt?
Ide o možné následky cukrovky. Napríklad jedným je pomerne agresívny karcinóm pečene. Teraz vyvstáva otázka: Existujú údaje od pacientov alebo na zvieracích modeloch, ktoré by naznačovali, že cukrovka má rakovinu alebo naopak? Napríklad genetická chyba, faktor prostredia, určitý životný štýl? Možnosti použitia grafovej technológie sú nekonečné. Preto bude v budúcnosti hrať čoraz dôležitejšiu úlohu.

Ďakujem za rozhovor, Dr. Jarasch!

Viac informácií

Viac o grafickej technológii sa dočítate v Správe D.U.T 2020 na strane 160 v článku „Sieťové údaje pre budúci výskum cukrovky“ Dr. Alexander Jarasch, Dr. Astrid Glaser a prof. Dr. Martin Hrabě de Angelis.

Viac informácií o projekte „Grafy na boj proti cukrovke“, ktorý bol ocenený 2. miestom na cene bytes4diabetes, nájdete TU.