Čo je model a prečo ho potrebujeme DHd-Blog

O interdisciplinárnych nedorozumeniach na DHd 2020

Modely sú matematické vzorce, pomocou ktorých môžem testovať vzťahy v mojich dátach. S týmto jednoduchým konceptom modelu som vyrastal ako kvantitatívny sociálny vedec bez väčších kontroverzií. Do tohto roku DHd 2020, 7. ročník konferencie Združenia digitálnych humanitných vied v nemecky hovoriacich krajinách.

Konferencia začína dvojdňovými praktickými stretnutiami, počas ktorých sa zúčastňujem workshopu „Predpojatosť v súboroch údajov a modeloch strojového učenia“. Nulové hypotézy testujeme pomocou štatistických modelov a alternatívne hypotézy pomocou simulácií vo výpočtových modeloch. Modely sú matematicky formalizované, a preto dokonale zodpovedajú mojej vlastnej koncepcii modelu. Zostávam vo svojej komfortnej zóne.

Cez prestávku sa dostávam do rozhovoru s účastníkmi z iných workshopov. Zrazu vety ako: „Naše údaje modelujeme pomocou TEI.“, Alebo „Náš model je neo4j databáza.“
„Normy a databázy anotácií nie sú modelmi,“ myslím si, „Kde sú výpočty?“. A predovšetkým: „Kde sú výskumné otázky, na základe ktorých vykonávame určité výpočty a ostatné nechávame za sebou?“ Som trochu zmätený.

V utorok večer sedím v Heinz Nixdorf MuseumsForum a počúvam hlavnú prednášku Julie Flandersovej o tvorbe modelov v oblasti Digital Humanities (DH). A zrazu cent padne. Môže sa stať, že sa rozprávame okolo seba? Že definujeme „model“ inak? Pre mňa je model matematický model. Pre Juliu Flandersovú a mnoho ďalších členov DHd sa však zdá, že ide o dátový model. To znamená štandardy pre predbežné spracovanie údajov (napr. Anotácie) a reprezentáciu (databáza).

Aj keď sa moje nedorozumenie podarilo vyriešiť, veľa prednášok v nasledujúcich dňoch ma prinúti premýšľať. Mám dojem, že tvorbe modelov sa venuje veľa času a prostriedkov, ale že zodpovedanie výskumných otázok týkajúcich sa obsahu sa posúva do úzadia. Ako vedci sa zaujímame práve o tie kontextové kontexty. Ako medzi sebou súvisia literárne postavy? Čo má jedna historická udalosť spoločné s druhou? Prečo sa divadelné predstavenia časom menia? Prečo skladateľ používa v tomto diele jeden motív a nie druhý?
Naše dátové a matematické modely sú iba nástrojmi na zodpovedanie výskumných otázok týkajúcich sa obsahu. Pri vývoji modelov by sa preto malo viac prihliadať na naše výskumné otázky.

Rád by som zdôraznil tri body, ktoré ma zaujali ohľadom manipulácie s modelmi na DHd 2020.
(1) Prečo je pojem model tak zriedka diferencovaný? Som jediný, kto je zmätený rôznymi definíciami modelov, alebo je to pre ostatných?
(2) Prečo zostavujeme obrovské dátové modely, ktorých dokončenie trvá dlho? Musíme si preto počkať dlho, kým budeme môcť konečne odpovedať na naše výskumné otázky.
(3) Prečo zostavujeme obrovské dátové modely s tvrdením, že sú univerzálne použiteľné? Nevieme, či je skutočne potrebné vynaložiť veľké úsilie na zodpovedanie našich výskumných otázok.

Čo by sa teda malo robiť? Tu je môj malý subjektívny, dočasný zoznam želaní.
(1) Mali by sme byť konkrétni, keď používame výraz model a presne uviesť, o aký typ modelu ide. To uľahčuje komunikáciu v interdisciplinárnej oblasti, akou sú DH.
(2) Skôr ako začneme s obrovskými univerzálnymi dátovými modelmi, mali by sme vytvoriť malé dátové modely špecifické pre konkrétnu aplikáciu. Prvé výskumné otázky je možné rýchlo vyriešiť pomocou zoštíhlenej verzie dátového modelu.
(3) Mali by sme vyvíjať údaje a matematické modely inkrementálne a iteratívne, namiesto toho, aby sme ich zostavovali naraz (princíp vodopádu). Po každej iterácii je možné model použiť na zodpovedanie konkrétnej výskumnej otázky. Podľa toho, ako dobre to funguje, je model neustále prispôsobovaný. Takto zabránime tomu, aby bol obrovský, komplikovane vytvorený model zbytočný na zodpovedanie výskumnej otázky.

Záver:
Po prvé, DH sú interdisciplinárnou oblasťou, v ktorej kolujú rôzne modelové pojmy. Mali by sme preto rozlišovať medzi dátovými a matematickými modelmi.
Po druhé, sme vedci, pretože sa zaujímame o kontextové vzťahy. Keby sme sa zamerali na vytváranie dátových modelov, stali by sme sa vývojármi softvéru alebo správcami databáz. Modeling nie je samoúčelný, mal by byť prostriedkom na zodpovedanie výskumných otázok.

Držitelia cestovného štipendia DHd 2020 - prehľad a príspevky Blog DHd 12. marca 2020

[…] Ramona Roller (ETH Zürich) - @ramona_rollerČo je model a prečo ho potrebujeme? In: DHd blog, 12. marca 2020, https://dhd-blog.org/?p=13186. [...]

Frederike Neuber 12. marca 2020

Ďakujem za tento krásny článok na tému „modelky“, ku ktorému hneď skočím.

Podľa môjho názoru sa dátové modely neobmedzujú iba na prostriedok predspracovania údajov. Vytvorenie modelu môže pomôcť (interdisciplinárnym) pracovným skupinám pri vytváraní spoločného chápania zložitých domén. Samotné modelovanie chápem ako heuristický proces, v ktorom sa rozširujú, spochybňujú a zostrujú existujúce poznatky o objekte (napr. Text alebo obrázok). V tomto smere vidím * modelovanie ako súčasť výskumu *, v ktorom sa obohacujú vedomosti o objekte a rozvíjajú sa teórie. Modely sú navyše základom údajov, ktoré je možné v konečnom dôsledku vyhodnotiť, pričom výsledky výsledku hodnotenia (okrem iného) z pohľadu predchádzajúceho modelovania.

Konkrétne môj pohľad na vaše body/želania z hľadiska modelovania:

(1) Áno, mali by sme byť konkrétni, aký typ modelu máme na mysli. K spoločnému porozumeniu môže dôjsť napríklad prostredníctvom koncepčného modelu „modelového výrazu“. Áno, to je teraz veľmi meta . ale prečo nie?!

(2) Dátové modely by nemali slúžiť na svoj účel, ale mali by sledovať konkrétny cieľ a konkrétne ho mapovať. Vo svete digitálnych zdrojov musia byť dátové modely tiež prepojiteľné a opakovane použiteľné, a preto má zmysel použitie štandardov a požiadavka na zovšeobecnenie. Ak každý pri modelovaní myslí len na seba, naša práca je pre mačku z dlhodobého hľadiska - povedané ležérne - z dlhodobého hľadiska. Príklad: Vďaka vývoju obrovského modelu TEI možno teraz kódované texty z rôznych projektov agregovať alebo vymieňať s relatívne malým úsilím. Mnoho textových korpusov, ktoré dnes vykonávajú hodnotenia, po ktorých túžite, je zložených z menších korpusov (to isté podľa môjho názoru platí aj pre databázy obrázkov atď.) Len si predstavte, že by tu každý používal svoj vlastný formát/slovník - ako to chcete urobiť niekedy sa priblížiť k veľkým dátam a položiť skutočne vzrušujúce otázky? Podľa môjho názoru je TEI tiež dobrým príkladom toho, že vedomosti o textoch boli špecifikované a výslovne vyjadrené (vždy hovorím, že skutočnou hodnotou TEI sú myšlienky o texte a definíciách, okrem kódovacej slovnej zásoby).

(3) Iterácia má zmysel a tiež si myslím, že veľké dátové modely by sa mali vytvárať skôr zdola nahor ako zhora nadol.

Osobne som zistil, že aspekt „modelovania“ je tento rok na konferencii DHd nedostatočne zastúpený. Môže to byť preto, že v súčasnosti máme kritické množstvo údajov a nástrojov na výskum a ich vytváranie sa posúva späť. Napriek tomu vnímam aspekt modelovania ako dôležitú súčasť DH a ako kritický proces vyžadujúci vedu (. ktorý môžu mať aj softvéroví inžinieri alebo správcovia databáz). Najmä v projektoch, na ktorých humanitné vedy a informatici spolupracujú, je osoba s DH potrebné s vedomosťami o modelovaní často potrebná, aby čo najlepšie sprostredkovala oblasť a výskumnú otázku a formalizovala ju v správnom formáte alebo slovnej zásobe. Takmer všetky spoločnosti v oblasti digitálnych humanitných vied, vrátane hodnotenia veľkého množstva textu, aby odpovedal na výskumné otázky, stoja alebo padajú na kvalite databázy, ktorá zase vyplýva z jej modelovania. Preto mi na mnohých prednáškach na hodnotenie textu často chýbal kritický pohľad na databázu.

Tessa Gengnagel 12. marca 2020

Ďakujeme za túto správu o skúsenostiach! Z časových dôvodov k tomu mám iba niekoľko stručných komentárov (v skutočnosti by ste tu mali rozbaliť niekoľko viet a objasniť niekoľko nedorozumení):

1. Ako už názov napovedá, digitálne humanitné vedy sa zameriavajú na humanitné a kultúrne štúdie. V spoločenských vedách už existuje veľká priepasť. Hovorím, že bez akéhokoľvek úsudku, je to presne tak. Nedorozumenie sa preto nepochováva len v samotných digitálnych humanitných vedách, ale aj v rôznych špecializovaných kultúrach, t. J. Vo veľmi zásadných metodologických a epistemologických, ak nie celkovo vedeckých teoretických diskusiách. Toto nemôžete posunúť na digitálne humanitné vedy, ani ich v nich vyriešiť.

2. Diskusia na tému „model“ a najmä „modelovanie“ je v DH starým koníčkom, aj keď od Willarda McCartyho 2005 nepriniesol výrazný príspevok v teoretickej rovine. Tento termín sa často nepoužíva nuancovaným spôsobom, to je pravda a to je problém. Ale Nelson Goodman už vo svojej práci „Jazyky umenia“ (1968/1976) poznamenal: „V populárnom a vedeckom diskurze sa málo výrazov používa promiskuitnejšie ako predlohou“. Model je niečo, čo treba obdivovať alebo napodobniť, vzor, konkrétny prípad, typ, prototyp, exemplár, maketa, matematický popis - takmer všetko, od nahej blondínky po kvadratickú rovnicu - a môže znieť k tomu, čo modeluje takmer akýkoľvek vzťah symbolizácie. “- Toto tiež nie je fenomén alebo problém špecifický pre DH. Táto definícia terminológie je v mnohých predmetoch skôr pandemická a v DH je viditeľná iba čiastočne, pretože alebo ak medzi účastníkmi rozhovoru neexistuje spoločný technický základ, t. J. Myšlienka zo základných predmetov, a neexistuje spoločné ukotvenie v jazyku DH a - Je uvedená metodika.

3. Tvrdenie, že na jednej strane existujú matematické modely a na druhej strane dátové modely, nedosahuje dostatočnú úroveň známky a neopisuje ani vedecké a všeobecne platné porozumenie na jednej strane, ani porozumenie DH, ktoré je potrebné od neho odlišovať. Bohužiaľ to teraz nemôžem podrobnejšie rozoberať, ale myslím si, že je cenné, že tento blogový príspevok opäť upozorňuje na problém vo vedeckej komunikácii a za to môže jednoznačne DH.