Digitálne zdroje j

Creative Commons

j. domovská stránka berenike herrmann

digitálne zdroje

Herrmann, J.B. & Lauer, G. KOLIMO. Korpus literárnej moderny (beta) („Korpus literárnej moderny“). (viac informácií nižšie *)

Messerli, Th., Rothenhäusler, K., Rebora, S. & J.B. Herrmann. LoBo. Korpus LovelyBooks. Zbierka recenzií digitálnych laických kníh (+1 milión recenzií).

Herrmann, J. B., Gabay, S., a S. Rebora. Viacjazyčný švajčiarsky nový korpus 1850-1920, súčasť ELTeC (akcia COST „Diaľkové čítanie pre európske literárne dejiny“, CA16204).

Herrmann, J.B. (2016). EAK. Výpravné otváracie telo. Korpus začiatočných častí literárnej fikcie. Ručne kódované pre metaforu.

Steen, G. J., Dorst, A. G., Herrmann, J. B., Kaal, A. A. a T. Krennmayr (2010). VU Amsterdam Metaphor Corpus. Oxfordské textové archívy.

blogy a wiki

Herrmann, J. B., Bageritz, I., Hannemann, L., Heimann, P., Kleinschmidt, L., Mattner, C., Roth-Kleyer, G., Weller, R. (2016). KEXI. Korpus expresívneho a medziľudského písania. (Korpus expresívneho a medziľudského písania).

Herrmann, J.B. (Vyd.) (2012). Výpočet literatúry („výpočtová literatúra“). Wiki pre analýzu digitálneho textu. („Digitálna analýza textu, wiki“).

* kolimo

Korpus eXistdb-corpus „KOLIMO“ je v súčasnosti predmetom opätovnej opravy. Bola postavená na univerzite v Göttingene 2015 - 2017. Ďalej nasleduje archivovaná časť „Informácie“ z bývalej webovej stránky na adrese https://kolimo.uni-goettingen.de/about.html .

Skratka KOLIMO

znamená „Korpus literárnej moderny“. Presnejšie povedané, KOLIMO je digitálny porovnávací korpus nemeckej naratívnej literárnej moderny. Korpus sme vytvorili pre našu vlastnú analýzu štýlov, ale keďže sme presvedčení, že o tento zdroj by sa malo zdieľať s výskumnou komunitou, kompilácia korpusu bola vykonaná s ohľadom na publikáciu. Upozorňujeme však, že KOLIMO NIE JE „korpusový nástroj“. Webové rozhranie umožňuje výskumníkom spúšťať dotazy, ale nie vykonávať správne analýzy. Pripravujeme možnosť stiahnutia na webovej stránke.

Prečo „beta“?

„Beta“ znamená, že tu ešte nie sme úplne, ale cítime sa dosť sebavedomí, aby sme sa s vami podelili o to, čo máme.

Čo znamená „digitálny komparatívny naratívny korpus nemeckej literárnej moderny“?

KOLIMO sme ako také navrhli z tohto dôvodu:

KOLIMO je teda porovnávací naratívny korpus. Z tohto dôvodu potrebujeme viac ako literatúru, viac ako modernizmus, ale iba naratívne texty.

KOLIMO slúži na analýzu štýlov

KOLIMO je chrbticou prebiehajúceho korpus-štylistického projektu Q-LIMO (Kvantitatívna a kvalitatívna analýza literárnej moderny). Preto sa má stať nakoniec reprezentatívnym korpusom modernej nemeckej naratívnej literatúry. Má sa tiež postupne obohatiť o ďalšie metaúdaje, ako aj viacvrstvové jazykové a literárno-estetické anotácie.

Naším cieľom pri tvorbe KOLIMO je umožniť kvantitatívne a kvalitatívne-hermeneutické analýzy štýlov nemeckých naratívnych textov z obdobia vzrušujúceho na prelome 20. storočia - naprieč premennými ako naratívny žáner, autor a čas. Napríklad nás zaujímajú špecifiká štýlu Franza Kafku - aké druhy slov, fráz a estetické postavy svedčia o jeho písaní? Môžeme vystopovať možné vplyvy z oblastí mimo literárneho diskurzu (napríklad právnický diskurz), od iných literárnych autorov (ako napríklad súčasný Robert Walser a o jedno storočie skôr Heinrich von Kleist) alebo dokonca z iných ako kánonických literárnych žánrov (napríklad ako dobrodružná literatúra)? Upozorňujeme, že KOLIMO obsahuje KAREK, „referenčný korpus Kafka“. V našom výskumnom projekte, kde je modernizmus srdcom spoločnosti KOLIMO, bol Kafka srdcom modernizmu. Nejde o hodnotový úsudok, ale o výskumný záujem. Aby sme povedali niečo o Kafkovom štýle, potrebujeme na porovnanie viac súčasných autorov a tiež „starších“. KOLIMO je vyrobené z existujúcich digitálnych zdrojov, ide však ďalej.

KOLIMO je zložený zdroj

Hlavnú časť našich textov sme čerpali z digitálnych zdrojov, ktoré sú voľne dostupné. Možno si poviete: keď sú vonku, prečo sa trápiť? Nuž: Aj keď existuje niekoľko existujúcich úložísk (napr. Repozitár TextGrid, Nemecký archív textov [DTA], Gutenberg-DE a Gutenberg.org), spojili sme sa s nimi, pretože sú viac ako súčet ich častí.

Pred rokom KOLIMO napriek mnohým iniciatívam chýbal digitálny korpus nemeckej naratívnej literárnej moderny. Určite ten, kto sa usiluje byť reprezentatívny, ktorý je navrhnutý na porovnávaciu analýzu (pozri vyššie) a ktorý nesie konzistentné a ručne vylepšené metadáta. KOLIMO navyše prichádza s prvou sadou jazykových anotácií. KOLIMO je teda jedinečný zdroj. Sme radi, že ho môžeme verejne sprístupniť. Metaúdaje pochádzajú pôvodne z rovnakých zdrojov ako texty - tvrdo sme však pracovali na ich vylepšení, napríklad pridaním a overením GND metadatového „autora“; vyplnenie prázdnych miest pre „rok vydania“ - a bolo ich veľa - hrubým, ale praktickým postupom. KOLIMO je uložené v XML databáze eXist-db (aplikácia eXist-db pre zdroje KOLIMO: Dopyt a úprava metadát). Každý dokument obsahuje štandardizovanú hlavičku TEI, ktorá obsahuje všetky druhy užitočných informácií pre každý jednotlivý text vrátane metadát a vybraných značiek štýlov.

Aké značky štýlov nájdem v KOLIMO?

KOLIMO umožňuje spúšťanie kvantitatívnych profilov používania jazyka. To znamená v podstate „počítanie vecí na jazykovej ploche“. Pracujeme so základným predpokladom, že „štýl“ možno hodnotiť pomocou frekvenčných počtov tých textových znakov, ktoré sú ľahko rozlíšiteľné počítačom: znakov, slabík, slov, viet atď., Kombinovaných s mierami ako dĺžka slova, dĺžka vety, pomery typ-tokenov, najčastejšie zoznamy slov atď. Bohaté štýlometrické výskumy ukazujú, že tento priamy prístup k štýlu je celkom plodný. Môže tu samozrejme začať akákoľvek pokročilejšia analýza, vrátane klastrovej analýzy podobnosti textu založenej na najčastejších počtoch slov (napr. Delta) alebo entropických mier lexikálnej variácie. Čokoľvek pôjde, pokiaľ sa držíme diskrétnych entít, ktoré tvoria texty (znaky, reťazce atď.).

Z tohto dôvodu veríme tiež v hodnotu jazykovej (a iných typov) anotácií: KOLIMO bol označený pre časť reči (POS) a vykonávame analýzy čitateľnosti (Flesh-Index, Wiener Sachtextformel). Hodnoty čitateľnosti sú uložené v hlavičkách TEI, ako aj základné popisné štatistiky o počtoch slov. Chystá sa viac typov anotácií (napr. Pracujeme na metafore a experimentovali sme s anotáciami rečovej/myšlienkovej reprezentácie).

Veríme v výhodu presnosti, napríklad keď anotátori spolupracujú kontrolovane, ich zhoda sa testuje pomocou mier spoľahlivosti medzi kódovačmi. Na získanie nových anotácií viacerými anotátormi sme pre našu databázu (eXist) vybrali samostatný formát XML. Navyše, eXist umožňuje ľahké zverejňovanie údajov na webe a výkonné dotazy (xQuery). Tiež sme experimentovali s anotačnými aplikáciami pre eXist.

Náš výskum digitálneho štýlu je v podstate otvoreným výskumným procesom s testovaním hypotéz, ktorému sekundujú nové a kritické perspektívy vyplývajúce z analýz.

Informácie o licencii a uvedení zdroja

KOLIMO slúži iba na výskumné účely. Zostavili sme KOLIMO ako súbor textov v nemeckom jazyku, pričom sme extrahovali textové a metadáta zo zdrojov uvedených v hlavičke TEI (a nižšie). Opravili sme niektoré z existujúcich metadát a pridali sme nové metadáta pre (niektorých) autorov, (niektoré) dátumy publikácie a žánre, ako aj štatistiku štýlov. Všetky úložiská, z ktorých sme čerpali naše údaje, obsahujú texty, ktorých autorské práva vypršali.

KOLIMO je k dispozícii na základe licencie Creative Commons v súlade s licenciami zdrojových úložísk. Texty z TextGridu sú dostupné pod licenciou na pripisovanie CC-BY (pozri digitálna knižnica textových mriežok). Dokumenty Deutsches Textarchiv sú však sprístupňované na základe licencie CC BY-NC 3.0 (nekomerčná, pozri Creative Commons), čo znamená, že komerčné použitie týchto textov je zakázané (pozri podmienky použitia dta). Dokumenty Gutenberg-DE sú sprístupňované spôsobom, ktorý chápeme ako licenciu CC-BY-NC-SA (nekomerčnú, podobnú zdieľanú, pozri Creative Commons), čo znamená, že komerčné použitie týchto textov je zakázané a ich remixovanie, transformácia, alebo stavať na materiáli, iba ak používate rovnakú licenciu ako originál. Pri použití korpusu nezabudnite uviesť zdroje textov, ako to vyžadujú odlišné vyhlásenia, a pripíšte kredit tímu KOLIMO uvedenému nižšie za vykonanie textovej kompilácie, anotácie a práce na metadátach.

Sekcia „Gutenberg“ bola extrahovaná z DVD-ROM Gutenberg-DE Vydanie 13 (vydané v novembri 2013, pozri gutenberg-DE) a prevedená z HTML na XML a TXT; časť „Deutsches Textarchiv“ bola extrahovaná z „Referenčného korpusu nového vysoko nemeckého jazyka“ (pozri verziu 8. júla 2015; a časť „TextGrid“ je extrahovaná z „Texts Korpus verzia II“ (pozri digitálnu knižnicu textgrid).

Ako citovať KOLIMO beta

Pri ukazovaní na korpus vo vedeckej komunikácii uveďte:

Viac informácií o spoločnosti KOLIMO a jej subkorpuse, Kafkovom/referenčnom korpuse (KAREK), nájdete tu: