URALSKÁ DATABÁZA JAZYKOV

suihkone /). Článok pozostáva z prednášok na Dňoch vedy organizovaných Helsinskou univerzitou 9. a 10. januára 1997 a kongresu IFUSCO 1997 24. apríla 1997. Nemecký preklad vyhotovili pani Irmeli Helin a doktor Helmut Diekman sa obával. Chcem sa vám obom poďakovať. Tiež by som sa chcel poďakovať prof. Dr. Ins Cornelssen za vaše pripomienky k tomuto článku.

jazykov

Mapa 1. Jazykové oblasti uralského jazyka 5

12 CONJ_a = mutta ADV_öni = nyt PRN-NEG_n'ekod_SG_NOM = ei kukaan V-NEG_oz_PRES_3SG-PL = ei V_tydav_NEG_SG = nkyä. # Alakuloisia ajatuksia nytä. Materiál v Erzänischen s morfologickým kódovaním (Jack Rueter 1994) 00080025 V_Uchost'_IND_PT1_SUBJ-3PL_FAB = ČAKAŤ N-P_Mat'an'_GEN-OBJ_IDF = (DATUM NÁZVU), PRN-REL_kona_SG_NOM_AB1F = WHO V_tus__ _GEN-OBJ_IDF = LIKVOR V_veshn'eme_INF-OBJ = HĽADAJTE. # ČAKALI NA MATJU, KTORÁ VYHNEDALA HĽADAŤ MOONSHINE. # 00080026 PRN-ZA Syna SG3 NOM = ONA V_sas'_IND_PT1_S_JJ_S_J_S_J_S_J ATR IDF = JEDEN, KTO JE PRÁZDNY N kedt 'PL NOM-COM IDF = RUKA. # PRIŠLA SPÄŤ PRÁZDNY. # 00080027 N kedt' PL NOM-COM IDF = RUKA 00080027 NUM_Kavto_SG_NOM_IDF = DVA N_kudoso_INE_IDF = DOM V_ul' „_IND_PT1_SUBJ-1SG_FAB = BE, PRN-_mez'ejak_SG_NOM_IDF_PCL-INCL = NIEČO PCL-NEG1_a = NIE V_maksit'_IND_PRS_SUBJ-3PL_FAB = DÁVAŤ PR N-PER ton 'SG2 GEN = YOU N_kasol'ent'_SG_GEN-OBJ_DEF = BEANS POP_kise_INE_IDF = FOR, N-P_Pakhom_SG_NOM = (UVEDENÉ NÁZOV). # BOL SOM DVA DOMY, PAKHOM, ALE NEDALI BEANS. #

Sölkupický korpus s morfologickým a syntaktickým kódovaním a nemeckým prekladom (Jarmo Alatalo 1998) 13 Itja a Pünegusse. (A8) T: A8. iicjä immrljantrsä urrkäsjprkkaqr. Itja žila so svojou tetou. iicjä N SG NOM SBJ immrljantrsä N SG KOM 3S LDM SAD urrkäsjprkkaqr V AOR 3DS FRE KNT VER T: A8. okkrr taaqrn iicjä mykka immrljaqrntr: Itja raz povedala tete: okkrr P ATR taaqrn N SG LOK SAD iicjä N SG NOM SBJ mykka V AOR 3SS FRE VER immrljaqrntr N SG DAT 3S LDM SAD T: A8. "muž kojalang qarrngtrlj aaqqrn poqlontr". „Idem do zátoky šikmého riečneho koryta“. muž P SBJ kojalang V OPT 1SS VER qarrngtrlj P IP TRA ATR aaqqrn N SG GEN ATR poqlontr N SG DAT SAD Udmurtisch (Pirkko Suihkonen 1998b: 30-31, 48-49, testovacie kódovanie) (1) Morfologické kódovanie s prekladmi základných foriem slov Dzhog_ADV_MAN rýchlo, čoskoro ortts '+ i + z_v_-cont_-tra_ + fin_ind_past_sg3 odovzdať (preč) zarn'i_n_-count_sg_nom A_SCAL_SG_NOM zlatý kuaro_a_scal_sg_nom, z_v_-cont_-tra_ + fin_ind_past_sg3 odovzdať (preč) zarn'i_n_-count_sg_nom A_SCAL_SG_NOM zlatý kuaro_a_scal_sg_nom, z_v_a_scal_sg_nom s listami dyr_G_sg_nom + z_m_vhu-cont_sg_nom + dyr_G_SG_NOM + time_s_vhu-time + z_vhu-AN_CO -tra_ + fin_ind_past_pl3 prísť zhob_a_scal_sg_nom škaredý, nepríjemný siz'yl_n_ + count_-anim_sg_nom A_SCAL_SG_NOM ADV_TIME jesenný mníš + jos_n_ + count_-anim_pl_nom deň. V + ez_N_ + COUNT_-ANIM_SG_ACC nebo, nebo

Automatická analýza najskôr uvedie tvar slova v korpuse, potom je uvedená interpretácia príslušného tvaru slova, teda jeho významy. Výklad obsahuje základnú formu slova a morfologický rozbor formy slova. Všetky významy príslušného slovného tvaru spolu tvoria skupinu (Karlsson 1992: 3; Karlsson 1995: 46). V UHLCS sa používa program automatickej analýzy fínčiny. Automatická analýza fínčiny (Koskenniemi 1983) (mačka spala na stabilných schodoch a snívala o lete) * kissa nukkui tallin portailla ja uneksi kesästä. (") (" ("kissa" N NOM SG)) (" ("nukkua" V PAST ACT SG3)) (" ("talli" N GEN SG)) ("

"(" porras "N ADE PL)) (" "(" ja "COORD C)) (" "(" uneksia "V IMPV ACT SG2) (" uneksia "V PRES ACT NEG) (" uneksia "V PAST ACT SG3 ) ("uni" N TRA SG)) (" ("kesä" N ELA SG)) (") Ak je na analýzu jazyka naprogramované automatické kódovanie, je možné tento program použiť na kódovanie ďalšieho materiálu Úlohou programovania, či už automatického alebo manuálneho, je poskytnúť čo najspoľahlivejšie znalosti o príslušnom jazyku. Ďalej by sa malo programovanie vykonávať tak opatrne, aby sa nestratila žiadna z informácií v pôvodnom texte. Kódovaný materiál by sa mal preniesť aj do iného formátu s iným kódom Možno implementovať koncepčné alebo kódovacie systémy spracované pre typologicky odlišné jazyky. 5. Využitie materiálu na výskumné účely Materiál je možné v praxi využiť mnohými spôsobmi. Dôležitý je jazykový výskum vrátane skúmania osobitných oblastí v nich.

16 jazykov a úprava materiálu pre slovníky a gramatiky. Do tejto kategórie patrí slovník Udmurt, ktorý bol vytvorený z materiálu textového korpusu Udmurt. Slovník bude neskôr k dispozícii na serveri elektronických korpusov. V nasledujúcom príklade je na prvom mieste slovo udmurt, za ktorým nasleduje jeho anglický a fínsky preklad. Elektronické korpusy ako materiál pre slovníky (Suihkonen, Zagulyayeva & Tronina 1995: 17) UDMURT/UDMURTTI ENGLISH/ENGLANTI FINNISH/SUOMI ad'ami, N človek, človek; osoba. himines; zlý; henkilö. addz '+ em, 1. V PCPL

, 2. N 1. s. Addz'yny. 2. vidieť. 1. ks. addz'yny. 2. Näkeminen. addz'empoton, N si prajem vidieť. halu sewdä. addz'empot + na + tem, ADJ ks. addz'empoton; nenávistný; hnusný. ks. addz'empoton; vihattava; vastenmielinen, inhottava. addz'empotostem = addz'empotontem. addz'em # pot + y + ny, V INF, ktoré chcete vidieť. haluta sewdä. addz'is'k + is ', V PCPL

s. addz'is'kyny. ks. addz'is'kyny. addz'is'k + on, N 1. viditeľnosť. 2. stretnutie, stretnutie. 3. duch. 1. Näky (väi) syys. 2. kohtaus; tapaamíny. 3. aave. addz'is'k + on + tem, PCPL

s. addz'is'kyny. ks. addz'is'kyny. addz '+ is'k + y + ny, V INF

uralilaisten studený tietopankki ovat osa Helsingin yliopiston> tallteilla olevaa eri studený tietopankkia. 19 Program kw-alg hľadá privlastňovacie prípony -ez a -yz 3. osoby v s. A pl. Udmurt ako postupnosť znakov, ktoré môžu byť tiež príponami pre prísl. Vstupným súborom zhody je morfologicky analyzovaná časť z textového korpusu Udmurt. Ukážkovým materiálom je posúvanie textu bez konverzií na veľké písmená a interpunkčné znamienka. cieľový súbor kw-alg '\ + (ez hez yz) 104: Anaj + ez kosem + ys' gine kyti-oti tölatis'ky + ny 125: a, inzhen'er + ly dyshetskon s'ures + ez. 118: i + z t'ehn'its'eskoj l'it'eraturaj + ez. 48: 'ko + d + -a, myn + a + m tshukaz'e berpum + yz Erkyn nunal + e kyl' + i + z. 69: Viktor Ivanovits '+ len pits'i dyr + yz s'elo + ja + my ortts' + i + z. 91: Esh + jos + yz uram + yn kalg + o, Nasledujúci príklad je výňatok z celého materiálu severného laponského korpusu. Ako parametre programu zhody sa okrem definovania vstupných a cieľových súborov uvádzajú aj čísla ako identifikátory slov, postupnosti znakov medzi dvoma interpunkčnými znamienkami a dĺžka kontextu. Cieľový súbor KWIC 4 4 sápmelas'vuo a ja gávnnahii, sus lea skandinávalas 'va igi buoremus dovdomearka lei, sus lei ritmalac'c'at njo l ásaidahttojuvjuvot eanet nu, ávdin ja geavatkeavohtes eaje s datneju te sámec'earddaid gaskkas nu, viimmát nuortasámiid stii lmmos 'sáhttá govviduvvot nu, váldá ovdan iez'as árbevi ápmelac'c'at leat jurddas'an, vuoinjnjat lattditat sivdnidanuo zuoinjnjat ja vuovdit "sámegovaid", maidda ássi vuoinjnjaide vuo uduvve dán dihtui luonddu gierd n goit bázii s'addat dovddusin sámi dáiddac'eahppin, id álgovu oleamus dáiddahápáz, hp'idahápéz sáraahahah, novinár Matti (1872-1929) lei vuos Jazykovedný inštitút na univerzite v Helsinkách udržiava vybavenie a zaisťuje, aby použité programy boli aktuálne a optimálne použiteľné. Inštitút tiež učí základné vedomosti o operačnom systéme UNIX a používaní elektronických korpusov ako výskumného materiálu. Jazykové inštitúty Helsinskej univerzity tiež ponúkajú jeden počas semestrov