Distribučná sémantika
Distribučná sémantika Máte v hlave slovné významy? Peter Kolb 9. decembra 2010

Prehľad Funkcia Sémantika (MS) Distribučná sémantika (DS) Metóda Porovnanie aplikácií MS DS
jazda na koni kŕmenie koňa mŕtvica kôň cvála kôň spí kôň zje rýchly kôň starý kôň divoký kôň * kôň formát * kôň žehliť * kôň sfúknuť * kôň argumentuje * kôň teľa * kôň sa kŕmi * inverzia Kôň * zalesnený kôň * hranatý kôň
Obmedzenia výberu modelu so sémantickými vlastnosťami: Spánok koňa argumentuje [+ živý] [- človek] SUBJ: [+ živý] SUBJ: [+ človek] kôň spí * kôň argumentuje
Disambiguation of reading: kôň 1 [+ živý] [- človek] kôň 2 [-živý] spánok SUBJ: [+ živý] argument SUBJ: [+ človek] kôň spí kôň 1
Žrebec koňa Pferd [+ dospelý] [+ samec] žrebec kobyla [+ dospelý] [+ fenka] kobyla žriebä [-adult] žriebä [-adult] [+ fenka] klisnička [-adult] [+ samec] žriebä čierny [+ čierny ] čierny kôň sivý [+ biely] biely kôň [+ sivý] sivý kôň líška [+ červeno-hnedý] šťavel
Metódy vysvetľovania slov: (1) Zobraziť: Toto je kôň (2) Preklad: Kôň znamená „kôň“ (3) Definícia: Biely kôň je biely kôň
Metódy vysvetľovania slov: (1) Zobraziť: Toto je kôň (2) Preložiť: Kôň znamená „kôň“ (3) Definícia: Biely kôň je biely kôň Je možné definovať celú slovnú zásobu? Slová vysvetlené slovami: nebezpečenstvo kruhových definícií
guľatý = tvar kruhu, ktorý ukazuje guľu Kruh = rovnomerne guľatá samostatná čiara guľa = úplne guľaté telo (Duden Deutsches Universal približnebuch 1996)
Je samozrejmé, že sémantické znaky sú abstraktné, teoretické jednotky, ktoré predstavujú zložité psychické štruktúry. [] Výrazy [] nesmú viesť k predpokladu, že samotné charakteristiky sú opäť lexikálnymi jednotkami určitého prirodzeného jazyka. Všetky sémantické štruktúry [možno] nakoniec vysledovať [] k znakom, ktoré predstavujú základné dispozície štruktúry myslenia a vnímania ľudského organizmu. (Manfred Bierwisch 1969)
Kôň [+ K027] [-S143] [+ B415] [+ R024].
Dôsledky: významy pozostávajú zo sémantických znakov, sú mimojazykové a vrodené. Význam jednotlivých slov je možné uviesť izolovane.
Významy sú mentálne reprezentácie: pojmy, pojmy, prototypy obrazov v hlave
sémantický objektivizmus: slová predstavujú niečo, čo je už dané vo vnímaní alebo v myslení, t. j. existuje tam nezávisle od jazyka. Význam predchádza jazykovým znakom. Slová sú ako tabuľky s menom, ktoré sú pripojené k významom (Wittgenstein)
Problémy: (1) Praktická implementácia: Ako nájdem nástroj Zeitgeist späť na vnímateľné alebo logické stavebné bloky? Ktoré to vlastne sú? (2) veľa kategórií má fuzzy hranice stereotypy nemusí existovať charakteristika, ktorá sa vzťahuje na všetkých zástupcov kategórie, niektorí zástupcovia kategórie sú reprezentatívnejší ako iné prírodné kategórie, ktoré nemajú ostré hranice (napr. Strom vs. ker)
Prehľad Funkcia Sémantika (MS) Distribučná sémantika (DS) Metóda Porovnanie aplikácií MS DS
jazda na koni kŕmenie koňa mŕtvica kôň cvála kôň spí kôň zje rýchly kôň starý kôň divoký kôň * kôň formát * kôň žehliť * kôň sfúknuť * kôň argumentuje * kôň teľa * kôň sa živí * inverzne Kôň * zalesnený kôň * hranatý kôň
jazda na koni kŕmenie koňa mŕtvica kôň cvála kôň spí kôň zje rýchly kôň starý kôň divoký kôň * kôň formát * kôň žehliť * kôň sfúknuť * kôň argumentuje * kôň teľa * kôň sa živí * inverzne Ross * zalesnený kôň * hranatý kôň
* jazda na kurati kŕmenie kurča mŕtvica kurča * kurča cvála kurča spí kuracie mäso jesť rýchle kurča staré kuracie divoké kurča * formátovať kuracie mäso * žehliť kuracie mäso * fúkať kuracie mäso * kuracie mäso argumentuje * kuracie teľatá * kuracie krmivo * obrátené kurča * lesné kurča * hranaté kurča
* jazda na pohári * kŕmenie pohára pohladenie pohára * sklo cvála * sklo spí * sklo jesť? rýchle sklo staré sklo * divoké sklo * formátovať sklo * žehliť sklo * vyfúknuť sklo * sklo argumentuje * sklo teľatá * sklo sa napája * inverzné sklo * zalesnené sklo hranaté sklo
Distribučná hypotéza (Harris 1968): Slová, ktoré sa používajú v podobných kontextoch, majú podobný význam. Použitie Význam Použitie = distribúcia v korpuse = súčet všetkých kontextov
Čo znamená kontext? bežné slová Čo znamená spoločné? Vzdialenosť syntaktický vzťah
Určte zhodu distribúcie:
Okno ± 3 slová (venujte pozornosť iba slovám obsahu):
Okno ± 3 slová (venujte pozornosť iba slovám obsahu):
Okno ± 3 slová (venujte pozornosť iba slovám obsahu):
Okno ± 3 slová (venujte pozornosť iba slovám obsahu):
Okno ± 3 slová (venujte pozornosť iba slovám obsahu):
Zoznam bežných slov s frekvenciou: Kolokačný profil (= distribúcia slova) prevádza absolútne frekvencie so štatistickou mierou významnosti na hodnoty významnosti Kôň jazdil 18,7 jazdil 16,9 klusom 15,2 jazdec 14,5 ťava 13,1 somár 13,0 jazda 12, 3 jazdené 12,1 mount 10,8 slon 10,8 mulica 10,8 opraty 10.6
Zoznam bežných slov s frekvenciou: Kolokačný profil (= distribúcia slova) prevádzajúci absolútne frekvencie so štatistickou mierou významnosti na hodnoty významnosti Kôň jazdil 18,7 jazdil 16,9 klusal 15,2 jazdec 14,5 ťava 13,1 somár 13,0 jazda 12, 3 jazdené 12,1 mount 10,8 slon 10,8 mulica 10,8 opraty 10.6. Jazdec Ross 14,4 stúpanie 11,7 stabilné 9,9 opraty 9,7 stôp 8,2 biely 7,9 jazdec 7,6 strážený 6,8 zlatý 6,8 rýchly 6,7 skákanie 6,3 ťava 6,2.
Zoznam bežných slov s frekvenciou: Kolokačný profil (= distribúcia slova) prevádzajúci absolútne frekvencie so štatistickou mierou významnosti na hodnoty významnosti Kôň jazdil 18,7 jazdil 16,9 klusal 15,2 jazdec 14,5 ťava 13,1 somár 13,0 jazda 12, 3 jazdené 12,1 mount 10,8 slon 10,8 mulica 10,8 opraty 10.6. Jazdec Ross 14,4 stúpanie 11,7 stabilné 9,9 opraty 9,7 stôp 8,2 biely 7,9 jazdec 7,6 strážený 6,8 zlatý 6,8 rýchly 6,7 skákanie 6,3 ťava 6,2.
Porovnanie všetkých slov (stĺpcov tabuľky) navzájom: vysoké hodnoty pre slová, ktoré boli použité v podobných kontextoch pre každé slovo zoznam najpodobnejších slov kôň: kôň kôň kôň somár zviera ovca pes ťavie sklo: poháre na fľaše pohár dúšok pivné sklo.
plachý: plachý strach váhavý váhavý ticho nervózny smutný vystrašený skromný trápny vzrušený neistý zdvorilý dobrosrdečný strach. Kapitalizmus: socializmus komunizmus demokracia imperializmus fašizmus kapitalistické trhové hospodárstvo liberalizmus stalinizmus. kričať: plakať, kvíliť, smiať sa, vzlykať, volať, spievať, revať, štekať, dážď, vrieskať, nariekať, krvácať, kričať, kašlať, nadávať, hovoriť, hovoriť.
Prehľad Funkcia Sémantika (MS) Distribučná sémantika (DS) Metóda Porovnanie aplikácií MS DS
Obmedzenia výberu modelu s distribučnou podobnosťou (Erk et al. 2010)
Predikcia mozgovej aktivity pri spracovaní podstatných mien (Mitchell et al. 2008) Mozgová aktivita meraná pomocou magnetickej rezonancie (MRI) 25 slovies: pozri počuť počúvať chuť vôňa jesť dotyk beh tlačiť hovor strach strach opotrebenie.
60 podstatných mien: zelerové kukuričné lietadlo v korpuse spoločný výskyt 60 podstatných mien s 25 slovesami určuje hodnoty významnosti napr. zeler: jesť 0,84 ochutnať 0,35 naplniť 0,32 na základe týchto hodnôt a naučené vzory aktivity 25 slovies predpovedajú vzory aktivity podstatných mien úspešnosť 77%
Rozdelenie slovných priestorov v rôznych jazykoch Preklad umiestnení (riadkov tabuľky), pokiaľ sú známe: Kôň: jazda jazda jazda klus klus jazdec jazdec ťava ťava mount pripojiť nový stĺpec v tabuľke cieľového jazyka porovnanie so všetkými stĺpcami cieľového jazyka najpodobnejší stĺpec = preklad
Experimentujte nemecké anglické slovné medzery z dvojjazyčného slovníka nemeckej a anglickej Wikipédie so 16 000 záznamami 800 testovacích slov so známym prekladom Podstatné mená: 60% správny (očakávaný preklad nájdený ako najpodobnejšie slovo) Slovesá: 45% správny Prídavné mená: 66% očakávaný preklad medzi 20 najpodobnejšími podstatnými menami: 87% Slovesá: 78% Prídavné mená: 93% prípadov.
priemer: význam 0,046 znamenať 0,034 priemer 0,033 označiť 0,032 sloveso 0,031 prípona 0,030 odvodiť 0,030. Tekvica: avokádo 0,084 kapusta 0,081 melón 0,080 kukurica 0,078 tekvica 0,077 jahoda 0,076 nevyhnutná: nevyhnutná 0,150 dostatočná 0,103 primeraná 0,097 vhodná 0,080 požadovaná 0,079. ročne: ročne 0,151 ročne 0,135 ročne 0,099 mesačne 0,073 týždenne 0,060 spravodlivo 0,058.
Modely vektorového priestoru sú zatiaľ najúspešnejším prístupom k sémantike. (Turney & Pantel 2010)
Prehľad Funkcia Sémantika (MS) Distribučná sémantika (DS) Metóda Porovnanie aplikácií MS DS
Augustínsky obraz jazyka (podľa Wittgensteina PU 1) Slová predmetov názvu jazyka Každé slovo má význam, ktorý mu je priradený. Je to predmet, pre ktorý toto slovo stojí. Naučiť sa jazyk, akoby dieťa už malo jazyk, akoby sa už mohlo pýtať: Aký predmet majú dospelí pod slovom „strom“? ako dospelý, ktorý už hovorí jazykom a príde do cudzej krajiny
dospelý sa učí jazyk: „modrý“ znamená modrý „strom“ znamená radikálnu interpretáciu stromu (D. Davidson). akoby dieťa prišlo do cudzej krajiny a nerozumelo jej jazyku; tj .: akoby už mal jazyk, len nie tento. (PU 32), ale dieťa pred jazykom nemá žiadny jazyk: „modrá“ znamená X X = nie slovo, ale niečo mimo lingvistické, predmet, pre ktorý toto slovo stojí
Ruben van de Vijver: Fonológia. Samotné zvuky nemajú žiadny význam. V kombinácii tvoria slová, ktoré majú význam. Zvuk reči sa preto musí líšiť od ostatných zvukov. Iba potom je možné zostaviť slovník. Štrukturalisti: Rozdiel a opozícia V štruktúre má všetko zmysel iba z celku. Slová jazyka nestoja jednotlivo ako nosiče významu, ale každé má svoj význam len preto, lebo význam majú popri ňom aj iné. (Trier 1931, s. 643)
Samotné označenia pozostávajú iba z rozdielov, ktoré nie sú pozitívne definované svojím obsahom, ale negatívne vzťahmi k ostatným členom systému. Ich najvýraznejšou známkou je, že sú niečím, čím ostatní nie sú. (Saussure 1916, s. 139), čo znamená úplné relatívne jednotlivé slová, nemôžu mať význam nezávisle od ostatných významov uvedených v rámci jazykového významu = miesto v jazykovom systéme
štvrtá metóda definície: štrukturálna identifikácia (Carnap 1961) každé slovo jasne identifikovateľné jeho vložením do štruktúry slovného priestoru funguje napriek kruhovitosti slovný priestor vzniká pri použití slov v textoch jazyk je sebareferenčný systém, slová neobsahujú svoju funkciu prostredníctvom pripísania zvonku Význam nie je niečo vonkajšie alebo predjazykové, čo sa spája so slovami, ale ich použiteľnosť v systéme
Otázka „Čo je to vlastne slovo?“ je analogické k „Čo je to šachová figúrka?“ (Wittgenstein 1953, 108) Jazyk neobsahuje ani myšlienky, ani zvuky, ktoré by existovali vo vzťahu k jazykovému systému, ale iba koncepčné a fonetické rozdiely, ktoré zo systému vyplývajú. (Saussure 1916, s. 143)
Kde to má zmysel? Význam je v diskurze. (Teubert 2005)
Literatúra Bierwisch, Manfred: Structural semantics. In Hoffmann, L. (ed.), Linguistics: A Reader. De Gruyter 1996. Carnap, Rudolf: Logická štruktúra sveta. Felix Meiner Verlag, 1961. Erk, Katrin, Padó, Sebastian a Padó, Ulrike: Flexibilný, korpusom riadený model pravidelných a inverzných výberových preferencií. Výpočtová lingvistika 2010. Harris, Zelig: Matematické štruktúry jazyka. Interscience Publishers 1968. Mitchell, Tom M. a kol .: Predikcia aktivity ľudského mozgu spojená s významom podstatných mien. Science, zv. 320, 2008. Putnam, Hilary: Dôležitosť významu. Klostermann 1979. de Saussure, Ferdinand: Základné otázky všeobecnej lingvistiky. De Gruyter 1967.
Literatúra Teubert, Wolfgang: Moja verzia korpusovej lingvistiky. International Journal of Corpus Linguistics 10: 1, 2005. Trier, Jost: Lingvistické oblasti. In Hoffmann, L. (ed.), Linguistics: A Reader. De Gruyter 1996. Turney, Peter a Pantel, Patrick: Od frekvencie k významu: Vektorové vesmírne modely sémantiky. Journal of Artificial Intelligence Research, 37, 2010. Wellmer, Albrecht: Sprachphilosophie. Suhrkamp 2004. Wittgenstein, Ludwig: Filozofické vyšetrovania. Pracovné vydanie, zväzok 1, Suhrkamp 1984.