Čo je; nasýtený; Model

Čo máme na mysli, keď hovoríme, že máme nasýtený model?

V nasýtenom modeli je toľko odhadovaných parametrov, koľko je dátových bodov. Podľa definície to vedie k dokonalému prispôsobeniu, ale štatisticky je to málo užitočné, pretože už nemáte údaje na odhad odchýlky.

Napríklad, ak máte 6 dátových bodov a k údajom sa zmestí polynóm 5. rádu, získate nasýtený model (jeden parameter pre každú z 5 mocností vašich nezávislých premenných plus jeden pre konštantný člen).

Nasýtený model je taký, ktorý sa overparameterizuje do tej miery, že v zásade iba interpoluje údaje. S niektorými nastaveniami, ako je kompresia a rekonštrukcia obrazu, to nemusí byť nevyhnutne zlá vec, ale keď sa pokúšate zostaviť prediktívny model, je to veľmi problematické.

Stručne povedané, nasýtené modely produkujú extrémne vysoké variátory, ktoré sú ovplyvnené viac šumom ako skutočnými údajmi.

Ako myšlienkový experiment si predstavte, že máte nasýtený model a údaje obsahujú šum. Potom si predstavte, že model pasujete niekoľko stokrát, zakaždým s inou realizáciou šumu, a potom predpovedáte nový bod. Je pravdepodobné, že zakaždým získate radikálne odlišné výsledky, a to ako pre vašu kondíciu, tak aj pre predpoveď (a v tomto ohľade sú polynomy obzvlášť výrazné). Inými slovami, variancia fitovania a prediktora sú extrémne vysoké.

Naproti tomu model, ktorý nie je nasýtený (ak je primerane skonštruovaný), poskytuje záchvaty, ktoré sú konzistentnejšie aj pri odlišnej realizácii šumu a tiež sa zmenšuje variancia prediktora.

Model je nasýtený, len ak má toľko parametrov ako dátové body (pozorovania). Inými slovami, v nenasýtených modeloch sú stupne voľnosti väčšie ako nula.

To v zásade znamená, že tento model je zbytočný, pretože nepopisuje údaje striedmejšie ako nespracované údaje (a použitie údajov s miernejšou mierou je obvykle myšlienkou použitia modelu). Nasýtené modely navyše môžu (ale nemusia) poskytnúť (zbytočné) dokonalé prispôsobenie, pretože iba interpolujú alebo iterujú údaje.

Napríklad, vezmite strednú hodnotu ako model pre niektoré údaje. Ak máte iba jeden údajový bod (napr. 5), potom použitie priemeru (napr. 5; priemer je nasýtený model iba pre jeden údajový bod) vôbec nepomôže. Ak však už máte dva údajové body (napr. 5 a 7) a ako model používate priemer (napr. 6), získate presnejší popis ako pôvodné údaje.

Ako všetci ostatní povedali, znamená to, že máte toľko parametrov, koľko máte dátových bodov. Takže žiadne testy spôsobilosti. To však neznamená, že model dokáže „podľa definície“ dokonale zapadnúť do každého údajového bodu. Z vlastnej skúsenosti vám môžem povedať, ako ste pracovali s niektorými nasýtenými modelmi, ktoré nedokázali predpovedať určité údajové body. Je to dosť zriedkavé, ale možné.

Ďalším dôležitým problémom je, že nasýtené neznamená zbytočné. Napríklad v matematických modeloch ľudského poznania sú parametre modelu priradené konkrétnym kognitívnym procesom, ktoré majú teoretické pozadie. Keď je model nasýtený, môžete jeho vhodnosť vyskúšať vykonaním cielených experimentov s manipuláciami, ktoré by mali ovplyvniť iba určité parametre. Ak sa teoretické predpovede zhodujú s pozorovanými rozdielmi (alebo nedostatkom) v odhadoch parametrov, dá sa povedať, že model je platný.

Predstavte si napríklad model, ktorý obsahuje dve sady parametrov, jednu pre kognitívne spracovanie a druhú pre motorické odpovede. Predstavte si, že máte experiment s dvoma podmienkami, pri ktorých je narušená schopnosť účastníkov reagovať (namiesto dvoch rúk môžu používať iba jednu ruku) a druhá podmienka nemá žiadne zhoršenie. Ak je model platný, mali by existovať rozdiely v odhadoch parametrov pre obe podmienky iba pre parametre odozvy motora.

Upozorňujeme tiež, že aj keď model nie je nasýtený, nemusí byť vždy možné ho identifikovať. To znamená, že rôzne kombinácie hodnôt parametrov vedú k rovnakému výsledku, ktorý ovplyvňuje prispôsobenie modelu.

Ak sa chcete dozvedieť viac všeobecných informácií o týchto témach, pozrite si nasledujúce články:

Bamber, D. & van Santen, JPH (1985). Koľko parametrov môže mať model a ešte musí byť testovateľných? Journal of Mathematical Psychology, 29, 443-473.

Bamber, D. & van Santen, JPH (2000). Ako hodnotíte testovateľnosť a identifikovateľnosť modelu? Journal of Mathematical Psychology, 44, 20-40.