Populácia modrookých Marťanov klesá

Predpokladajme, že chceme otestovať hypotézu, že podiel modrookých Marťanov sa v priebehu 20. storočia znížil. Marťanská populácia, bohužiaľ, výrazne kolíše, takže v celkovej populácii je každé desaťročie veľký rozdiel [Aktualizácia: Zvážte, že marťanská populácia je konštantná s hodnotou jednej miliardy Marťanov. Nasledujúce údaje sú náhodnými vzorkami za každý rok. Množina údajov (ktorá sa skladá pri zápise) môže vyzerať napríklad takto:

Analýza rokov, v ktorých je marťanská populácia mladšia ako 100 rokov, zjavne nie je tak štatisticky významná ako pre populáciu nad 10 000, pretože v druhom prípade máme k dispozícii väčší súbor údajov. Napriek tomu by sme chceli použiť všetky dostupné údaje na otestovanie našej hypotézy s konvenčnou 95% hladinou významnosti.

Ako pokračujeme Vážme dôležitosť každého roka podľa veľkosti vzorky v danom čase?

Ďalšie zmeny zamerané na obavy: Jedná sa o to, ako primerane vážime každú množinu údajov, berúc do úvahy, že sa tak líšia veľkosťou. Nedochádza k posunu vzorky, pretože údaje sú vybrané náhodne.

0 'role = "prezentácia"> 0 1' role = "prezentácia"> 1

n 'role = "prezentácia"> n p' role = "prezentácia"> p k 'role = "prezentácia"> k

Vieme každé desaťročie a tieto sú dané údajmi - ale vieme. Môžeme to odhadnúť za predpokladu, že logaritmické kurzy, ktoré zodpovedajú, sa z roka na rok líšia lineárne (prinajmenšom k dobrej aproximácii). To znamená, že predpokladáme, že existujú čísla a také, že n 'role = "prezentácia"> nk' role = "prezentácia"> kp 'role = "prezentácia"> pp' role = "prezentácia"> p β 0 'role = "prezentácia"> β 0 β 1' role = "prezentácia"> β 1

Ak to zapojíte do (1), máte možnosť sledovať počas určitého roka ako k 'role = "prezentácia"> k n' role = "prezentácia"> n t 'role = "prezentácia"> t

Za predpokladu, že vzorky sa získavajú nezávisle v rokoch atď. A zodpovedajúce a modrookými subjektmi as, je pravdepodobnosť údajov súčinom pravdepodobností jednotlivých výsledkov. Tento výrobok je (podľa definície) pravdepodobnosti. Tieto parametre môžeme odhadnúť ako hodnoty, ktoré maximalizujú pravdepodobnosť; Podľa toho maximalizujú logaritmovú pravdepodobnosť t 1, t 2, 'role = "prezentácia"> t 1, t 2, ni' role = "prezentácia"> niki 'role = "prezentácia"> ki (β 0, β 1) 'role = "prezentácia"> (β 0, β 1) (β ^ 0, β ^ 1)' role = "prezentácia"> (β ^ 0, β ^ 1)

získané z . (2) 'role = "prezentácia"> (2)

(Toto sa pri použití pravidiel logaritmu výrazne zjednodušuje. To je jeden dôvod na vyjadrenie vzťahu čas-pomer z hľadiska log-šance. Ak sú všetky proporcie zhruba medzi a, existuje malý kvalitatívny rozdiel medzi použitím pravdepodobností alebo Vaše šance na výhru: Upravená krivka je lineárna alebo takmer lineárna.) 0,2 'role = "prezentácia"> 0,2 0,8' role = "prezentácia"> 0,8 p 'role = "prezentácia"> p

(3) 'role = "prezentácia"> (3) je binomický zovšeobecnený lineárny model. Musí sa upraviť numerickou minimalizáciou. Postup uvedený v (uvedený na konci tohto príspevku) poskytuje riešenie Λ 'role = "prezentácia"> Λ glm R

Údaje na tomto obrázku sú vynesené s rezmi, ktorých plochy sú úmerné veľkosti vzorky. Fit GLM je krivočiary. Pre porovnanie, riadok, ktorý by sme dostali, keby sme mali na výstup priviesť údaje zobrazené v otázke k obyčajnému riešiteľovi najmenších štvorcov, je pre porovnanie zobrazený šedou farbou. Aj napriek vtedajšej malej vzorke, sú obidva prípady ovplyvnené väčšími proporciami v predchádzajúcich rokoch. Avšak prispôsobenie GLM môže lepšie priblížiť pomery v najväčších vzorkách získaných v rokoch 1970 a 1980. Bodkovaná modrá čiara je popísaná nižšie. (Rok, Proporcia) 'role = "prezentácia"> (Rok, Proporcia)

Pridaním kvadratického výrazu môžeme otestovať správnosť zhody. Výrazne zlepšuje prispôsobenie GLM (aj keď vizuálny rozdiel nie je veľký) a poskytuje dôkazy o tom, že tento model dobre nepopisuje odchýlky vo výsledkoch. Pohľad na graf ukazuje, že výsledok v roku 1990 bol oveľa nižší, ako predpovedal model.

Alternatívnym, ale porovnateľným prístupom je odhad pre každý rok individuálne, možno ako (aj keď sú možné iné odhady). Lineárna regresia logaritmickej pravdepodobnosti týchto odhadov oproti roku, vážená veľkosťami vzorky alebo regresiou najmenších štvorcov, dáva p 'role = "prezentácia"> pti' role = "prezentácia"> tiki/ni 'role = "prezentácia" > ki/nini 'role = "prezentácia"> ni

Štandardné chyby týchto odhadov naznačujú, že odhady WLS sa podstatne nelíšia od binomického GLM. (Štandardné chyby GLM sú však podstatne menšie: „vie“, že tieto veľkosti vzoriek sú dosť veľké, zatiaľ čo lineárna regresia „nevie“ nič o veľkostiach vzoriek: existuje iba jedna postupnosť desiatich samostatných pozorovaní.) Alternatíva nemusí byť k dispozícii, ak alebo pokiaľ nie je použitý iný odhad pravdepodobnosti (ktorý nemá hodnoty alebo). 15,55 'role = "prezentácia"> 15,55 0,00787' role = "prezentácia"> 0,00787 ki = ni 'role = "prezentácia"> ki = niki = 0' role = "prezentácia"> ki = 0 0 'role = "prezentácia" > 0 1 'role = "prezentácia"> 1

Nakoniec by sme mohli urobiť iba váženú regresiu najmenších štvorcov surových odhadov pravdepodobnosti oproti roku, ktorá je inverzne vážená odhadom odchýlky vzorky. Rozptyl binomického rozdelenia je premenlivý, opäť vyjadrený ako pomer. To možno odhadnúť na vzorke ako k/n 'role = "prezentácia"> k/n (n, p)' role = "prezentácia"> (n, p) X 'role = "prezentácia"> XX/n' role = "prezentácia"> X/np (1 - p)/n 'role = "prezentácia"> p (1 - p)/n

Výsledok sa na obrázku zobrazí ako bodkovaná modrá čiara. V tomto prípade sa zdá, že existuje kompromis medzi úpravami GLM a OLS.

Nasledujúci R kód vykonal analýzy a vygeneroval obrázok.