Christian Burkhart

3. augusta 2018

Na nájdenie odpovedí na otázky sú tu štatistické metódy. Je liek X lepší ako liek Y? Alebo je diéta P lepšia ako diéta S? Každý takéto otázky pozná, často sa s nimi stretávajú v každodenných rozhovoroch a ešte sa nepohybujú v oblastiach, kde by štatistickí laici najradšej opustili miestnosť, akonáhle lektor hodí termíny ako štatistické parametre, rozdelenie vzorky alebo štandardná odchýlka.

Na zodpovedanie takýchto rozdielových otázok (je X lepšie ako Y) sú však potrebné štatistické metódy. Tieto postupy nemusia byť vôbec komplikované. Predstavte si, že chcete vedieť, či je na chudnutie lepšia diéta 1, diéta 2 alebo diéta 3. 60 ľudí rozdelíte do 3 skupín (20 osôb do skupiny). Skupina 1 musí absolvovať diétu 1, skupina 2 musí absolvovať diétu 2 a skupina 3 musí absolvovať diétu 3. Každá skupina presne 6 týždňov. Pred začiatkom experimentu sú všetci opäť zvážení. Na konci experimentu musia byť všetci opäť na váhe. Aká strava je najlepšia? Najjednoduchšou odpoveďou by bola skupina, ktorá schudla najviac. Poďme to skontrolovať.

R, R-Studio a Tidyverse

Hneď prejdem všetky analýzy s R. R je programovací jazyk, ktorý bol napísaný pre štatistické vyhodnotenie. Ak sa chcete zúčastniť, potrebujete program R a R-Studio. Údaje pre tento príklad čerpáme z tejto webovej stránky (stiahnite si súbor csv s témou stravovania). Ak ste to ešte neurobili, najskôr nainštalujte balíček tidyverse a balíček gghighlight:

Potom môžeme načítať balíčky a načítať v dátovom zázname:

Ak ste v R nováčikom, nezabudnite pred načítaním údajov určiť správny pracovný adresár. Najjednoduchším spôsobom je zadať do konzoly nasledujúci príkaz a vybrať priečinok, v ktorom sa nachádza súbor stcp-Rdataset-Diet.csv.

Dáta by sa teraz mali načítať a môžete ich zobraziť letmým pohľadom:

Teraz sa venujeme iba dvom z týchto premenných: hmotnosti6týždňov a strave. Diéta nie je nič iné ako premenná, ktorá obsahuje čísla 1, 2 a 3. 1 znamená Diéta 1 a tak ďalej. weight6weeks označuje váhu ľudí po 6 týždňoch.

Nás však zaujíma váhový rozdiel po 6 týždňoch. Za týmto účelom vytvoríme novú premennú:

mutát je funkcia, pomocou ktorej môžeme vytvárať nové premenné.

Teraz sme pripravení zistiť, či majú diéty v súčasnosti rôzne úspechy.

Má diéta rozdiel? Jednoduchý spôsob, ako odpovedať na otázku

Aký by bol najjednoduchší spôsob kontroly, či sú skupiny odlišné? Porovnávame stredné hodnoty.

Alebo zjednodušene povedané, spočítame všetky hodnoty a vydelíme tento súčet počtom hodnôt. Najskôr nájdeme priemer týchto troch skupín.

Mmmmh, ok. Zdá sa, že skupina 3 schudla najviac. Je teda diéta 3 najlepšia? Alebo inak povedané, od akého rozdielu je jedna strava lepšia ako iná? Alebo to nemôže byť jednoducho tým, že rozdiely podliehajú náhodným výkyvom? Popremýšľajte o tom sami. Ak by priemerná hodnota stravy 3 bola -4, povedali by ste, že strava je lepšia ako tá druhá? Čo keby bola stredná hodnota -3,5? Všimli ste si, že rozhodnutie je trochu svojvoľné. Zvyčajne potrebujeme medznú hodnotu, aby sme určili, či má diéta rozdiel. Túto medznú hodnotu určujeme pomocou iných metód.

Ďalšia metóda určovania rozdielov medzi skupinami

Namiesto toho, aby sme využili prostriedok na zistenie, či sa skupiny líšia, sme sa mohli opýtať, či tieto rozdiely podliehajú náhodným štatistickým výkyvom, alebo či je skutočne nepravdepodobné, že sa 3 skupiny navzájom líšia. Aby som pochopil, čo tým chcem povedať, malý príklad.

Ukážka kocky

Povedzme, že máte šesťstrannú matricu. Chcete vedieť, či táto kocka skutočne zobrazuje každé číslo s rovnakou pravdepodobnosťou. To znamená, že každé číslo by sa malo zobraziť s (1/6 * 100) percentami, t. J. 16,67% pravdepodobnosťou. Ak však hodíme kockami 6-krát, je veľmi nepravdepodobné, že sa každé číslo objaví presne raz. Výskyt čísel podlieha určitým štatistickým výkyvom. Ak však vrhneme 10 000 krát, môžeme predpokladať, že každé číslo sa vyskytuje asi 16,67%.

Nemanipulovaná kocka

Najskôr zvinieme nemanipulovaný zvitok 10 000 krát:

So súborom set.seet (100) získate rovnaké výsledky ako ja. PRAVDA znamená, že máme možnosť zakaždým hodiť čísla od 1 do 6.

Ako často by sa malo každé číslo objaviť? Presne zhruba 1667-krát. Pretože každé číslo má rovnakú šancu na výskyt, vydelíme 10 000 6 a dostaneme 1667 (zaokrúhlené). Získame podobné hodnoty späť od R:

Vidíme, že nie každé číslo bolo rolované presne 1667-krát, ale tieto štatistické výkyvy sa dajú očakávať. Keby sme tento experiment uskutočnili miliónkrát, a nie 10 000, dostali by sme takmer presne rovnakú pravdepodobnosť pre každú kocku. Skutočné kocky naopak nie sú dokonalé. Aj zlomený okraj by mohol znamenať, že niektoré čísla sa budú hádzať s väčšou pravdepodobnosťou.

Zmanipulovaná kocka

Čo sa stane teraz, ak došlo k manipulácii s kockou? Ako môžeme zistiť, či rozdiely vo výskyte čísel nepodliehajú náhodným štatistickým výkyvom (ako pri nemanipulovaných hodoch), ale sú systematické? Aby sme odpovedali na túto otázku, experiment opakujeme 1000-krát. 1 000-krát Poďme hádzať kockami 100-krát a uvidíme, ako často sa v nich objaví číslo 4. Štatisticky by sme mali predpokladať, že číslo štyri sa vyskytuje asi 1667-krát najviac.

Táto funkcia je komplikovanejšia. Kúsok po kúsku:

1: 1000: Vytvoríme vektor s číslami 1 až 1000
map_dbl: Pre každé z týchto čísel od 1 do 1 000 spustíme nad ním funkciu
vzorka (1: 6, 1000, PRAVDA): Kocky hodíme 100-krát
tabuľka (.): Môžeme zobraziť frekvencie čísel v týchto 100 hodoch
.[names (.) == 4]: Počítame, ako často sa číslo 4 vyskytuje na týchto frekvenciách
tabuľka: Z 1 000 experimentov spočítame, ako často sa 4 vyskytli v každom z experimentov.

Teraz môžeme túto distribúciu vizualizovať:

Dobre, zrejme so 100 hodmi je veľmi pravdepodobné, že dostanete číslo 4 16 alebo 17 krát. Prijatie čísla 4 27 alebo dokonca 6 krát je veľmi nepravdepodobné, ak predpokladáme, že s kockou nebolo manipulované.

Tu vidíte rozdelenie pravdepodobnosti. Z rozdelenia môžeme určiť, ako pravdepodobné dôjde k udalosti (výskyt čísla 4 na 100 hodoch). Na základe simulovanej grafiky môžeme povedať, že s kockou pravdepodobne došlo k manipulácii, ak sa štvorka vyskytne 27-krát.

Binomické rozdelenie

Pomocou práve vytvoreného rozdelenia pravdepodobnosti môžeme určiť, či došlo k manipulácii s kockou. Napríklad, ak by sme zo 100 hodov dostali číslo 4 iba 6-krát, bolo by veľmi nepravdepodobné, že by došlo k falšovaniu matrice. A presne tak zvyčajne testujeme aj vedecké otázky. Nie sme zvedaví, či je naša vedecká otázka správna, ale skôr či je naša udalosť (rozdiely v chudnutí medzi diétami) nepravdepodobná, ak neprijmeme rozdiely.

Tieto rozdelenia pravdepodobnosti nemusíme zakaždým simulovať. Už boli vypočítané. Pre príklad kocky má zmysel použiť binomické rozdelenie. Naše rozdelenie pravdepodobnosti nie je v zásade nič iné. Pri binomickom rozdelení testujeme pravdepodobnosť n udalostí s určitou pravdepodobnosťou. Napríklad: Aká je pravdepodobnosť, že pri 5 hodoch hodíme číslom 4 3-krát?

Teraz môžeme našu distribúciu pravdepodobnosti reprezentovať ako binomické rozdelenie:

Kedy teda začneme veriť, že kocka pravdepodobne nie je normálna kocka (ale bola manipulovaná)? Predtým sme svojvoľne určili medznú hodnotu. Vedci robia veľmi podobnú vec.

Ak je pravdepodobnosť udalosti menšia ako 5% na základe rozdelenia pravdepodobnosti, je udalosť nepravdepodobná.

V našej distribúcii sú to nasledujúce udalosti:

Ak teda hodíme číslom 4 22 a viac krát, musíme predpokladať, že nejde o bežné kocky, ale že s kockami pravdepodobne došlo k manipulácii. Potom hovoríme o významnej udalosti.

F distribúcia

Pri binomickom rozdelení testujeme, či je alebo nie je pravdepodobné, že dôjde k určitému počtu udalostí. Pomocou F-distribúcie testujeme, či rozdiely medzi dvoma odchýlkami podliehajú štatistickým výkyvom alebo či sú systematické. Aby sme to pochopili, musíme najskôr pochopiť, čo sa rozumie pod rozptylom.

Rozptyl

Rozptyl je štatistické opatrenie, pomocou ktorého môžeme ukázať, ako veľmi sa premenná líši. Napríklad ľudia sa líšia hmotnosťou. Niekto je ťažký, iný ľahký. Vypočítajme vzorec takto:

Inými slovami, sčítame štvorcové odchýlky jednotlivých hodnôt hmotnosti so strednou hodnotou vzorky a vydelíme tento súčet n - 1. Takéto matematické nápady je vždy veľmi praktické aj graficky vizualizovať.

Vodorovná čiara predstavuje priemer z našej variabilnej vzorky. Každý bod predstavuje váhu každej osoby po 6 týždňoch.

V tomto príklade nie je rozptyl nič iné ako priemerná plocha týchto štvorcov vydelená počtom štvorcov - 1. Doteraz sme to nechali otvorené, prečo tieto štvorce jednoducho nerozdelíme počtom štvorcov, ale počtom štvorcov mínus 1 Je to tak preto, lebo máme tendenciu podceňovať odchýlku populácie, keď vyberieme len pár ľudí zo vzorky (tu je počet ľudí zúčastnených na našom experimente). Táto oprava sa tiež nazýva Besselova oprava.

Odchýlka pre našu premennú hmotnosť6 týždňov vyzerá graficky takto:

Opäť musíme rozdeliť súčet plochy týchto štvorcov počtom štvorcov mínus 1 a získať rozptyl.

Čím menšia je plocha týchto štvorcov, tým menšia je odchýlka premennej. Inými slovami, čím menej sa jednotlivé hodnoty líšia od strednej hodnoty premennej, tým menšia je odchýlka.

V R môžeme túto odchýlku vypočítať takto:

Oba príkazy vytvárajú odchýlku 79,64677.

Rozptylový kvocient

Môžeme navzájom porovnať odchýlky vytvorením kvocientu dvoch odchýlok. Mohli by sme napríklad porovnať varianciu prvej skupiny s diétou s odchýlkou druhej skupiny s diétami.

Ak je hodnota väčšia ako 1, rozptyl prvej skupiny by bol väčší ako rozptyl druhej skupiny. Ak je hodnota menšia ako 1, rozptyl prvej skupiny je menší ako rozptyl druhej skupiny.

Hodnota F vyplýva z takého kvocientu. Ale namiesto svojvoľného porovnávania odchýlok s kvocientom zvyčajne porovnávame systematickú verzus nesystematickú varianciu. K systematickým odchýlkam zvyčajne dochádza manipuláciami, ktoré sami vyvolávame. Napríklad sme pridelili 3 diéty 60 ľuďom. Toto zadanie bolo systematické. Nesystematická odchýlka je odchýlka daná údajmi. Napríklad rozptyl všetkých údajov okolo priemeru premennej.

Hodnota F.

Hodnota F je kvocientom odchýlky medzi našimi 3 skupinami stravovania (SSB) a nesystémovou odchýlkou v našich údajoch (SSW).

Súčet štvorcov medzi (SSB)

Rozptyl medzi skupinami vypočítame odpočítaním priemeru skupín od celkového priemeru premennej redukcie hmotnosti, druhou mocninou a jej výpočtom krát počet prípadov.

Štvorce sú ťažko viditeľné, pretože mierka je taká rozdielna. Čiara v strede označuje strednú hodnotu premennej, bodky sú strednými hodnotami jednotlivých skupín. Bodov je toľko, koľko je ľudí v každej skupine. Ak potiahneme štvorce, vyzerá to takto:

Tieto štvorce musíme opäť spočítať.

Súčet štvorcov v rámci (SSW)

Vnútroskupinová odchýlka nie je nič iné ako súčet vnútroskupinovej odchýlky.

Hodnota F.

Zatiaľ sme spočítali iba štvorce, ale zatiaľ sme nevypočítali žiadnu odchýlku. Aby sme to dosiahli, musíme rozdeliť SSB a SSW menovateľom:

Stredné štvorce medzi (MSB): SSB/(k - 1). K je počet skupín, tu 2.
Stredné štvorce v rámci (MSW): SSW/(n - k). N je počet ľudí vo všetkých skupinách, tu 78

Hodnota F je teraz tvorená z kvocientu medzi MSB a MSW.

Ak si myslíte, že by som sa dobre hodil, mohol by za vás urobiť prácu alebo ma chcel mať vo svojom tíme, napíšte mi. Darí sa mi v prostredí, ktoré sa stará o učenie študentov, a chce poskytovať dobre navrhnuté online študijné skúsenosti alebo vizualizácie údajov.

O mne

Som inštruktážny dizajnér so znalosťami v oblasti vývoja webových aplikácií, online výučby a vizualizácie údajov.

Kontakt

Nehanbite sa ma kontaktovať. Teším sa na vaše správy.