Hovorkyňa Stefanie Jahn SS 2007 - ppt video na stiahnutie online
Rečníčka: Stefanie Jahn SS 2007 Klastrová analýza Rečník: Stefanie Jahn SS 2007

1. Analýza problémov heterogénnej totality objektov Cieľ: Identifikovať homogénne podmnožiny objektov z celkového počtu objektov. Klastrová analýza má rôzne metódy na formovanie skupín
Predbežné úvahy Počet objektov musí byť v náhodných vzorkách reprezentatívny. Vylúčte/vylúčte odľahlé hodnoty, berte do úvahy iba príslušné znaky. Rovnaké váženie znakov -> vylúčte korelácie kvôli riziku skreslenia. Žiadne konštantné charakteristiky vo výstupnej matici.>> Riziko skreslenia. Porovnateľnosť prostredníctvom štandardizácie premenných s rôznymi vlastnosťami. Stupnice úrovní výstupných údajov
Chýbajúce hodnoty Súbor údajov by mal byť odstránený z chýbajúcich hodnôt. Vylúčenie: - premenných s veľkým počtom chýbajúcich hodnôt - prípadov s chýbajúcimi hodnotami premenných -> problém: zníženie počtu prípadov, nahradenie chýbajúcich hodnôt strednými hodnotami -> problém: skreslenie udalostí, ak sú príliš časté.
2. Postup 2.1. Stanovenie podobnosti 2.1.1. Binárna premenná štruktúra 2.1.2. Metrická premenná štruktúra 2.1.3. Zmiešaná zmenšená variabilná štruktúra 2.2. Výber zlučovacieho algoritmu 2.2.1. Metódy rozdelenia disku 2.2.2. Hierarchické postupy 2.3. Určenie počtu klastrov
2.1. Určenie podobnosti Východiskový bod: matica nespracovaných údajov s K objektmi, ktoré sú popísané premennými J Matrix obsahuje miery blízkosti (= miery podobnosti a odlišnosti)
2.1.1. Porovnanie dvojice binárnych štruktúr premenných: hodnoty vlastností sa navzájom porovnávajú pre 2 objekty
Koeficienty Tanimoto, RR a M.
Použitie: ak je neexistencia charakteristiky relevantná (napr. Pre pohlavie: 1 = muž, 0 = žena), potom použitie napr. M-koeficientu, ak neexistencia charakteristiky nie je relevantná, potom existuje tendencia k Tanimotovmu alebo Jaccardovmu koeficientu.
Použitie koeficientov podobnosti pre viacúrovňové premenné:
2.1.2. Metrická premenná štruktúra Minkowskiho metriky alebo L štandardy často používané miery vzdialenosti Rozdiel medzi vlastnosťami párov objektov vydelený absolútnymi hodnotami rozdielov
r = 1 - metrika mestského bloku: = I1-2I + I2-3I + I1-3I = 1 + 1 + 2 = 4 s normou L1, všetky hodnoty rozdielov sú do výpočtu zahrnuté s rovnakou hmotnosťou = najväčšou podobnosťou; = najväčšia nepodobnosť
r = 2 - Euklidovská vzdialenosť: = I1-2I2 + I2-3I2 + I1-3I2 = 12 + 12 + 22 = 6 väčšie zohľadnenie hodnôt veľkého rozdielu druhou mocninou
Výsledok: Voľba merania vzdialenosti ovplyvňuje poradie podobnosti skúmaných objektov Dôležité: musia sa použiť porovnateľné jednotky merania -> inak štandardizácia!
Koeficient Q-korelácie počíta podobnosť medzi 2 objektmi berúc do úvahy všetky premenné objektu = najväčšia podobnosť; = najväčšia nepodobnosť
Prečo je Rama a vianočné maslo najviac nepodobné Minkowského metrike, ale najviac podobné korelačnému koeficientu Q? Použitie mierových opatrení, ak je absolútna vzdialenosť medzi objektmi zaujímavá a rozdielnosť narastá so zväčšujúcou sa vzdialenosťou -> napr. Podobná veľkosť/úroveň predaja v čase. Použitie mierových mier, pokiaľ ide o aspekt podobnosti pri synchronizácii dvoch profilov, bez ohľadu na úroveň -> napr. podobný vývoj v čase
2.1.3. Zmiešaná škálovaná štruktúra premenných A) Pre metrické a nemetrické premenné sa koeficienty alebo vzdialenosti podobnosti počítajú osobitne. Celková podobnosť = nevážený alebo vážený priemer vypočítaných premenných.
napr .: Rama a Flora: vzdialenosť M-koeficientu = 1-0,7 = 0,3 pre metr. Vlastnosti na druhú euklidovská vzdialenosť = 4 => nevážený aritmet. Priemer: 2,15 => váženie podľa metr. a nemetr. vzdialenosť
B) Transformácia z vyššej na nižšiu úroveň Dichotomizácia: Cena do 1,59 € = 0, od 1,60 € = 1 = vysoká strata informácií, ľubovoľná. Definícia rozhrania? Intervaly formulárov alebo: cena viac ako 1,40 €? áno = 1, nie = 0 Cena viac ako 1,70 €? áno = 1, nie = 0 ... čím menší je rozsah tried, tým nižšia je strata informácií, riziko skreslenia v dôsledku nesprávneho váženia
2.2. Výber spojovacieho algoritmu Kombinácia do skupín na základe hodnôt podobnosti (aglomeratívna) klastrová analýza sumarizuje pozorované prípady, až kým nebudú všetky prípady konečne obsiahnuté v skupine možná diferenciácia metód rozdelenia hierarchických metód
2.2.1. Metódy rozdelenia, vopred definované zoskupenie, sú založené na danom zoskupení objektov, preskupení pomocou výmenného algoritmu medzi skupinami na optimum
Ukončite vytváranie klastrov, keď sú ukončené všetky objekty. Klastrovanie, keď sú ukončené všetky objekty. ich premiestnenie bolo preskúmané a nie je možné dosiahnuť zlepšenie kritéria odchýlky -> musí dôjsť k ukončeniu, inak musí byť príliš veľa možností -> bolo dosiahnuté lokálne optimum namiesto globálneho optima 2 problémy s rozhodovaním so „zmenou počiatočného oddielu“: 1. Určte, v koľkých skupinách objektov sú objekty majú byť distribuované 2. Určte režim, podľa ktorého sa majú objekty distribuovať do počiatočných skupín (pomocou tabuľky náhodných čísel podľa poradia, v akom sú očíslované, ...)
Metódy rozdelenia na oddiely sa vyznačujú väčšou variabilitou v porovnaní s aglomeračnými hierarchickými metódami. Metódy rozdelenia na oddiely sú v praktických aplikáciách menej časté. Dôvody: - Výsledky sú silnejšie ovplyvnené cieľovou funkciou - Výsledok môže ovplyvniť často subjektívne zdôvodnenie výberu východiskovej polohy - Je možné dosiahnuť iba lokálne optima
2. 2. 2. Hierarchické postupy 2. 2. 2. 1 2.2.2. Hierarchické postupy 2.2.2.1. Aglomeračný proces aglomeračný proces - východiskovým bodom je najjemnejšia priečka -> zoskupenie
Rozdiely medzi aggl Rozdiely medzi aggl. Postupy vyplývajú iba z toho, ako sa určujú vzdialenosti Vzdialenosť medzi objektmi P + Q do ktorejkoľvek skupiny R: D (R, P + Q) = A * D (R, P) + B * D (R, Q) + E * D (P, Q) + G * ID (R; P) -D (R, Q) I s: D (R, P): vzdialenosť medzi skupinami R a PD (R, Q): vzdialenosť medzi skupinami R a QD (P, Q): Vzdialenosť medzi skupinami P a Q
spája objekty, ktoré majú najmenšiu vzdialenosť 2.2.2.2. Postup procedúr „Single-Linkage“, „Complete Linkage“ a „Ward“ Single Linkage procedure kombinuje objekty, ktoré majú najmenšiu vzdialenosť. Procedúra Najbližší sused SLV vždy vykreslí najmenšiu hodnotu ako novú vzdialenosť medzi dvoma skupinami Prístup individuálnych vzdialeností -> je preto vhodný na rozpoznávanie „odľahlých hodnôt“, má tendenciu vytvárať veľa malých a menej veľkých skupín -> tendenciu vytvárať reťazce
Ako úplná metóda spojenia sa použijú najväčšie vzdialenosti = metóda najvzdialenejšieho suseda. Vzdialenosť teraz zodpovedá najväčšej jednotlivej vzdialenosti
skôr inklinuje k vytváraniu malých skupín, ktoré nie sú vhodné na detekciu „odľahlých hodnôt“ z dôvodu použitia najväčších vzdialeností jednotlivých hodnôt
Wardova metóda Cieľ: zjednotiť tie objekty, ktoré čo najmenej zväčšujú rozptyl skupiny -> čím sa vytvárajú čo najhomogénnejšie zhluky ako miera heterogenity, používa sa variačné kritérium = chybový súčet štvorcov (FQS) výpočtu štvorca. Euklid. Vzdialenosť medzi všetkými objektmi FQS v prvom kroku = 0, pretože každý objekt má svoju vlastnú skupinu -> zatiaľ nie je rozptyl
4 * 0,5 = 2 (= FQS) 6,667 * 0,5 = 3,333 3,333 + 2 = 5,333 11 * 0,5 = 5,5 5,5 + 5,333 = 10,833
Wardova metóda využíva meranie vzdialenosti premenné musia byť metrické žiadne odľahlé hodnoty nekorelované premenné dôležité očakávanie skupín rovnakej veľkosti. pretiahnuté skupiny alebo skupiny s malým počtom prvkov, ktoré nie sú rozpoznateľné. Odporúčanie: - SLV najskôr vyhľadá odľahlé hodnoty - „Eliminuje“ odľahlé hodnoty - Znovu preskúmajte znížený počet objektov pomocou inej aglomeratívnej metódy - Metódu je potrebné zvoliť na základe príslušnej aplikačnej situácie
2.3. Stanovenie počtu klastrov Rozhodnutie o tom, ktorý počet klastrov je „najlepším“ riešením a malo by sa použiť. Riešenie konfliktu cieľov medzi požiadavkami na zvládnuteľnosť a homogenitu. Počet klastrov by sa mal určiť podľa štatistických kritérií; vývoj miery heterogenity nemožno brať do úvahy na základe faktických hľadísk na podporu rozhodnutia (-> je chybový súčet štvorcov vo Wardovej metóde) grafické objasnenie poskytuje dendrogram
Vývoj heterogenity je vynesený proti súvisiacemu počtu klastrov v súradnicovom systéme -> 4-klastrové riešenie