Rozhodovacie a regresné stromy
Rozhodovacie stromy a súbory regresných súborov náhodných lesov

Dáta a model Princíp je spoločný Klasifikácia Regresia Formálna: tréningové dáta máme vo forme vektorov X i so značkami Y i. Značky sú: Kategórie (diskrétne) pre klasifikáciu Pokračovať pre regresiu
Indukcia Indukčný princíp: Extrahujeme pravidlá z príkladov Predpokladáme, že pravidlá sú platné, aj keď máme veľa údajov Paradigma indukcie a dedukcie: V indukčnom kroku tvoríme pravidlá V deduktívnom kroku pomocou pravidiel predpovedáme štítky pre nové údaje
Stromy klasifikácie a regresie Strom je prediktívny model, ktorý: Konštrukcie založené na množine binárnych rozhodnutí Vypočítava výstupnú hodnotu Rozdiel medzi regresiou a klasifikáciou (v konštrukcii) je daný objektívnou funkciou.
Použite induktívny prístup Použite konkrétne údaje na vytvorenie všeobecnejších pravidiel Prediktívny model založený na sérii booleovských testov Postupnosť testov je silnejšia ako pri mnohých zložitých klasifikátoroch Ako vyzerá rozhodovací strom Ako vyzerá rozhodovací strom?
Toto zviera je. Váha mačky alebo psa> 6 kg Áno Nie Beaty za minútu> 150 Spánky> 15 h Psy sú mohutnejšie, ale sú tu obézne mačky a sú tu čivavy Skvelé psy spia veľa Áno Mačka Nie Pes Áno Nie Váha> 35 kg Pes Zviera = (váha, bije) za minútu, počas spánku, index krásy) index krásy nie je užitočný Áno Nie Aké zviera popisuje zviera (45,80, 10 9) Cat Dog But (8,180,18,7)
Induktívne učenie V tomto rozhodovacom strome som urobil sériu binárnych rozhodnutí a postavil vetvu Zviera: aké má nevoľnosť? Ako dlho spí? Aký máš srdcový rytmus? Odpovedaním na tieto otázky ÁNO alebo NIE rozlišujeme medzi psami a mačkami
Údaje v tabuľke Výcviková sada Príklad Atribúty Štítok Hmotnosť Srdcová frekvencia Spiaca kráska Tlapka 5 100 8 5 Pes - Labrador Puffy 3,5 180 16 9 Mačka - Európska Max. 65 45 13 7 Pastiersky pes Rex 6 130 16 8 Pes canis Dingo 00 15 7 Mačka - slabanog Brutus 1,5 140 7 1 Pes - Pekingese Asci 15 160 19 8 Mačka - zajtra coon gras Mutzi 1 130 0 Mačka - obézna Karamel 5 10 16 9 Mačka - barmská Blacky 4 0 16 10 Mačka - nórska neige 0 80 18 10 Pes - Husky Garfield 8 180 19 4 Mačka - ryšavka Toto 30 85 1 6 Pes - corcitura
Výber atribútov Predchádzajúca tabuľka zobrazuje 4 atribúty: hmotnosť, srdcový rytmus, doba spánku a krása. Rozhodnutie sa však robí iba na základe troch krás. Krása nie je relevantná Prečo? Je to dobré?
Ako vytvoriť rozhodovací strom Dáta sú popísané v zozname atribútov. Atribúty môžu byť diskrétne alebo spojité. Zvážte postupne každý atribút a pre aktuálny okamih vyberte ten, ktorý poskytuje najlepšie rozdelenie. Nastavte prahovú hodnotu a získajte dva podproblémy, ktoré sa rieši rekurzívne podobne
Budovanie stromu Výcvik Aké premenné sa používajú v súčasnom porovnaní a kde? Kedy prestaneme? Pokračujeme? Koncový uzol dostane štítok.
Algoritmus pre rozhodovací strom Základná myšlienka je: Vyberte si najlepší atribút na porovnanie a rozdeľte príklady podľa prijatého rozhodnutia na základe tohto atribútu Opakujte postup rekurzívne pre každý podstrom Zastavíme, keď: Všetky zostávajúce súdy v podproblém má rovnaké označenie Žiadne ďalšie atribúty na vyskúšanie Žiadne ďalšie údaje
Klasifikácia Opatrenie, ktoré sa má optimalizovať: GINI index (index nečistôt) GINI (X) 1 N p i i1 P i relatívna frekvencia triedy i v množine údajov X (sub) príslušného rozdelenia. Nižšie hodnoty GINI sú lepšie. Gini == 0 čistá trieda Pôvodne meria sociálnu nerovnováhu
Klasifikačný strom (rozhodnutie) Tréningové údaje Objekt x 1 xy X 1 0,14 1,6 3 X 3,7 1,4 1 X 3,4 0,6 XN 0,15 0,87 3 x 0 4 SPLIT (chamtivý): MinGINI = RealMAX pre každú dimenziu d = x 1 x pre vlnu = min (d 1 d N-1): max (d 1 d N-1 Rozdelenie medzi val d_i a val d_i + 1 Hodnota podmnožiny = väčšina hodnôt v podmnožine Vypočítajte GINI. Ak je menej ako MinGINI, uložte koniec Koniec Použite dimenzia a val, ktoré vedú k MinGINI x 1
Klasifikačný strom (rozhodnutie) Údaje o tréningu Obj x 1 x y X 1 0,14 1,3 3 X 3,7 1,4 3 X 3 1,7 0,7 X 4 0,5 1,6 3 x 1 0 4 x 1 X 5 1,5. X 6 0,7 0,3 1 X 7,4 1,8 1 X 8,7 0,87 1
Údaje o tréningu Obj x 1 x y X 1 0,14 1,3 3 X 3,7 1,4 3 X 3 1,7 0,7 X 4 0,5 1,6 3 X 5 1,5. X 6 0,7 0,3 1 X 7,4 1,8 1 X 8,7 0,87 1 Klasifikačný strom (rozhodnutie) x 1 0 Rozdelenie x 1