Decision Tree #2

Oletame, et meil on mingi kogus informatsiooni ja me soovime tuletada reegleid, kuidas mingi tulemus on tekkinud ehk luua decision tree, nagu alloleval joonisel

Screen Shot 2013-08-27 at 7.00.22 PMArvutame nn “Target” entroopia . Target jaguneb 5 X No ja 9 X Yes. Kokku on 14 kirjet. 5/14 ümardame ja saame 0.36. 9/14 ümardame ja saame 0.64.

Entroopia valem on Screen Shot 2013-08-27 at 7.10.18 PM

Meie puhul tuleb arvutus: Screen Shot 2013-08-27 at 7.14.54 PM

Nüüd otsime, millieses tulbas on kõige rohkem informatsiooni:

Screen Shot 2013-08-27 at 7.18.53 PM , kus T on target ja X on tulp.

Meil on neli tulpa: Outlook, Temp, Humidity ja Windy.

Outlook arvutamine:

Screen Shot 2013-08-27 at 7.33.53 PM

Kasutame valemit:

Screen Shot 2013-08-27 at 7.40.07 PM

ehk:

Screen Shot 2013-08-27 at 7.37.22 PM

Screen Shot 2013-08-27 at 7.50.07 PMScreen Shot 2013-08-27 at 7.18.53 PM

0.94-0.69=0.25

Temp arvutamine:

Screen Shot 2013-08-27 at 7.55.31 PM

Screen Shot 2013-08-27 at 8.03.22 PM

 

Humidity arvutamine:

Screen Shot 2013-08-27 at 8.14.11 PM

 

Windy arvutamine:

Screen Shot 2013-08-27 at 8.18.45 PM

 

Selgus, et kõige rohkem informatsiooni sisaldab tulp outlook – 0.25. Siit saame joonistada välja esimesed harud:

Screen Shot 2013-08-27 at 8.25.15 PM

 

Kuna Outlook -> Overcast target on igal juhil Yes, siis joonistub siit nn leht:

Screen Shot 2013-08-27 at 8.29.18 PM

 

Siit edasi tuleb harud, mis sisaldavad entroopiat (suuremat, kui 0) edasi harutada Outlook > Sunny, saame info:

Screen Shot 2013-08-27 at 9.02.05 PM

 

Kõik hakkab otsast peale. Arvutame target tulba entroopia:

Screen Shot 2013-08-27 at 9.09.54 PM

 

Windy annab kahtlemata lehed Yes/No:

Screen Shot 2013-08-27 at 9.29.25 PM

Tulemus:

Screen Shot 2013-08-27 at 9.35.04 PM

 

Nüüd on jäänud haru Outlook > Rainy, mis sisaldab informatsiooni:

Screen Shot 2013-08-27 at 9.42.08 PM

 

Siin võib kasutada juba visuaalset analüüsi:

Screen Shot 2013-08-27 at 9.45.03 PM

 

Siit saame viimased lehed:

Screen Shot 2013-08-27 at 9.46.30 PM

 

Decision tree meetodit on samuti pseodokeeles hea esitleda:

Screen Shot 2013-08-27 at 9.47.56 PM