Logistic Regression

Logistiline regressioon on üks binaarse tunnuse analüüsimeetod, mis prognoosib uuritava sündmuse toimumise tõenäosust ja selle muutumist sõltuvalt pideva argumenttunnuse väärtuse muutumisest

Logistiline regressioon arvutab binaarse tulemuse tõenäosuse ühe või mitme numbrilise ja/või diskreetse faktori põhjal. Lineaarset regressiooni ei saa kasutada binaarse tulemuse tõenäosuse arvutamiseks, kuna tõenäosus ei oleks 0 ja 1 vahel, aga logistiline regressioon tagab, et uuritava sündmuse tõenäosus jääb alati vahemiku 0 kuni 1.

LogReg_1

Põhivalem: Screen Shot 2013-08-29 at 2.00.02 PM

 

Konstant b0 liigutab logistilise regressioonigraafiku kõverat vasakule ja paremale.

Näiteks lineaarfunktsioon y=-0.1+0.2*x, mille graafik on:

Screen Shot 2013-08-29 at 4.50.19 PM

 

funktsioon 1/(1+e^-(1-0.3*x)) argumendiga b0 = 1, annab graafiku:

Screen Shot 2013-08-29 at 7.30.04 PM

 

Muutes b0 = 10, annab funktsioon 1/(1+e^-(10-0.3*x)) graafiku:

Screen Shot 2013-08-29 at 7.34.00 PM

Muudame konstanti b0 – 0.1 -> 0.3, saame lineaarfunktsiooni y=-0.3+0.2*x, mille graafik on:

Screen Shot 2013-08-29 at 4.52.43 PM

Konstant b1…bn mõjutab logistilise regressioonigraafiku kõvera nurka.

funktsioon 1/(1+e^-(10-0.6*x)), kus b1=0.6 graafik on:

Screen Shot 2013-08-29 at 5.49.45 PM

funktsioon 1/(1+e^-(10-0.3*x)), kus b1=0.3 graafik on:

Screen Shot 2013-08-29 at 5.51.17 PM

Nagu eelnevalt mainisin, saab logistiline regressioon hakkama suurema hulga parameetritega: Screen Shot 2013-08-29 at 2.02.07 PM

 

Kindlasti tuleb toonitada, et arvutustulemus annab sündmuse toimumise tõenäosuse, mitte tõenäosus reaalse väärtuse suhtes!

Näiteks andmehulk, kus esimesel kohal on sõltumatu muutuja ja teisel kohal sõltuv muutuja:

X1,Y
18,1
19,1
20,0
20,1
20,1
21,1
25,1
26,0
28,1
32,0
35,0
37,1
37,0
37,0
38,0
40,0
45,0

annab sündmuse toimumise tõenäosused:

X1 Y Calc Prob
18.0000 1 0.8825
19.0000 1 0.8602
20.0000 0 0.8344
20.0000 1 0.8344
20.0000 1 0.8344
21.0000 1 0.8049
25.0000 1 0.6500
26.0000 0 0.6034
28.0000 1 0.5051
32.0000 0 0.3148
35.0000 0 0.2015
37.0000 1 0.1448
37.0000 0 0.1448
37.0000 0 0.1448
38.0000 0 0.1218
40.0000 0 0.0851
45.0000 0 0.0332

Selgelt on näha, et vanuse kasvades, tõenäosus saada Y=1 väheneb.

Kanname andmed X/Y koordinaatteljestikule

Screen Shot 2013-08-29 at 7.53.19 PM

 

Proovime ise ka proovimeetodiga leida b0 ja b1 argumente funktsioonile 1/(1+e^-(b0+b1*x))

Katsetame b0 = 0.1 ja b1 = 0.1. Saame graafiku:

Screen Shot 2013-08-29 at 8.05.26 PM

 

Antud juhul on kenasti näha, et valitud parameetrid b0 ja b1 ei toimi ja funktsioon ei iseloomusta sõltuvat muutujat peale sõltuva muutuja kasvamist üle 32.

Proovime b0 = 5 ja b1 = -0.2, tulemus on juba reaalsem.

Screen Shot 2013-08-29 at 8.24.38 PM

 

Proovime b0 = 10, b1 = -04, nende parameetrityega oleks tarvis graafikut natukene paremale liigutada.

Screen Shot 2013-08-29 at 8.38.54 PM

 

Nagu ma ülal mainisin, saab graafikut paremale ja vasakule liigutada b0 argumendiga.

Valime b0 = 13 ja b1 = -0.4, sest graafiku nn kumerus sobis meile eelmisel katsel. Tulemus on juba ideaalilähedane.

Screen Shot 2013-08-29 at 8.53.16 PM

 

Loomulikult ei tule igapäevases toimimises niimoodi proovimeetodiga kordajaid otsida, samas on ülaltoodu hea selgitus kuidas logistiline regressioon toimib.