Margus Roo – – Page 26 – If you're inventing and pioneering, you have to be willing to be misunderstood for long periods of time

regressioonianalüüsi tulemuse tõlgendamine R keskkonnas

Posted on May 31, 2013 - June 2, 2013 by margusja

> summary(fit)

Call:
lm(formula = mydata$mpg ~ mydata$cyl, data = mydata) // Mudel, mida kasutati

Residuals:
Min 1Q Median 3Q Max
-4.9814 -2.1185 0.2217 1.0717 7.5186 // Punkthinnangud

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 37.8846 2.0738 18.27 < 2e-16 *** // a
mydata$cyl -2.8758 0.3224 -8.92 6.11e-10 *** // sõltumatu muutuja korrutis – b

Estimated – Funktsiooni ennustatud koefitsendid, lineaarse regressiooni korral (y=bx+a) a ja b.

Std. Error – Screen Shot 2013-06-02 at 9.05.05 PM

// (t value korrelatsiooni põhjal arvutatud statistiku empiiriline väärtus)
—
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1 – alla 0.05 on statistiliselt olulised regressioonivõrrandis.

Residual standard error: 3.206 on 30 degrees of freedom
Multiple R-squared: 0.7262, Adjusted R-squared: 0.7171 // Determinatsioonikordaja – regressioonimudeli suutlikus kirjeldada mõõdetud suurusi skaalal 0 kuni 1.
F-statistic: 79.56 on 1 and 30 DF, p-value: 6.113e-10

p-value – Eksimuse tõenäosus sisukat (Enamasti H1) hüpoteesi eelistades. Mida väiksem, seda väiksem on eksimise tõenäosus. Harilikult alla 0.05 oleks soovitatav.

> mydata mpg cyl Mazda RX4 21.0 6 Mazda RX4 Wag 21.0 6 Datsun 710 22.8 4 Hornet 4 Drive 21.4 6 Hornet Sportabout 18.7 8 Valiant 18.1 6 Duster 360 14.3 8 Merc 240D 24.4 4 Merc 230 22.8 4 Merc 280 19.2 6 Merc 280C 17.8 6 Merc 450SE 16.4 8 Merc 450SL 17.3 8 Merc 450SLC 15.2 8 Cadillac Fleetwood 10.4 8 Lincoln Continental 10.4 8 Chrysler Imperial 14.7 8 Fiat 128 32.4 4 Honda Civic 30.4 4 Toyota Corolla 33.9 4 Toyota Corona 21.5 4 Dodge Challenger 15.5 8 AMC Javelin 15.2 8 Camaro Z28 13.3 8 Pontiac Firebird 19.2 8 Fiat X1-9 27.3 4 Porsche 914-2 26.0 4 Lotus Europa 30.4 4 Ford Pantera L 15.8 8 Ferrari Dino 19.7 6 Maserati Bora 15.0 8 Volvo 142E 21.4 4 > chisq.test(mydata)

Pearson’s Chi-squared test

data: mydata
X-squared = 46.1698, df = 31, p-value = 0.03908

Oletame, et me oleme võtnud eesmärgiks tõestada, et kahe tulba vahel (mpg ja cyl) on seos, siis H1 e alternatiivne hüpotees oleks, et kahe tulba vahel on seos ja Ho on, et seos puudub.
Kuna p-value on 0.03 e väiksem, kui 0.05, siis võime 5% eksimismääraga vastu võtta H1 hüpoteesi.

R – normaljaotus versus Poissoni jaotus versus gammajaotus versus Weidbulli jaotus

Posted on May 29, 2013 - May 29, 2013 by margusja

Andmeanalüüsi juures on jaotuste äratundmine väga oluline.

Siinkohal üks võimalus R keskkonnas

Normaaljaotuse puhul on siinkohal andmehulk pidev (loodud x.norm <- rnorm(n=200, m=10, sd=2)) ja Poisson jaotuse puhul on andmehulk diskreetne (loodud x.poi<-rpois(n=200,lambda=2.5)). Gammajaotuse puhul on on tegu pideva andmehulgaga. Genereeritud (dgamma(x, scale=1.5, shape=2)). Weidbulli jaotus on genereeritud dweibull(x, scale=2.5, shape=1.5)

* Teeme illustratiivse näite.

* Loome normaaljaotusega andmehulga x.poi<-rpois(n=200,lambda=2.5)

1 1 2 1 1 2 3 1 1 3 6 1 4 5 4 2 3 5 5 2 1 1 2 2 5 2 1 0 2 4 2 1 2 3 2 3 3 3 2 2 2 3 5 1 2 1 2 1 2 5 4 5 2 3 2 1 1 2 2 5 2 2 1 4 3 1 0 3 3 1 0 1 2 1 2 1 1 1 2 4 0 2 4 2 0 1 2 1 1 1 1 1 6 2 2 3 1 1 0 5 3 1 2 2 2 7 1 4 0 2 1 1 4 3 1 2 1 2 6 3 3 2 2 8 4 5 4 4 1 4 7 2 2 4 0 2 2 1 3 6 7 1 2 2 3 1 2 1 2 3 2 0 4 2 6 1 4 1 4 2 1 2 4 1 3 4 0 3 3 2 2 3 5 1 1 2 2 4 1 2 2 3 3 6 1 1 4 4 1 6 1 1 5 2 1 2 3 2 2 1

* vastav histogramm

* Kontrollime, milline oleks tulemus, kui me eeldaksime, et tegu oleks normaaljaotusega

Pole just eriti hea.

Kontrollime, kui me eeldame, et tegu on Poissoni jaotusega andmehulgaga

Nagu jooniselt näha on, palju parem. Oma andmete jaotusmudeli tundmine on oluline!

Näiteks soovides Pearsoni korrelatsioonikordajat leida Possoni jaotusega andmehulgast, siis ei pruugi see tegevus edasisteks analüüsideks vajaliku infot anda. Teatavasti saab lineaarset korrelatsioonikordajat arvutada noraaljaotusega andmehulga pealt.

Tõestus, et ma Krissut ka ei häbene

Posted on May 16, 2013 by margusja

Paberilt koodi

Posted on May 15, 2013 by margusja

Paberil oli selline plaan

Tekkis küsimus, kas minu kood ka asjast aru saab nii. Sai küll.

zabbix_sender

Posted on May 3, 2013 by margusja

zabbix_sender -z 192.168.1.14 -s 192.168.1.39 -k iptabrules -o 10 -v

Root-mean-square näide

Posted on May 2, 2013 by margusja

Ülaltoodu demonstreerib väga ilmekalt, kuidas kasutada root-mean-square võimalusi.

Antud juhul on tarvis leida minimaalne root-mean-square, mis on parim ennustus teadaolevate andmetega võrreldes.

Diskreetse juhusliku suuruse keskväärtus (EX) – R

Posted on April 26, 2013 - April 26, 2013 by margusja

Diskreetse juhusliku suuruse X keskväärtuseks (matemaatiliseks ootuseks) EX nimetatakse suuruse võimalike väärtuste ja nende tõenäosuste korrutiste
summat

Näide:

R-ga

* X väärtused (sündmus) y <- c(2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12);

* p väärtused (sündmuse tõenäosus) d <- c(1/36, 1/18, 1/12, 1/9, 5/36, 1/6, 5/36, 1/9, 1/12, 1/18, 1/36);

* Loome maatriksi z – z<-cbind(y,d)

> summary(z)

* Graafiline esitus

Võib tähele panna, et:

* Diskreetse juhusliku suuruse keskväärtus on ligikaudu võrdne katseseeria jooksul ilmnenud
juhusliku suuruse väärtuste aritmeetilise keskmisega ning sealjuures seda täpsemalt, mida
suurem on katsete arv.
* Kui viia läbi mitu katseseeriat, siis iga katseseeria jaoks leitud juhusliku suuruse väärtuste
aritmeetilised keskmised kuhjuvad konstandi ümber, milleks on selle juhusliku suuruse
keskväärtus.

Lineaarne regressioon

Posted on April 25, 2013 - April 25, 2013 by margusja

* Eelduseks on, et sõltuva ja sõltumatu (sõltumatute) muutuja (muutujate) vahel on lineaarne seos.

* Sõltuv muutuja – muutuja mida üritatakse ennustada ühe või enama sõltumatu muutuja kaudu

* Mida vähem sõltumatud muutujad omavahel korrelatsioonis on, seda parem. Võimalus eelnevalt tugevas korrelatsioonis olevad sõltumatud muutujad eemaldada.

* Mudeli kvaliteeti saab mõõta “Root Mean Squared Error” valemiga, mille tulemus on 0 ja 1 vahel. Mida lähemal on see tulemus 0-le seda parem. Kirjeldab punktide kauguste summa ruutu lineaarsest joonest

* Standard error – Standardviga (standard error, SE) ehk valimi keskväärtuse standardhälve on SD/pn. Formaalselt on tegu standardhälbega sellises uues üldkogumis, mis tekib, kui tegelikust üldkogumist võetakse uuritava valimiga võrdse suurusega valimeid ja arvutatakse uute valimite keskväärtused. Standardviga on siis selliste hüpoteetiliste valimite keskmiste standardhälve. Iseloomustab meie teadmiste täpsust uuritava üldkogumi keskmisest, mida täpsem on meie teadmine, seda väiksem on SE. SE sõltub seega a) üldkogumi dispersioonist; b) valimi suurusest. Mida suurem on valim, seda väiksem on SE. Valimi suurenedes läheneb SE nullile. See on siis oluline erinevus SD-st. Mida lähem 0-le, seda parem

* t-Stats – Mida kaugemal nullist, seda parem

* p-value – Mida lähemal nullile, seda parem.

* Student’s t-test is a method in statistics to determine the probability (p) that two populations are the same in respect to the variable that you are testing.

* Tolerance – the tolerance measures the influence of one independent variable on all other independent variables; the tolerance is calculated with an initial linear regression analysis. Tolerance is defined as T = 1 – R² for these first step regression analysis. With T < 0.1 there might be multicollinearity in the data and with T < 0.01 there certainly is

* p-value The p value is NOT a probability but a likelihood. It tells you the likelihood that the coefficient of a variable in regression is non zero.
The p-value is: The probability of observing the calculated value of the test statistic if the null hypothesis is true

p-values smaller than our chosen significance level (usually 0.05) indicate variables that should be in our final model.

P-values larger than our significance level may be left out of the model.

Nullhüpotees ( H0 või H0 ) – konservatiivne väide, mis eeldab tavaliselt, et muutusi ei ole, erinevus puudub jms.

Alati määratakse kindlaks ülempiir tõenäosusele teha esimest liiki viga. Taolist
ülempiiri nimetatakse olulisusenivooks ja tähistatakse (alfa, significance level).
Vähimat olulisusenivood, mille korral me saame alternatiivse hüpoteesi vastu võtta,
nimetatakse olulisustõenäosuseks ja tähistatakse p (significance probability, pvalue). Kui olulisustõenäosus on väiksem kui meie poolt valitud olulisuse nivoo,
võime H1 vastu võtta. Teaduskirjanduses on saanud tavaks valida =0.05 või 0.01.

RF12BDP + ATMEGA328P-PU toimimas proto-plaadil

Posted on March 31, 2013 by margusja

Torkisin raadio plaadile ja progesin ATMEGA328P-PU. Oh üllatust toimis 🙂 Nüüd saab ka kokku joota hiljem.

Centos – how to purge swap on the fly

Posted on March 22, 2013 by margusja

[root@vm37 ~]# free -m
total used free shared buffers cached
Mem: 3881 3383 498 0 89 879
-/+ buffers/cache: 2415 1466
Swap: 991 53 938
[root@vm37 ~]# swapoff -a && swapon -a
[root@vm37 ~]# free -m
total used free shared buffers cached
Mem: 3881 3438 443 0 90 880
-/+ buffers/cache: 2467 1414
Swap: 991 0 991
[root@vm37 ~]#