Skip to content

Margus Roo –

If you're inventing and pioneering, you have to be willing to be misunderstood for long periods of time

  • Cloudbreak Autoscale fix
  • Endast

regressioonianalüüsi tulemuse tõlgendamine R keskkonnas

Posted on May 31, 2013 - June 2, 2013 by margusja


> summary(fit)

Call:
lm(formula = mydata$mpg ~ mydata$cyl, data = mydata) // Mudel, mida kasutati

Residuals:
Min 1Q Median 3Q Max
-4.9814 -2.1185 0.2217 1.0717 7.5186 // Punkthinnangud

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 37.8846 2.0738 18.27 < 2e-16 *** // a
mydata$cyl -2.8758 0.3224 -8.92 6.11e-10 *** // sõltumatu muutuja korrutis – b

Estimated – Funktsiooni ennustatud koefitsendid, lineaarse regressiooni korral (y=bx+a) a ja b.

Std. Error –Screen Shot 2013-06-02 at 9.05.05 PM

// (t value korrelatsiooni põhjal arvutatud statistiku empiiriline väärtus)
—
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ‘ 1 – alla 0.05 on statistiliselt olulised regressioonivõrrandis.

Residual standard error: 3.206 on 30 degrees of freedom
Multiple R-squared: 0.7262, Adjusted R-squared: 0.7171 // Determinatsioonikordaja – regressioonimudeli suutlikus kirjeldada mõõdetud suurusi skaalal 0 kuni 1.
F-statistic: 79.56 on 1 and 30 DF, p-value: 6.113e-10

p-value – Eksimuse tõenäosus sisukat (Enamasti H1) hüpoteesi eelistades. Mida väiksem, seda väiksem on eksimise tõenäosus. Harilikult alla 0.05 oleks soovitatav.


> mydata
mpg cyl
Mazda RX4 21.0 6
Mazda RX4 Wag 21.0 6
Datsun 710 22.8 4
Hornet 4 Drive 21.4 6
Hornet Sportabout 18.7 8
Valiant 18.1 6
Duster 360 14.3 8
Merc 240D 24.4 4
Merc 230 22.8 4
Merc 280 19.2 6
Merc 280C 17.8 6
Merc 450SE 16.4 8
Merc 450SL 17.3 8
Merc 450SLC 15.2 8
Cadillac Fleetwood 10.4 8
Lincoln Continental 10.4 8
Chrysler Imperial 14.7 8
Fiat 128 32.4 4
Honda Civic 30.4 4
Toyota Corolla 33.9 4
Toyota Corona 21.5 4
Dodge Challenger 15.5 8
AMC Javelin 15.2 8
Camaro Z28 13.3 8
Pontiac Firebird 19.2 8
Fiat X1-9 27.3 4
Porsche 914-2 26.0 4
Lotus Europa 30.4 4
Ford Pantera L 15.8 8
Ferrari Dino 19.7 6
Maserati Bora 15.0 8
Volvo 142E 21.4 4
> chisq.test(mydata)

Pearson’s Chi-squared test

data: mydata
X-squared = 46.1698, df = 31, p-value = 0.03908

Oletame, et me oleme võtnud eesmärgiks tõestada, et kahe tulba vahel (mpg ja cyl) on seos, siis H1 e alternatiivne hüpotees oleks, et kahe tulba vahel on seos ja Ho on, et seos puudub.
Kuna p-value on 0.03 e väiksem, kui 0.05, siis võime 5% eksimismääraga vastu võtta H1 hüpoteesi.

Posted in Machine Learning

R – normaljaotus versus Poissoni jaotus versus gammajaotus versus Weidbulli jaotus

Posted on May 29, 2013 - May 29, 2013 by margusja

Andmeanalüüsi juures on jaotuste äratundmine väga oluline.

Siinkohal üks võimalus R keskkonnas

R_norm_versus_poisson_distR_gamma_weidbull

 

Normaaljaotuse puhul on siinkohal andmehulk pidev (loodud x.norm <- rnorm(n=200, m=10, sd=2)) ja Poisson jaotuse puhul on andmehulk diskreetne (loodud x.poi<-rpois(n=200,lambda=2.5)). Gammajaotuse puhul on on tegu pideva andmehulgaga. Genereeritud (dgamma(x, scale=1.5, shape=2)). Weidbulli jaotus on genereeritud dweibull(x, scale=2.5, shape=1.5)

* Teeme illustratiivse näite.

* Loome normaaljaotusega andmehulga x.poi<-rpois(n=200,lambda=2.5)

1 1 2 1 1 2 3 1 1 3 6 1 4 5 4 2 3 5 5 2 1 1 2 2 5 2 1 0 2 4 2 1 2 3 2 3 3 3 2 2 2 3 5 1 2 1 2 1 2 5 4 5 2 3 2 1 1 2 2 5 2 2 1 4 3 1 0 3  3 1 0 1 2 1 2 1 1 1 2 4 0 2 4 2 0 1 2 1 1 1 1 1 6 2 2 3 1 1 0 5 3 1 2 2 2 7 1 4 0 2 1 1 4 3 1 2 1 2 6 3 3 2 2 8 4 5 4 4 1 4 7 2 2 4 0 2 2 1 3 6 7 1 2 2 3 1 2 1 2 3 2 0 4 2 6 1 4 1 4 2 1 2 4 1 3 4 0 3 3 2 2 3 5 1 1 2 2 4 1 2 2 3 3 6 1 1 4 4 1 6 1 1 5 2 1 2 3 2 2 1

* vastav histogramm

poisson_histogram

 

* Kontrollime, milline oleks tulemus, kui me eeldaksime, et tegu oleks normaaljaotusega

plotdist_pois

 

 

Pole just eriti hea.

Kontrollime, kui me eeldame, et tegu on Poissoni jaotusega andmehulgaga

Rplot01

Nagu jooniselt näha on, palju parem. Oma andmete jaotusmudeli tundmine on oluline!

Näiteks soovides Pearsoni korrelatsioonikordajat leida Possoni jaotusega andmehulgast, siis ei pruugi see tegevus edasisteks analüüsideks vajaliku infot anda. Teatavasti saab lineaarset korrelatsioonikordajat arvutada noraaljaotusega andmehulga pealt.

 

Posted in Machine Learning

Tõestus, et ma Krissut ka ei häbene

Posted on May 16, 2013 by margusja

2013-05-16 14.26.35

Posted in Fun

Paberilt koodi

Posted on May 15, 2013 by margusja

Paberil oli selline plaan

2013-05-15 16.50.38

 

 

Tekkis küsimus, kas minu kood ka asjast aru saab nii. Sai küll.

Screen Shot 2013-05-15 at 4.50.55 PM

Posted in Machine Learning

zabbix_sender

Posted on May 3, 2013 by margusja

zabbix_sender -z 192.168.1.14 -s 192.168.1.39 -k iptabrules -o 10 -v

Posted in IT

Root-mean-square näide

Posted on May 2, 2013 by margusja

 

 

 

Screen Shot 2013-05-02 at 3.49.58 PM

 

Ülaltoodu demonstreerib väga ilmekalt, kuidas kasutada root-mean-square võimalusi.

Antud juhul on tarvis leida minimaalne root-mean-square, mis on parim ennustus teadaolevate andmetega võrreldes.

Posted in Machine Learning

Diskreetse juhusliku suuruse keskväärtus (EX) – R

Posted on April 26, 2013 - April 26, 2013 by margusja

 

 

 

 

Screen Shot 2013-04-26 at 12.43.12 PM

 

Diskreetse juhusliku suuruse X keskväärtuseks (matemaatiliseks ootuseks) EX nimetatakse suuruse võimalike väärtuste ja nende tõenäosuste korrutiste
summat

Näide:

Screen Shot 2013-04-26 at 1.49.51 PM

R-ga

* X väärtused  (sündmus) y <- c(2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12);

* p väärtused (sündmuse tõenäosus)  d <- c(1/36, 1/18, 1/12, 1/9, 5/36, 1/6, 5/36, 1/9, 1/12, 1/18, 1/36);

* Loome maatriksi z – z<-cbind(y,d)

> summary(z)

Screen Shot 2013-04-26 at 1.41.43 PM

* Graafiline esitus

Keskvaartus

Võib tähele panna, et:

* Diskreetse juhusliku suuruse keskväärtus on ligikaudu võrdne katseseeria jooksul ilmnenud
juhusliku suuruse väärtuste aritmeetilise keskmisega ning sealjuures seda täpsemalt, mida
suurem on katsete arv.
* Kui viia läbi mitu katseseeriat, siis iga katseseeria jaoks leitud juhusliku suuruse väärtuste
aritmeetilised keskmised kuhjuvad konstandi ümber, milleks on selle juhusliku suuruse
keskväärtus.

Posted in Machine Learning

Lineaarne regressioon

Posted on April 25, 2013 - April 25, 2013 by margusja

* Eelduseks on, et sõltuva ja sõltumatu (sõltumatute) muutuja (muutujate) vahel on lineaarne seos.

* Sõltuv muutuja – muutuja mida üritatakse ennustada ühe või enama sõltumatu muutuja kaudu

* Mida vähem sõltumatud muutujad omavahel korrelatsioonis on, seda parem. Võimalus eelnevalt tugevas korrelatsioonis olevad sõltumatud muutujad eemaldada.

* Mudeli kvaliteeti saab mõõta “Root Mean Squared Error” valemiga, mille tulemus on 0 ja 1 vahel. Mida lähemal on see tulemus 0-le seda parem. Kirjeldab punktide kauguste summa ruutu lineaarsest joonest

* Standard error –  Standardviga (standard error, SE) ehk valimi keskväärtuse standardhälve on  SD/pn. Formaalselt on tegu standardhälbega sellises uues üldkogumis, mis tekib, kui tegelikust üldkogumist võetakse uuritava valimiga võrdse suurusega valimeid ja arvutatakse uute valimite keskväärtused. Standardviga on siis selliste hüpoteetiliste valimite keskmiste standardhälve. Iseloomustab meie teadmiste täpsust uuritava üldkogumi keskmisest, mida täpsem on meie teadmine, seda väiksem on SE. SE sõltub seega a) üldkogumi dispersioonist; b) valimi suurusest. Mida suurem on valim, seda väiksem on SE. Valimi suurenedes läheneb SE nullile. See on siis oluline erinevus SD-st. Mida lähem 0-le, seda parem

* t-Stats – Mida kaugemal nullist, seda parem

* p-value – Mida lähemal nullile, seda parem.

* Student’s t-test is a method in statistics to determine the probability (p) that two populations are the same in respect to the variable that you are testing.

* Tolerance – the tolerance measures the influence of one independent variable on all other independent variables; the tolerance is calculated with an initial linear regression analysis.  Tolerance is defined as T = 1 – R² for these first step regression analysis.  With T < 0.1 there might be multicollinearity in the data and with T < 0.01 there certainly is

* p-value The p value is NOT a probability but a likelihood. It tells you the likelihood that the coefficient of a variable in regression is non zero.
The p-value is: The probability of observing the calculated value of the test statistic if the null hypothesis is true

p-values smaller than our chosen significance level (usually 0.05) indicate variables that should be in our final model.

P-values larger than our significance level may be left out of the model.

Nullhüpotees ( H0 või H0 ) – konservatiivne väide, mis eeldab tavaliselt, et muutusi ei ole, erinevus puudub jms. 

Alati määratakse kindlaks ülempiir tõenäosusele teha esimest liiki viga. Taolist
ülempiiri nimetatakse olulisusenivooks ja tähistatakse  (alfa, significance level).
Vähimat olulisusenivood, mille korral me saame alternatiivse hüpoteesi vastu võtta,
nimetatakse olulisustõenäosuseks ja tähistatakse p (significance probability, pvalue). Kui olulisustõenäosus on väiksem kui meie poolt valitud olulisuse nivoo,
võime H1 vastu võtta. Teaduskirjanduses on saanud tavaks valida =0.05 või 0.01.

 

Posted in Machine Learning

RF12BDP + ATMEGA328P-PU toimimas proto-plaadil

Posted on March 31, 2013 by margusja

Torkisin raadio plaadile ja progesin ATMEGA328P-PU. Oh üllatust toimis 🙂 Nüüd saab ka kokku joota hiljem.

2013-03-31 21.51.59

Posted in IT

Centos – how to purge swap on the fly

Posted on March 22, 2013 by margusja

[root@vm37 ~]# free -m
total used free shared buffers cached
Mem: 3881 3383 498 0 89 879
-/+ buffers/cache: 2415 1466
Swap: 991 53 938
[root@vm37 ~]# swapoff -a && swapon -a
[root@vm37 ~]# free -m
total used free shared buffers cached
Mem: 3881 3438 443 0 90 880
-/+ buffers/cache: 2467 1414
Swap: 991 0 991
[root@vm37 ~]#

Posted in Linux

Posts navigation

Older posts
Newer posts

The Master

Categories

  • Apache
  • Apple
  • Assembler
  • Audi
  • BigData
  • BMW
  • C
  • Elektroonika
  • Fun
  • Hadoop
  • help
  • Infotehnoloogia koolis
  • IOT
  • IT
  • IT eetilised
  • Java
  • Langevarjundus
  • Lapsed
  • lastekodu
  • Linux
  • M-401
  • Mac
  • Machine Learning
  • Matemaatika
  • Math
  • MSP430
  • Muusika
  • neo4j
  • openCL
  • Õpetaja identiteet ja tegevusvõimekus
  • oracle
  • PHP
  • PostgreSql
  • ProM
  • R
  • Turvalisus
  • Varia
  • Windows
Proudly powered by WordPress | Theme: micro, developed by DevriX.