Meil on andmehulk kus on 100 rida ja kaks veergu – suitsetab (1/0) ja vanus millal uuritav suri:
1 – 68
0 – 70
jne…
Kogu andmehulga pealt vanuse keskmine on – 72.723
Suitsetajate keskmine vanus antud andmehulgas on 70.192
Mittesuitsetajate keskmine vanus antud andmehulgas on 75.254 (Suitsetamine tõesti rikub tervist)
Antud andmehulk on lihtne, kui proovida ennustada keskmist eluiga SME valemiga mean((y – h) ^ 2) kus y on vektor, mis sisaldab vanuseid, siis saame vastuseks väärtuse, mis väljendab y asukohta x teljest.
Kui nüüd antud andmehulga pealt teha see arvestus siis saame vastuseks 32.991, mis ongi squared mean error.
Kuna tegu on ruutfunktsiooniga, siis on seda kerge ka visualiseerida –
Võtame hüpoteesid (vanused, mis võiksid olla antud andmehulga põhjal keskmised), mida me proovime:
63 – 127.451
64 – 109.005
65 – 92.559
66 – 78.113
67 – 65.667
68 – 55.221
69 – 46.775
70 – 40.329
71 – 35.883
72 – 33.437
73 – 32.991
74 – 34.545
75 – 38.099
76 – 43.653
77 – 51.207
78 – 60.761
79 – 72.315
80 – 85.869
81 – 101.423
82 – 118.977
83 – 138.531
Kuna antud andmehulk on lihtne, siis SME ja keskmine antud vektorist langevad suhteliselt kokku