Tilastotiede http://paavovayrynen.puheenvuoro.uusisuomi.fi/taxonomy/term/178345/all Wed, 11 Jul 2018 14:20:05 +0300 fi Mielipidemittaukset - tilastotieteen perusteita http://juliuslaurilehtinen.puheenvuoro.uusisuomi.fi/258094-mielipidemittaukset-tilastotieteen-perusteita <p>Eräs silmiinpistävä piirre poliittisessa keskustelussa on joidenkin ryhmien epäluuloinen suhtautuminen mielipidemittauksiin. Moinen tiedevastaisuus on männävuosina levinnyt myös suomalaiseen kontekstiin erityisesti perussuomalaisten ajamana. Koska ihmiskuvani on positiivinen, lähden siitä olettamuksesta, että yllä kuvattu johtuu yksinkertaisesti tietämättömyydestä. Ei täysin oikeutetusti olla tutustuttu matematiikkaan mielipidemittausten takana muun työnteon ja elämisen ohessa, eikä sosiaalisesta kuplautumisesta johtuen tulokset aina vastaa omia käsityksiä aiheena olevasta asiasta.</p><p>Seuraavassa käydään läpi mielipidemittausten perustava toimintaperiaate, sekä havainnollistetaan esimerkin avulla miten mielipidemittausta ei kannata toteuttaa todellisuutta vastaamattomien tuloksien välttämiseksi.</p><p>Mielipidemittausten yksinkertaisena tarkoituksena on siis kartoittaa halutun ryhmän, esimerkiksi suomalaisten, mielipidettä tiettyyn aiheeseen. Tutuimmat mielipidemittaukset lienevät kuukausittaiset puoluegallupit, jotka julkaistaan maamme tiedotusvälineistössä.</p><p>Jokaiselta suomalaiselta erikseen kysyminen olisi kuitenkin äärimmäisen vaivalloista, kallista ja aikaa vievää. Onneksemme mielipiteen tarkahko kartoitus onnistuu myös kysymällä mielipidettä pienemmältä, <em>satunnaisesti valitulta </em>joukolta. Se, miksi esimerkiksi tuhannelta ihmiseltä kysymällä saadaan suhteellisen tarkasti selvitettyä miljoonien ihmisten mielipidejakauma, havainnollistuu helposti seuraavalla intuitiivisella esimerkillä.</p><p>Ajattele, että sinun tulisi selvittää kruunien ja klaavojen jakauma, kun kolikkoa heitetään miljoona kertaa. Oletettavasti pystytään jo ennen heittoa arvioimaan, että jakauma on noin puolet ja puolet, kolikonheiton matematiikka kun on kohtuullisen hyvin tunnettua. Tahdot kuitenkin selvittää asian itse.</p><p>Ensimmäisellä heitolla saat joko kruunan tai klaavan. Tällöin jakauma on 1-0, mikä on suhteellisen kaukana arvioidusta 50-50 jakaumasta. Kolmen heiton jälkeen tilanne on joko 2-1 tai 3-0, mitkä nekin ovat suhteellisen kaukana siitä. Kymmenen heiton jälkeen tilanne on todennäköisesti jo tasaisempi. Sadan heiton jälkeen todennäköisesti jo huomattavasti lähempänä 50 kruunaa ja 50 klaavaa. Tuhannen heiton jälkeen ollaan suhteellisen suurella varmuudella erittäin lähellä miljoonan kolikonheiton jakaumaa.</p><p>Voit itse testata.</p><p>Yllä kuvattua periaatetta kutsutaan tilastotieteen tutkimuksessa suurten lukujen laiksi. Sen mukaan kun toistetaan satunnaista suoritetta uudestaan, suuremmalla määrällä vastausten keskiarvo hakeutuu kohti &quot;oikeata&quot; arvoa. Siis satunnaisen kolikon heitossa noin puolet kruunaa, puolet klaavaa. Mielipidemittauksissa tarpeeksi monelta satunnaisesti valitulta kysymällä puolueiden tai ehdokkaiden kannatus asettuu lähelle niiden tosiasiallista kannatusta.</p><p>Samaa periaatetta siis käytetään mielipidemittausten yhteydessä. Koska ei voida kysyä miljoonilta suomalaisäänestäjiltä, kysytään pienemmältä satunnaiselta ryhmältä, joka yllä kuvatun periaatteen mukaisesti antaa suhteellisen tarkan kuvan oikeasta tilanteesta.</p><p>Useammalta ihmiseltä kysyminen on tietenkin aina parempi. Viimeistään kahden tuhannen vastaajan kohdalla kuitenkin hyöty alkaa olla niin marginaalinen, ettei saavutettu muutaman prosentin kymmenyksen tarkennus ole keräyskustannusten arvoinen. Vastaavasti, jos olet heittänyt kolikkoa jo tuhat kertaa, seuraavat viisisataa heittoa tuskin muuttavat jakaumaa merkittävästi mihinkään suuntaan, mutta aiheuttavat kosolti vaivaa ja vievät rutosti aikaa.</p><p>Se, mikä on tarpeeksi suuri otanta, on matemaattisen yhtälön tulosta. Nyrkkisääntönä Suomen neljän ja puolen miljoonan äänioikeutetun mielipiteen kartoitus onnistuu kolmen prosenttiyksikön tarkkuudella, kun mittauksen otanta on tuhat henkilöä.</p><p>Ymmärrettävästi osin keräyskustannuksista johtuen jää mittauksiin muutaman prosenttiyksikön virhemarginaali, jonka sisällä todellinen arvo on 95% luottamuksella.</p><p>&nbsp;</p><hr /><p>&nbsp;</p><p>Läpi tekstin olen painottanut termiä <em>satunnainen</em>. Mielipidemittausten(kin) yhteydessä otannan on tärkeänä osana oltava täysin sattumanvarainen. Kolikonheitossa kolikon on niin ikään oltava satunnainen kolikko, ei esimerkiksi ennalta valittu ja muokattu päätymään vain noin joka neljännellä heitolla klaavaksi. Tästä syystä esimerkiksi internetissä toteutetut klikkauskyselyt eivät yleensä ole kovinkaan tarkkoja, vaan vääristävät otannan kysymällä yleisöltä, joka ei vastaa Suomen neljän ja puolen miljoonan äänestäjäkuntaa.</p><p>Erinomainen esimerkki yllä mainitusta on viime päivinä jälleen aktiivisuutta ja huomiota kerännyt Facebook-sivusto <a href="https://www.facebook.com/GallupSuomi/">Gallup - Suomi</a>. Samainen sivusto muun muassa <a href="https://pbs.twimg.com/media/DhzpbMZX0AAuFk4.jpg">ennusti</a> kyselyineen alkuvuoden presidentinvaaleissa Sauli Niinistölle 12% ääniosuutta. Lisäksi <a href="https://pbs.twimg.com/media/DhzpaqRXkAAImsi.jpg">uskottiin</a> Laura Huhtasaaren saavan 88% äänistä Sauli Niinistöä vastaan.</p><p>Huolimatta suhteellisen suuresta otannasta (yli viisi tuhatta), on otanta ymmärrettävästi vinoutunut, sillä se kysyy mielipidettä käytännössä Facebookia käyttäviltä, kyseistä sivua seuraavilta ihmisiltä. Jo yksistään internetin sekä Facebookin käyttäjät eivät vastaa Suomen äänestäjäkuntaa, vaan ovat keskimääräistä nuorempaa sekä miesvoittoisempaa. Lisäksi kyseisen sivun lukijakunnan jakauma tuskin vastaa edes Facebookin käyttäjäjakaumaa.</p><p>Ymmärrettävästi yllä olevasta johtuen sivuston mielipidemittaus Niinistön 12% ääniosuuksineen oli virheellinen kymmenillä prosenteilla. Kyseessä on havainnollistava osoitus siitä, miksi vastaavat internet-kyselyt harvoin tarjoavat totuudenmukaista kuvaa käsiteltävästä aiheesta.</p><div class="field field-type-number-integer field-field-first-published"> <div class="field-items"> <div class="field-item odd"> 0 </div> </div> </div> Eräs silmiinpistävä piirre poliittisessa keskustelussa on joidenkin ryhmien epäluuloinen suhtautuminen mielipidemittauksiin. Moinen tiedevastaisuus on männävuosina levinnyt myös suomalaiseen kontekstiin erityisesti perussuomalaisten ajamana. Koska ihmiskuvani on positiivinen, lähden siitä olettamuksesta, että yllä kuvattu johtuu yksinkertaisesti tietämättömyydestä. Ei täysin oikeutetusti olla tutustuttu matematiikkaan mielipidemittausten takana muun työnteon ja elämisen ohessa, eikä sosiaalisesta kuplautumisesta johtuen tulokset aina vastaa omia käsityksiä aiheena olevasta asiasta.

Seuraavassa käydään läpi mielipidemittausten perustava toimintaperiaate, sekä havainnollistetaan esimerkin avulla miten mielipidemittausta ei kannata toteuttaa todellisuutta vastaamattomien tuloksien välttämiseksi.

Mielipidemittausten yksinkertaisena tarkoituksena on siis kartoittaa halutun ryhmän, esimerkiksi suomalaisten, mielipidettä tiettyyn aiheeseen. Tutuimmat mielipidemittaukset lienevät kuukausittaiset puoluegallupit, jotka julkaistaan maamme tiedotusvälineistössä.

Jokaiselta suomalaiselta erikseen kysyminen olisi kuitenkin äärimmäisen vaivalloista, kallista ja aikaa vievää. Onneksemme mielipiteen tarkahko kartoitus onnistuu myös kysymällä mielipidettä pienemmältä, satunnaisesti valitulta joukolta. Se, miksi esimerkiksi tuhannelta ihmiseltä kysymällä saadaan suhteellisen tarkasti selvitettyä miljoonien ihmisten mielipidejakauma, havainnollistuu helposti seuraavalla intuitiivisella esimerkillä.

Ajattele, että sinun tulisi selvittää kruunien ja klaavojen jakauma, kun kolikkoa heitetään miljoona kertaa. Oletettavasti pystytään jo ennen heittoa arvioimaan, että jakauma on noin puolet ja puolet, kolikonheiton matematiikka kun on kohtuullisen hyvin tunnettua. Tahdot kuitenkin selvittää asian itse.

Ensimmäisellä heitolla saat joko kruunan tai klaavan. Tällöin jakauma on 1-0, mikä on suhteellisen kaukana arvioidusta 50-50 jakaumasta. Kolmen heiton jälkeen tilanne on joko 2-1 tai 3-0, mitkä nekin ovat suhteellisen kaukana siitä. Kymmenen heiton jälkeen tilanne on todennäköisesti jo tasaisempi. Sadan heiton jälkeen todennäköisesti jo huomattavasti lähempänä 50 kruunaa ja 50 klaavaa. Tuhannen heiton jälkeen ollaan suhteellisen suurella varmuudella erittäin lähellä miljoonan kolikonheiton jakaumaa.

Voit itse testata.

Yllä kuvattua periaatetta kutsutaan tilastotieteen tutkimuksessa suurten lukujen laiksi. Sen mukaan kun toistetaan satunnaista suoritetta uudestaan, suuremmalla määrällä vastausten keskiarvo hakeutuu kohti "oikeata" arvoa. Siis satunnaisen kolikon heitossa noin puolet kruunaa, puolet klaavaa. Mielipidemittauksissa tarpeeksi monelta satunnaisesti valitulta kysymällä puolueiden tai ehdokkaiden kannatus asettuu lähelle niiden tosiasiallista kannatusta.

Samaa periaatetta siis käytetään mielipidemittausten yhteydessä. Koska ei voida kysyä miljoonilta suomalaisäänestäjiltä, kysytään pienemmältä satunnaiselta ryhmältä, joka yllä kuvatun periaatteen mukaisesti antaa suhteellisen tarkan kuvan oikeasta tilanteesta.

Useammalta ihmiseltä kysyminen on tietenkin aina parempi. Viimeistään kahden tuhannen vastaajan kohdalla kuitenkin hyöty alkaa olla niin marginaalinen, ettei saavutettu muutaman prosentin kymmenyksen tarkennus ole keräyskustannusten arvoinen. Vastaavasti, jos olet heittänyt kolikkoa jo tuhat kertaa, seuraavat viisisataa heittoa tuskin muuttavat jakaumaa merkittävästi mihinkään suuntaan, mutta aiheuttavat kosolti vaivaa ja vievät rutosti aikaa.

Se, mikä on tarpeeksi suuri otanta, on matemaattisen yhtälön tulosta. Nyrkkisääntönä Suomen neljän ja puolen miljoonan äänioikeutetun mielipiteen kartoitus onnistuu kolmen prosenttiyksikön tarkkuudella, kun mittauksen otanta on tuhat henkilöä.

Ymmärrettävästi osin keräyskustannuksista johtuen jää mittauksiin muutaman prosenttiyksikön virhemarginaali, jonka sisällä todellinen arvo on 95% luottamuksella.

 


 

Läpi tekstin olen painottanut termiä satunnainen. Mielipidemittausten(kin) yhteydessä otannan on tärkeänä osana oltava täysin sattumanvarainen. Kolikonheitossa kolikon on niin ikään oltava satunnainen kolikko, ei esimerkiksi ennalta valittu ja muokattu päätymään vain noin joka neljännellä heitolla klaavaksi. Tästä syystä esimerkiksi internetissä toteutetut klikkauskyselyt eivät yleensä ole kovinkaan tarkkoja, vaan vääristävät otannan kysymällä yleisöltä, joka ei vastaa Suomen neljän ja puolen miljoonan äänestäjäkuntaa.

Erinomainen esimerkki yllä mainitusta on viime päivinä jälleen aktiivisuutta ja huomiota kerännyt Facebook-sivusto Gallup - Suomi. Samainen sivusto muun muassa ennusti kyselyineen alkuvuoden presidentinvaaleissa Sauli Niinistölle 12% ääniosuutta. Lisäksi uskottiin Laura Huhtasaaren saavan 88% äänistä Sauli Niinistöä vastaan.

Huolimatta suhteellisen suuresta otannasta (yli viisi tuhatta), on otanta ymmärrettävästi vinoutunut, sillä se kysyy mielipidettä käytännössä Facebookia käyttäviltä, kyseistä sivua seuraavilta ihmisiltä. Jo yksistään internetin sekä Facebookin käyttäjät eivät vastaa Suomen äänestäjäkuntaa, vaan ovat keskimääräistä nuorempaa sekä miesvoittoisempaa. Lisäksi kyseisen sivun lukijakunnan jakauma tuskin vastaa edes Facebookin käyttäjäjakaumaa.

Ymmärrettävästi yllä olevasta johtuen sivuston mielipidemittaus Niinistön 12% ääniosuuksineen oli virheellinen kymmenillä prosenteilla. Kyseessä on havainnollistava osoitus siitä, miksi vastaavat internet-kyselyt harvoin tarjoavat totuudenmukaista kuvaa käsiteltävästä aiheesta.

]]>
40 http://juliuslaurilehtinen.puheenvuoro.uusisuomi.fi/258094-mielipidemittaukset-tilastotieteen-perusteita#comments gallup matematiikka Mielipidekysely Perussuomalaiset Tilastotiede Wed, 11 Jul 2018 11:20:05 +0000 Julius Lehtinen http://juliuslaurilehtinen.puheenvuoro.uusisuomi.fi/258094-mielipidemittaukset-tilastotieteen-perusteita