Statistiek
Statistiek is het gedeelte van de wiskunde dat zich bezighoudt met grafieken en tabellen. Het wordt ook wel kansrekening genoemd. Een van de eerste wiskundigen die statistische berekeningen heeft gemaakt, is Blaise Pascal
Het werd oorspronkelijk ook wel de "beschrijving van een staat, of een land" genoemd. Deze tak van wiskunde heeft betrekking op het verzamelen, organiseren, analyseren, interpreteren en presenteren van gegevens. Bij het toepassen van statistieken op een wetenschappelijk, industrieel of sociaal probleem is het gebruikelijk om te beginnen met een statistische populatie of een statistisch model te bestuderen. Populaties kunnen verschillende groepen mensen of voorwerpen zijn, zoals "alle mensen die in een land wonen" of "elk atoom waaruit een kristal bestaat". Statistiek behandelt elk onderdeel van gegevens, inclusief de planning van gegevensverzameling in termen van het ontwerp van enquêtes en experimenten .
Wanneer volkstellingsgegevens niet kunnen worden verzameld, verzamelen statistici (diegene die met statistieken werken) gegevens door specifieke experimentontwerpen en enquête-steekproeven te ontwikkelen. Betrouwbare steekproeven zorgen ervoor dat gevolgtrekkingen en conclusies redelijkerwijs kunnen worden uitgebreid van de steekproef naar de populatie als geheel. Er worden dus kleinere groepen mensen bevraagd en de gegevens uit de steekproef, worden aangenomen dat ze kloppen voor de hele bevolking. Dat gebeurt bijvoorbeeld bij de verkiezingen. Enkele mensen worden gevraagd waarop ze gestemd hebben. Hiermee wordt een zogeheten prognose (voorspelling) gemaakt, die aan het begin van de verkiezingsavond al wordt gegeven, nog voor alle stemmen geteld zijn. Uit deze steekproef blijkt dan al hoe het hele land ongeveer gestemd heeft. Pas bij de einduitslag is bekend hoe er precies gestemd is, maar vaak blijkt dat de prognose er niet heel erg ver vanaf zat.
Bij de gegevensanalyse worden twee belangrijke statistische methoden gebruikt:
- beschrijvende statistieken, die gegevens uit een steekproef samenvatten met behulp van indexen zoals het gemiddelde of de standaarddeviatie. Beschrijvende statistiek houdt zich meestal bezig met twee reeksen eigenschappen van een verdeling (steekproef of populatie = bevolkingsgroep)
- inferentiële statistieken, die conclusies trekken uit gegevens die onderhevig zijn aan willekeurige variatie (bijvoorbeeld waarnemingsfouten, steekproefvariatie). Inferenties over wiskundige statistiek worden gemaakt in het kader van de kanstheorie, die zich bezighoudt met de analyse van willekeurige verschijnselen.
Een standaard statistische procedure omvat het verzamelen van gegevens die leiden tot een test van de relatie tussen twee statistische gegevensreeksen, of een gegevensreeks en synthetische (bewerkte) gegevens die zijn ontleend aan een geïdealiseerd model. Bijvoorbeeld een groep mensen bestaat uit mannen en vrouwen van een bepaalde leeftijd. Hieruit kun je de leeftijdsopbouw van een bevolking bepalen. Er wordt een hypothese (prognose, voorspelling) voorgesteld voor de statistische relatie tussen de twee datasets (1. geslacht en 2. leeftijd). In het plaatje kun je zien hoe de geboortegolf (babyboomers) van kort na de Tweede Wereldoorlog zich verplaatst door de jaren heen (eigenlijk dus voor elk jaar een eigen grafiek, maar hier in een filmpje achter elkaar gezet).
Ook meetprocessen die statistische gegevens geven zijn onderhevig aan fouten. Veel van deze fouten worden aangegeven als willekeurig (ruis) of systematisch (bias), maar andere soorten fouten (bijvoorbeeld blunder, zoals wanneer een analist onjuiste eenheden rapporteert) kunnen ook voorkomen. De aanwezigheid van ontbrekende gegevens of censuur kan leiden tot vertekende schattingen en er zijn specifieke technieken ontwikkeld om deze problemen aan te pakken.
In Nederland worden veel van dergelijke bevolkingsonderzoeken gedaan door het Centraal Bureau voor de Statistiek (CBS). Ook Nieuws- en actualiteitenprogramma's maken veel gebruik van statistieken en grafieken om de kijker uit te leggen wat ons te verwachten staat. Vaak wordt in thematische kaarten aangegeven hoe de spreiding is van bepaalde meetgegevens. Een weerkaart is daar een goed voorbeeld van. Per weerstation verspreid over de hele wereld worden gegevens van temperatuur, zonneschijn, neerslag luchtdruk enzovoorts gemeten, en aan elkaar doorgegeven. Deels met statistieken kan er een weermodel worden gemaakt die voorspelt hoe het weer zich de komende tijd gaat gedragen. Bekijk je de gegevens per plaats (meetstation), dan kun je daaruit bijvoorbeeld een temperatuurverloop in een heel jaar bekijken ('s zomers warm, 's winters koud). Vergelijk je dat over meerdere jaren dan kun je een jaargemiddelde per dag berekenen (de zogeheten normaal temperatuur). Al ruim 100 jaar worden er door het KNMI in de Bilt metingen gedaan. Als je alle temperatuurmetingen van bijvoorbeeld 1 januari, 13 uur 's middags, bij elkaar optelt en deelt door het aantal waarnemingen op die datum en dat tijdstip, dan heb je het gemiddelde. Voor 1 januari is het overdag gemiddeld 6,1 graden en 's nachts 0,9 graden. Aan de hand van dit soort metingen en berekeningen wordt duidelijk dat er er een verschuiving plaats vind, die (mogelijk) wijst op klimaatverandering.
Meetpunten in een grafiek
Je kunt bijvoorbeeld het verkeer tellen in een bepaalde straat en dat over de hele dag heen. Per bijvoorbeeld elke 5 minuten geef je het aantal auto's weer dat is langsgekomen. Dit kun je dan in een grafiek zetten. Op de x-as komt de tijd te staan en op de Y-as het aantal auto's dat langs komt. 's Ochtends vroeg is het nog heel rustig, en in de spits zie je het verkeer drukker worden. Doe je dit voor één dag, dan is het meer een steekproef. Het maakt echter nogal uit of je dit in de vakantie doet of daarbuiten met slechter weer. Dan zou je dus meerdere keren zo'n telling moeten doen. De metingen worden weergegeven als punten en door de puntenwolk heen kan een trendlijn of mediaan getrokken worden.
Termen
- Deciel
- Mediaan: Middelste getal in een rij waarnemingen in opklimmende volgorde.
- Modus: Meest voorkomende getal in een rij waarnemingen.
- Standaardafwijking
- Verwachte waarde: de gemiddelde verwachte uitkomst van een grote hoeveelheid statistische waarnemingen, bijvoorbeeld het gooien met een dobbelsteen.
Dobbelsteenproef
Je kunt met twee dobbelstenen telkens gooien en kijken wat er valt. De som van beide dobbelstenen is het meetgetal. Dus gooi je een 3 (geel) en een 4 (blauw), dan is het meetgetal 7 (3+4). De kans dat je een 1 met één dobbelsteen gooit is 1 op de 6 ofwel 1/6. Want een dobbelsteen heeft immers zes kanten. Met twee dobbelstenen is het kleinste meetgetal 2 (1+1) en het grootste meetgetal 12 (6+6). Het meetgetal 7 zal vaker voorkomen, want je kunt dit maken uit 1+6, 2+5, 3+4, 4+3, 5+2 en 6+1. In de afbeelding kun je dit ook zien.
Wiskunde | |||
---|---|---|---|
Algebra · Meetkunde · Goniometrie · Rekenkunde · Statistiek · Kansberekening |