Empirische regel
Wat is de empirische regel?
De empirische regel, ook wel de drie-sigma-regel of 68-95-99.7-regel genoemd, is een statistische regel die stelt dat voor een normale verdeling bijna alle geobserveerde gegevens binnen drie standaarddeviaties (aangeduid met σ) van de gemiddelde of gemiddelde (aangeduid met µ).
In het bijzonder voorspelt de empirische regel dat 68% van de waarnemingen valt binnen de eerste standaarddeviatie (µ ± σ), 95% binnen de eerste twee standaarddeviaties (µ ± 2σ) en 99,7% binnen de eerste drie standaarddeviaties (µ ± 3σ).
Belangrijkste leerpunten
- De empirische regel stelt dat 99,7% van de waargenomen gegevens na een normale verdeling binnen 3 standaarddeviaties van het gemiddelde ligt.
- Volgens deze regel valt 68% van de gegevens binnen één standaarddeviatie, 95% procent binnen twee standaarddeviaties en 99,7% binnen drie standaarddeviaties van het gemiddelde.
- Drie-sigma-limieten die de empirische regel volgen, worden gebruikt om de bovenste en onderste controlegrenzen vast te stellen in statistische kwaliteitscontrolekaarten en in risicoanalyses zoals VaR.
De empirische regel begrijpen
De empirische regel wordt vaak gebruikt in statistieken voor het voorspellen van eindresultaten. Na berekening van de standaarddeviatie en voordat exacte gegevens worden verzameld, kan deze regel worden gebruikt als een ruwe schatting van de uitkomst van de op handen zijnde gegevens die moeten worden verzameld en geanalyseerd.
Deze kansverdeling kan dus worden gebruikt als een tussentijdse heuristiek, aangezien het verzamelen van de juiste gegevens tijdrovend of in sommige gevallen zelfs onmogelijk kan zijn. Dergelijke overwegingen spelen een rol wanneer een bedrijf zijn kwaliteitscontrolemaatregelen herziet of zijn risicoblootstelling evalueert. Het in de volksmond gebruikte risicomiddel dat bekend staat als Value-at-Risk (VaR) gaat er bijvoorbeeld van uit dat de kans op risicogebeurtenissen een normale verdeling volgt.
De empirische regel wordt ook gebruikt als een grove manier om de “normaliteit” van een distributie te testen. Als te veel datapunten buiten de drie standaarddeviatie-grenzen vallen, suggereert dit dat de verdeling niet normaal is en in plaats daarvan scheef kan lopen of een andere verdeling kan volgen.
De empirische regels zijn ook bekend als de three-sigma-regel, aangezien “three-sigma” verwijst naar een statistische verdeling van gegevens binnen drie standaarddeviaties van het gemiddelde op een normale verdeling ( klokkromme ), zoals aangegeven door de onderstaande figuur.
Voorbeelden van de empirische regel
Laten we aannemen dat een populatie dieren in een dierentuin normaal verdeeld is. Elk dier wordt gemiddeld 13,1 jaar oud (gemiddeld) en de standaarddeviatie van de levensduur is 1,5 jaar. Als iemand wil weten hoe groot de kans is dat een dier langer dan 14,6 jaar zal leven, zou hij de empirische regel kunnen gebruiken. Wetende dat het gemiddelde van de distributie 13,1 jaar oud is, treden de volgende leeftijdscategorieën op voor elke standaarddeviatie:
- Een standaarddeviatie (µ ± σ): (13,1 – 1,5) tot (13,1 + 1,5), of 11,6 tot 14,6
- Twee standaarddeviaties (µ ± 2σ): 13,1 – (2 x 1,5) tot 13,1 + (2 x 1,5), of 10,1 tot 16,1
- Drie standaarddeviaties (µ ± 3σ): 13,1 – (3 x 1,5) tot 13,1 + (3 x 1,5), of 8,6 tot 17,6
De persoon die dit probleem oplost, moet de totale kans berekenen dat het dier 14,6 jaar of langer leeft. De empirische regel laat zien dat 68% van de verdeling binnen één standaarddeviatie ligt, in dit geval van 11,6 tot 14,6 jaar. De resterende 32% van de distributie valt dus buiten dit bereik. De helft ligt boven 14,6 en de andere helft ligt onder 11,6. De kans dat het dier meer dan 14,6 leeft, is dus 16% (berekend als 32% gedeeld door twee).
Als een ander voorbeeld: stel dat een dier in de dierentuin gemiddeld 10 jaar oud wordt, met een standaarddeviatie van 1,4 jaar. Stel dat de dierenverzorger probeert de waarschijnlijkheid te achterhalen dat een dier meer dan 7,2 jaar zal leven. Deze verdeling ziet er als volgt uit:
- Een standaarddeviatie (µ ± σ): 8,6 tot 11,4 jaar
- Twee standaarddeviaties (µ ± 2σ): 7,2 tot 12,8 jaar
- Drie standaarddeviaties ((µ ± 3σ): 5,8 tot 14,2 jaar