24 juni 2021 13:03

Empirische regel

Wat is de empirische regel?

De empirische regel, ook wel de drie-sigma-regel of 68-95-99.7-regel genoemd, is een statistische regel die stelt dat voor een normale verdeling bijna alle geobserveerde gegevens binnen drie standaarddeviaties (aangeduid met σ) van de gemiddelde of gemiddelde (aangeduid met µ).

In het bijzonder voorspelt de empirische regel dat 68% van de waarnemingen valt binnen de eerste standaarddeviatie (µ ± σ), 95% binnen de eerste twee standaarddeviaties (µ ± 2σ) en 99,7% binnen de eerste drie standaarddeviaties (µ ± 3σ).

Belangrijkste leerpunten

  • De empirische regel stelt dat 99,7% van de waargenomen gegevens na een normale verdeling binnen 3 standaarddeviaties van het gemiddelde ligt.
  • Volgens deze regel valt 68% van de gegevens binnen één standaarddeviatie, 95% procent binnen twee standaarddeviaties en 99,7% binnen drie standaarddeviaties van het gemiddelde.
  • Drie-sigma-limieten die de empirische regel volgen, worden gebruikt om de bovenste en onderste controlegrenzen vast te stellen in statistische kwaliteitscontrolekaarten en in risicoanalyses zoals VaR.

De empirische regel begrijpen

De empirische regel wordt vaak gebruikt in statistieken voor het voorspellen van eindresultaten. Na berekening van de standaarddeviatie en voordat exacte gegevens worden verzameld, kan deze regel worden gebruikt als een ruwe schatting van de uitkomst van de op handen zijnde gegevens die moeten worden verzameld en geanalyseerd.

Deze kansverdeling kan dus worden gebruikt als een tussentijdse heuristiek, aangezien het verzamelen van de juiste gegevens tijdrovend of in sommige gevallen zelfs onmogelijk kan zijn. Dergelijke overwegingen spelen een rol wanneer een bedrijf zijn kwaliteitscontrolemaatregelen herziet of zijn risicoblootstelling evalueert. Het in de volksmond gebruikte risicomiddel dat bekend staat als Value-at-Risk (VaR) gaat er bijvoorbeeld van uit dat de kans op risicogebeurtenissen een normale verdeling volgt.

De empirische regel wordt ook gebruikt als een grove manier om de “normaliteit” van een distributie te testen. Als te veel datapunten buiten de drie standaarddeviatie-grenzen vallen, suggereert dit dat de verdeling niet normaal is en in plaats daarvan scheef kan lopen of een andere verdeling kan volgen.

De empirische regels zijn ook bekend als de three-sigma-regel, aangezien “three-sigma” verwijst naar een statistische verdeling van gegevens binnen drie standaarddeviaties van het gemiddelde op een normale verdeling ( klokkromme ), zoals aangegeven door de onderstaande figuur.

Voorbeelden van de empirische regel

Laten we aannemen dat een populatie dieren in een dierentuin normaal verdeeld is. Elk dier wordt gemiddeld 13,1 jaar oud (gemiddeld) en de standaarddeviatie van de levensduur is 1,5 jaar. Als iemand wil weten hoe groot de kans is dat een dier langer dan 14,6 jaar zal leven, zou hij de empirische regel kunnen gebruiken. Wetende dat het gemiddelde van de distributie 13,1 jaar oud is, treden de volgende leeftijdscategorieën op voor elke standaarddeviatie:

  • Een standaarddeviatie (µ ± σ): (13,1 – 1,5) tot (13,1 + 1,5), of 11,6 tot 14,6
  • Twee standaarddeviaties (µ ± 2σ): 13,1 – (2 x 1,5) tot 13,1 + (2 x 1,5), of 10,1 tot 16,1
  • Drie standaarddeviaties (µ ± 3σ): 13,1 – (3 x 1,5) tot 13,1 + (3 x 1,5), of 8,6 tot 17,6

De persoon die dit probleem oplost, moet de totale kans berekenen dat het dier 14,6 jaar of langer leeft. De empirische regel laat zien dat 68% van de verdeling binnen één standaarddeviatie ligt, in dit geval van 11,6 tot 14,6 jaar. De resterende 32% van de distributie valt dus buiten dit bereik. De helft ligt boven 14,6 en de andere helft ligt onder 11,6. De kans dat het dier meer dan 14,6 leeft, is dus 16% (berekend als 32% gedeeld door twee).

Als een ander voorbeeld: stel dat een dier in de dierentuin gemiddeld 10 jaar oud wordt, met een standaarddeviatie van 1,4 jaar. Stel dat de dierenverzorger probeert de waarschijnlijkheid te achterhalen dat een dier meer dan 7,2 jaar zal leven. Deze verdeling ziet er als volgt uit:

  • Een standaarddeviatie (µ ± σ): 8,6 tot 11,4 jaar
  • Twee standaarddeviaties (µ ± 2σ): 7,2 tot 12,8 jaar
  • Drie standaarddeviaties ((µ ± 3σ): 5,8 tot 14,2 jaar

De empirische regel stelt dat 95% van de verdeling binnen twee standaarddeviaties ligt. 5% ligt dus buiten twee standaarddeviaties; de helft is ouder dan 12,8 jaar en de helft is jonger dan 7,2 jaar. De kans om meer dan 7,2 jaar te leven is dus:

95% + (5% / 2) = 97,5%

Veel Gestelde Vragen

Wat is de empirische regel?

In de statistieken stelt de empirische regel dat 99,7% van de gegevens voorkomt binnen drie standaarddeviaties van het gemiddelde binnen een normale verdeling. Daartoe zal 68% van de waargenomen gegevens plaatsvinden binnen de eerste standaarddeviatie, 95% zal plaatsvinden in de tweede standaarddeviatie en 97,5% binnen de derde standaarddeviatie. De empirische regel voorspelt de kansverdeling voor een reeks uitkomsten. 

Hoe wordt de empirische regel gebruikt?

De empirische regel wordt toegepast om te anticiperen op waarschijnlijke uitkomsten in een normale verdeling. Een statisticus zou dit bijvoorbeeld gebruiken om het percentage gevallen te schatten dat in elke standaarddeviatie valt. Bedenk dat de standaarddeviatie 3,1 is en het gemiddelde gelijk is aan 10. In dit geval zou de eerste standaarddeviatie variëren tussen (10 + 3,2) = 13,2 en (10-3,2) = 6,8. De tweede afwijking zou vallen tussen 10 + (2 X 3,2) = 16,4 en 10 – (2 X 3,2) = 3,6, enzovoort. 

Wat zijn de voordelen van de empirische regel?

De empirische regel is gunstig omdat deze dient als een middel om gegevens te voorspellen. Dit geldt met name als het gaat om grote datasets en datasets waarvan de variabelen onbekend zijn. Specifiek in de financiële wereld is de empirische regel relevant voor aandelenkoersen, prijsindexen en logwaarden van forexkoersen, die allemaal de neiging hebben om over een belcurve of normale verdeling te vallen.