24 juni 2021 20:42
Wat is de normale verdeling?
De formule voor de normale verdeling is gebaseerd op twee eenvoudige parameters – gemiddelde en standaarddeviatie – die de kenmerken van een bepaalde dataset kwantificeren.
Terwijl het gemiddelde de “centrale” of gemiddelde waarde van de gehele dataset aangeeft, geeft de standaarddeviatie de “spreiding” of variatie van gegevenspunten rond die gemiddelde waarde aan.
Belangrijkste leerpunten
- De formule voor de normale verdeling is gebaseerd op twee eenvoudige parameters – gemiddelde en standaarddeviatie – die de kenmerken van een bepaalde dataset kwantificeren.
- Om een uniforme standaardmethode voor eenvoudige berekeningen en toepasbaarheid op real-world problemen mogelijk te maken, werd de standaardconversie naar Z-waarden geïntroduceerd, die het onderdeel vormen van de normale distributietabel.
- Eigenschappen van een normale verdeling zijn onder meer: de normale curve is symmetrisch ten opzichte van het gemiddelde; het gemiddelde bevindt zich in het midden en verdeelt het gebied in twee helften; het totale oppervlak onder de curve is gelijk aan 1 voor gemiddelde = 0 en stdev = 1; en de verdeling wordt volledig beschreven door zijn gemiddelde en stddev.
- Normale distributietabellen worden gebruikt bij de handel in effecten om uptrends of downtrends, ondersteunings- of weerstandsniveaus en andere technische indicatoren te helpen identificeren.
Voorbeeld van normale distributie
Beschouw de volgende 2 datasets:
- Dataset 1 = {10, 10, 10, 10, 10, 10, 10, 10, 10, 10}
- Dataset 2 = {6, 8, 10, 12, 14, 14, 12, 10, 8, 6}
Voor Dataset1, gemiddelde = 10 en standaarddeviatie (stddev) = 0
Voor Dataset2, gemiddelde = 10 en standaarddeviatie (stddev) = 2,83
Laten we deze waarden plotten voor DataSet1:
Evenzo voor DataSet2:
De rode horizontale lijn in beide grafieken geeft de “gemiddelde” of gemiddelde waarde van elke dataset aan (10 in beide gevallen). De roze pijlen in de tweede grafiek geven de spreiding of variatie van gegevenswaarden ten opzichte van de gemiddelde waarde aan. Dit wordt weergegeven door de standaarddeviatiewaarde van 2,83 in het geval van DataSet2. Aangezien DataSet1 alle waarden hetzelfde heeft (elk 10) en geen variaties, is de stddev-waarde nul en zijn er dus geen roze pijlen van toepassing.
De stddev-waarde heeft een aantal significante en nuttige kenmerken die uitermate nuttig zijn bij data-analyse. Voor een normale verdeling zijn de gegevenswaarden symmetrisch verdeeld aan weerszijden van het gemiddelde. Voor elke normaal verdeelde dataset, het plotten van een grafiek met stddev op de horizontale as en het aantal datawaarden op de verticale as, wordt de volgende grafiek verkregen.
Eigenschappen van een normale distributie
- De normale curve is symmetrisch ten opzichte van het gemiddelde;
- Het gemiddelde bevindt zich in het midden en verdeelt het gebied in twee helften;
- Het totale oppervlak onder de curve is gelijk aan 1 voor gemiddelde = 0 en stdev = 1;
- De distributie wordt volledig beschreven door zijn gemiddelde en stddev
Zoals te zien is in de bovenstaande grafiek, vertegenwoordigt stddev het volgende:
- 68,3% van de gegevenswaarden valt binnen 1 standaarddeviatie van het gemiddelde (-1 tot +1)
- 95,4% van de gegevenswaarden valt binnen 2 standaarddeviaties van het gemiddelde (-2 tot +2)
- 99,7% van de gegevenswaarden valt binnen 3 standaarddeviaties van het gemiddelde (-3 tot +3)
Het gebied onder de klokvormige curve, gemeten, geeft de gewenste waarschijnlijkheid van een bepaald bereik aan:
- kleiner dan X: bijv. waarschijnlijkheid dat de gegevenswaarden kleiner zijn dan 70
- groter dan X: bijv. waarschijnlijkheid dat gegevenswaarden groter zijn dan 95
- tussen X 1 en X 2 : bijv. waarschijnlijkheid van datawaarden tussen 65 en 85
waarbij X een waarde is die van belang is (voorbeelden hieronder).
Het plotten en berekenen van het gebied is niet altijd handig, omdat verschillende datasets verschillende gemiddelde en stddev-waarden hebben. Om een uniforme standaardmethode voor eenvoudige berekeningen en toepasbaarheid op real-world problemen mogelijk te maken, werd de standaardconversie naar Z-waarden geïntroduceerd, die het onderdeel vormen van de normale distributietabel.
Z = (X – gemiddelde) / stddev, waarbij X de willekeurige variabele is.
In wezen dwingt deze conversie het gemiddelde en stddev te standaardiseren op respectievelijk 0 en 1, waardoor een standaard gedefinieerde set Z-waarden (uit de normale distributietabel ) kan worden gebruikt voor eenvoudige berekeningen. Een momentopname van een standaard z-waardetabel met waarschijnlijkheidswaarden is als volgt:
Om de kans met betrekking tot de z-waarde van 0,239865 te vinden, rondt u deze eerst af op 2 decimalen (dus 0,24). Controleer vervolgens de eerste 2 significante cijfers (0,2) in de rijen en het minst significante cijfer (resterende 0,04) in de kolom. Dat leidt tot een waarde van 0,09483.
De volledige normale verdeling tafel, met een nauwkeurigheid tot 5 komma voor waarschijnlijkheid waarden (inclusief die voor negatieve waarden), kunnen worden gevonden hier.
Laten we enkele voorbeelden uit de praktijk bekijken. De lengte van individuen in een grote groep volgt een normaal verspreidingspatroon. Stel dat we een set van 100 personen hebben waarvan de lengte wordt geregistreerd en het gemiddelde en de stddev worden berekend op respectievelijk 66 en 6 inch.
Hier zijn een paar voorbeeldvragen die gemakkelijk kunnen worden beantwoord met de z-waardetabel:
Wat is de kans dat een persoon in de groep 70 inch of minder is?
De vraag is om de cumulatieve waarde van P (X <= 70) te vinden, dwz in de gehele dataset van 100, hoeveel waarden tussen 0 en 70 zullen liggen.
Laten we eerst de X-waarde van 70 converteren naar de equivalente Z-waarde.
Z = (X – gemiddelde) / stddev = (70-66) / 6 = 4/6 = 0,66667 = 0,67 (afgerond op 2 decimalen)
We moeten nu P (Z <= 0,67) = 0 vinden. 24857 (uit de z-tabel hierboven)
dwz er is een kans van 24,857% dat een persoon in de groep kleiner dan of gelijk is aan 70 inch.
Maar wacht even – het bovenstaande is onvolledig. Onthoud dat we op zoek zijn naar de waarschijnlijkheid van alle mogelijke hoogtes tot 70, dwz van 0 tot 70. Het bovenstaande geeft u alleen het gedeelte van gemiddelde tot gewenste waarde (dwz 66 tot 70). We moeten de andere helft – van 0 tot 66 – opnemen om tot het juiste antwoord te komen.
Aangezien 0 tot 66 het halve deel vertegenwoordigt (dwz het ene uiterste tot het gemiddelde gemiddelde), is de kans eenvoudig 0,5.
Vandaar de juiste kans dat een persoon 70 inch of minder is = 0,24857 + 0,5 = 0,74857 = 74,857%
Grafisch (door het gebied te berekenen) zijn dit de twee opgetelde regio’s die de oplossing vertegenwoordigen:
Wat is de kans dat een persoon 75 inch of hoger is?
dwz Zoek complementaire cumulatieve P (X> = 75).
Z = (X – gemiddelde) / stddev = (75-66) / 6 = 9/6 = 1,5
P (Z> = 1,5) = 1- P (Z <= 1,5) = 1 – (0,5 + 0,43319) = 0,06681 = 6,681%
Wat is de kans dat een persoon tussen de 52 inch en 67 inch zit?
Zoek P (52 <= X <= 67).
P (52 <= X <= 67) = P [(52-66) / 6 <= Z <= (67-66) / 6] = P (-2,33 <= Z <= 0,17)
= P (Z <= 0,17) –P (Z <= -0,233) = (0,5 + 0,56749) – (.40905) =
Deze normale distributietabel (en z-waarden) wordt vaak gebruikt voor waarschijnlijkheidsberekeningen van verwachte prijsbewegingen op de aandelenmarkt voor aandelen en indices. Ze worden gebruikt in op afstand gebaseerde handel en identificeren opwaartse of neerwaartse trend, technische indicatoren op basis van normale distributieconcepten van gemiddelde en standaarddeviatie.