Distributie van steekproeven
Wat is een steekproefverdeling?
Een steekproefverdeling is een kansverdeling van een statistiek die is verkregen uit een groter aantal steekproeven uit een specifieke populatie. De steekproefverdeling van een bepaalde populatie is de verdeling van frequenties van een reeks verschillende uitkomsten die mogelijk zouden kunnen optreden voor een statistiek van een populatie.
In statistieken is een populatie de volledige pool waaruit een statistische steekproef wordt getrokken. Een populatie kan verwijzen naar een hele groep mensen, objecten, gebeurtenissen, ziekenhuisbezoeken of metingen. Een populatie kan dus worden beschouwd als een geaggregeerde observatie van proefpersonen, gegroepeerd op basis van een gemeenschappelijk kenmerk.
- Een steekproefverdeling is een statistiek die wordt verkregen door herhaalde steekproeven uit een grotere populatie.
- Het beschrijft een reeks mogelijke uitkomsten die van een statistiek, zoals het gemiddelde of de modus van een variabele, aangezien het echt een populatie is.
- De meeste gegevens die door onderzoekers zijn geanalyseerd, zijn feitelijk afkomstig uit steekproeven en niet uit populaties.
Inzicht in steekproefdistributie
Veel gegevens die worden verzameld en gebruikt door academici, statistici, onderzoekers, marketeers, analisten, enz. Zijn in feite steekproeven, geen populaties. Een steekproef is een subset van een populatie. Een medisch onderzoeker die bijvoorbeeld het gemiddelde gewicht van alle baby’s die tussen 1995 en 2005 in Noord-Amerika zijn geboren, wil vergelijken met baby’s die in dezelfde periode in Zuid-Amerika zijn geboren, kan niet binnen een redelijke tijd de gegevens verzamelen voor de hele populatie van meer dan een miljoen bevallingen die plaatsvonden gedurende de periode van tien jaar. Hij zal in plaats daarvan alleen het gewicht van bijvoorbeeld 100 baby’s in elk continent gebruiken om een conclusie te trekken. Het gewicht van 200 gebruikte baby’s is de steekproef en het berekende gemiddelde gewicht is het steekproefgemiddelde.
Stel nu dat in plaats van slechts één steekproef van 100 pasgeboren gewichten van elk continent te nemen, de medisch onderzoeker herhaaldelijk willekeurige steekproeven neemt van de algemene bevolking en het steekproefgemiddelde voor elke steekproefgroep berekent. Dus voor Noord-Amerika haalt hij als volgt gegevens op voor 100 pasgeboren gewichten geregistreerd in de VS, Canada en Mexico: vier 100 monsters van geselecteerde ziekenhuizen in de VS, vijf 70 monsters uit Canada en drie 150 records uit Mexico, voor een totaal van 1200 gewichten pasgeboren baby’s gegroepeerd in 12 sets. Hij verzamelt ook steekproefgegevens van 100 geboortegewichten uit elk van de 12 landen in Zuid-Amerika.
Elke steekproef heeft zijn eigen steekproefgemiddelde en de verdeling van de steekproefgemiddelden staat bekend als de steekproefverdeling.
Het gemiddelde gewicht dat voor elke steekproefset wordt berekend, is de steekproefverdeling van het gemiddelde. Niet alleen het gemiddelde kan uit een steekproef worden berekend. Andere statistieken, zoals de standaarddeviatie, variantie, proportie en bereik, kunnen worden berekend op basis van steekproefgegevens. De standaarddeviatie en variantie meten de variabiliteit van de steekproefverdeling.
Het aantal waarnemingen in een populatie, het aantal waarnemingen in een steekproef en de procedure die wordt gebruikt om de steekproefsets te trekken, bepalen de variabiliteit van een steekproefverdeling. De standaarddeviatie van een steekproefverdeling wordt de standaardfout genoemd. Hoewel het gemiddelde van een steekproefverdeling gelijk is aan het gemiddelde van de populatie, hangt de standaardfout af van de standaarddeviatie van de populatie, de omvang van de populatie en de omvang van de steekproef.
Weten hoe uit elkaar het gemiddelde van elk van de steekproevenreeksen van elkaar en van het populatiegemiddelde zijn, geeft een indicatie van hoe dicht het steekproefgemiddelde bij het populatiegemiddelde ligt. De standaardfout van de steekproefverdeling neemt af naarmate de steekproefomvang toeneemt.
Speciale overwegingen
Een populatie of een steekproefreeks van getallen heeft een normale verdeling. Omdat een steekproefverdeling echter meerdere sets waarnemingen omvat, hoeft deze niet noodzakelijk een klokvormige vorm te hebben.
In navolging van ons voorbeeld heeft het gemiddelde populatiegewicht van baby’s in Noord-Amerika en Zuid-Amerika een normale verdeling omdat sommige baby’s ondergewicht (onder het gemiddelde) of overgewicht (boven het gemiddelde) zullen hebben, en de meeste baby’s daartussenin vallen (rond het gemiddelde). ). Als het gemiddelde gewicht van pasgeborenen in Noord-Amerika zeven pond is, zal het gemiddelde gewicht van het monster in elk van de 12 sets monsterwaarnemingen die voor Noord-Amerika zijn geregistreerd, ook bijna zeven pond zijn.
Als u echter elk van de gemiddelden die in elk van de 1.200 steekproefgroepen zijn berekend, in een grafiek plaatst, kan de resulterende vorm resulteren in een uniforme verdeling, maar het is moeilijk met zekerheid te voorspellen wat de werkelijke vorm zal blijken te zijn. Hoe meer monsters de onderzoeker gebruikt uit de populatie van meer dan een miljoen gewichtscijfers, hoe meer de grafiek een normale verdeling begint te vormen.