P-waarde
Wat is de P-waarde?
In statistieken is de p-waarde de waarschijnlijkheid dat er resultaten worden verkregen die minstens zo extreem zijn als de waargenomen resultaten van een statistische hypothesetest, ervan uitgaande dat de nulhypothese correct is. De p-waarde wordt gebruikt als alternatief voor afwijzingspunten om het kleinste significantieniveau te bieden waarop de nulhypothese zou worden verworpen. Een kleinere p-waarde betekent dat er sterker bewijs is voor de alternatieve hypothese.
Belangrijkste leerpunten
- Een p-waarde is een maat voor de waarschijnlijkheid dat een waargenomen verschil door toeval zou kunnen zijn opgetreden.
- Hoe lager de p-waarde, hoe groter de statistische significantie van het waargenomen verschil.
- P-waarde kan worden gebruikt als alternatief voor of naast vooraf geselecteerde betrouwbaarheidsniveaus voor het testen van hypothesen.
Hoe wordt de P-waarde berekend?
P-waarden worden meestal gevonden met p-waardetabellen of spreadsheets / statistische software. Deze berekeningen zijn gebaseerd op de veronderstelde of bekende kansverdeling van de specifieke statistiek die wordt getest. P-waarden worden berekend uit de afwijking tussen de waargenomen waarde en een gekozen referentiewaarde, gegeven de kansverdeling van de statistiek, waarbij een groter verschil tussen de twee waarden overeenkomt met een lagere p-waarde.
Wiskundig wordt de p-waarde berekend met behulp van integraalrekening uit het gebied onder de kansverdelingskromme voor alle waarden van statistieken die ten minste even ver van de referentiewaarde liggen als de waargenomen waarde, ten opzichte van de totale oppervlakte onder de kansverdelingskromme.. In een notendop: hoe groter het verschil tussen twee waargenomen waarden, hoe minder waarschijnlijk het is dat het verschil te wijten is aan een simpele willekeurige kans, en dit wordt weerspiegeld door een lagere p-waarde.
P-waardebenadering van hypothesetests
De p-waardebenadering voor het testen van hypothesen gebruikt de berekende kans om te bepalen of er bewijs is om de nulhypothese te verwerpen. De nulhypothese, ook wel het vermoeden genoemd, is de eerste bewering over een populatie (of gegevensgenererend proces). De alternatieve hypothese stelt of de populatieparameter verschilt van de waarde van de populatieparameter die in het vermoeden wordt vermeld.
In de praktijk wordt vooraf het significantieniveau aangegeven om te bepalen hoe klein de p-waarde moet zijn om de nulhypothese te verwerpen. Omdat verschillende onderzoekers verschillende significantieniveaus gebruiken bij het onderzoeken van een vraag, kan het voor een lezer soms moeilijk zijn om resultaten van twee verschillende tests te vergelijken. P-waarden bieden een oplossing voor dit probleem.
Stel dat een onderzoek waarin de opbrengsten van twee specifieke activa worden vergeleken, is uitgevoerd door verschillende onderzoekers die dezelfde gegevens maar verschillende significantieniveaus hebben gebruikt. De onderzoekers zouden tot tegengestelde conclusies kunnen komen over de vraag of de activa verschillen. Als de ene onderzoeker een betrouwbaarheidsniveau van 90% gebruikte en de andere een betrouwbaarheidsniveau van 95% vereiste om de nulhypothese te verwerpen en de p-waarde van het waargenomen verschil tussen de twee resultaten 0,08 was (wat overeenkomt met een betrouwbaarheidsniveau van 92%), dan zou de eerste onderzoeker ontdekken dat de twee activa een statistisch significant verschil hebben, terwijl de tweede geen statistisch significant verschil zou vinden tussen de opbrengsten.
Om dit probleem te vermijden, konden de onderzoekers de p-waarde van de hypothesetest rapporteren en de lezer zelf de statistische significantie laten interpreteren . Dit wordt een p-waardebenadering genoemd voor het testen van hypothesen. Een onafhankelijke waarnemer zou de p-waarde kunnen noteren en voor zichzelf kunnen beslissen of dat een statistisch significant verschil vertegenwoordigt of niet.
Realistisch voorbeeld van P-waarde
Stel dat een belegger beweert dat de prestatie van zijn beleggingsportefeuille gelijk is aan die van de Standard & Poor’s (S&P) 500 Index. Om dit te bepalen, voert de belegger een tweezijdige test uit. De nulhypothese stelt dat het rendement van de portefeuille gelijk is aan het rendement van de S&P 500 over een bepaalde periode, terwijl de alternatieve hypothese stelt dat het rendement van de portefeuille en het rendement van de S&P 500 niet gelijkwaardig zijn. (Als de belegger een eenzijdige test zou uitvoeren, zou de alternatieve hypothese stellen dat het rendement van de portefeuille ofwel lager of hoger is dan het rendement van de S&P 500.)
P-waarde hypothesetest maakt niet noodzakelijk gebruik van een vooraf geselecteerd betrouwbaarheidsniveau waarop de belegger de nulhypothese moet resetten dat de opbrengsten gelijkwaardig zijn. In plaats daarvan geeft het een maatstaf voor hoeveel bewijs er is om de nulhypothese te verwerpen. Hoe kleiner de p-waarde, hoe groter het bewijs tegen de nulhypothese. Dus als de belegger vindt dat de p-waarde 0,001 is, is er sterk bewijs tegen de nulhypothese en kan de belegger met vertrouwen het rendement van de portefeuille concluderen en het rendement van de S&P 500 is niet gelijkwaardig.
Hoewel dit geen exacte drempel geeft voor wanneer de belegger de nulhypothese zou moeten aanvaarden of verwerpen, heeft het nog een ander zeer praktisch voordeel. P-waarde hypothesetesten bieden een directe manier om het relatieve vertrouwen dat de belegger kan hebben bij het kiezen uit meerdere verschillende soorten beleggingen of portefeuilles, te vergelijken met een benchmark zoals de S&P 500.
Voor twee portefeuilles, A en B, waarvan de prestaties verschillen van de S&P 500 met respectievelijk p-waarden van 0,10 en 0,01, kan de belegger er veel meer vertrouwen in hebben dat portefeuille B, met een lagere p-waarde, daadwerkelijk consistent verschillende resultaten.