24 juni 2021 15:35

Homoskedastic

Wat is Homoskedastic?

Homoskedastic (ook wel gespeld als “homoscedastic”) verwijst naar een toestand waarin de variantie van de residuele of foutterm in een regressiemodel constant is. Dat wil zeggen, de foutterm varieert niet veel zoals de waarde van de voorspellende variabele verandert. Een andere manier om dit te zeggen is dat de variantie van de datapunten voor alle datapunten ongeveer hetzelfde is. Dit suggereert een niveau van consistentie en maakt het gemakkelijker om de gegevens te modelleren en ermee te werken door middel van regressie. Het gebrek aan homoskedasticiteit kan er echter op wijzen dat het regressiemodel mogelijk aanvullende voorspellende variabelen moet bevatten om de prestatie van de afhankelijke variabele te verklaren.

Belangrijkste leerpunten

  • Homoskedasticiteit treedt op wanneer de variantie van de foutterm in een regressiemodel constant is. 
  • Als de variantie van de foutterm homoskedastisch is, was het model goed gedefinieerd. Als er te veel variantie is, is het model mogelijk niet goed gedefinieerd. 
  • Het toevoegen van extra voorspellende variabelen kan helpen bij het verklaren van de prestatie van de afhankelijke variabele.
  • Omgekeerd treedt heteroskedasticiteit op wanneer de variantie van de foutterm niet constant is.

Hoe homoskedasticiteit werkt

Homoskedasticiteit is een aanname van lineaire regressiemodellering en gegevens van dit type werken goed met de methode met de kleinste kwadraten. Als de variantie van de fouten rond de regressielijn sterk varieert, is het regressiemodel mogelijk slecht gedefinieerd. Het tegenovergestelde van homoskedasticiteit is heteroskedasticiteit, net zoals het tegenovergestelde van “homogeen” “heterogeen” is. Heteroskedasticiteit (ook wel gespeld als “heteroscedasticiteit”) verwijst naar een toestand waarin de variantie van de foutterm in een regressievergelijking niet constant is.



Wanneer men bedenkt dat variantie het gemeten verschil is tussen de voorspelde uitkomst en de werkelijke uitkomst van een bepaalde situatie, kan het bepalen van homoskedasticiteit helpen bepalen welke factoren moeten worden aangepast voor nauwkeurigheid.

Speciale overwegingen

Een eenvoudig regressiemodel, of vergelijking, bestaat uit vier termen. Aan de linkerkant is de afhankelijke variabele. Het vertegenwoordigt het fenomeen dat het model probeert te ‘verklaren’. Aan de rechterkant staan ​​een constante, een voorspellende variabele en een rest- of foutterm. De foutterm toont de hoeveelheid variabiliteit in de afhankelijke variabele die niet wordt verklaard door de voorspellende variabele.

Voorbeeld van Homoskedastic

Stel dat u de testscores van studenten wilt verklaren aan de hand van de hoeveelheid tijd die elke student heeft besteed aan studeren. In dit geval zouden de testscores de afhankelijke variabele zijn en zou de tijd besteed aan studeren de voorspellende variabele zijn. 

De foutterm zou de hoeveelheid variantie in de testscores laten zien die niet werd verklaard door de hoeveelheid tijd die werd gestudeerd. Als die variantie uniform of homoskedastisch is, zou dat suggereren dat het model een adequate verklaring kan zijn voor testprestaties – door het uit te leggen in termen van bestede tijd.

Maar de variantie kan heteroskedastisch zijn. Een plot van de fouttermgegevens kan aantonen dat een grote hoeveelheid studietijd zeer nauw overeenkwam met hoge testscores, maar dat de lage testscores voor studietijd sterk varieerden en zelfs enkele zeer hoge scores omvatten. De variantie van scores zou dus niet goed verklaard kunnen worden door simpelweg één voorspellende variabele – de hoeveelheid tijd aan studeren. In dit geval is er waarschijnlijk een andere factor aan het werk en moet het model mogelijk worden verbeterd om deze of deze factoren te identificeren.

Nader onderzoek kan uitwijzen dat sommige studenten de antwoorden op de test van tevoren hadden gezien of dat ze eerder een vergelijkbare test hadden afgelegd en daarom niet hoefden te studeren voor deze specifieke test. Overigens kan het gewoon blijken dat studenten verschillende niveaus van slagen voor toetsen hadden, onafhankelijk van hun studietijd en hun prestaties op eerdere tests, ongeacht het onderwerp.

Om het regressiemodel te verbeteren, zou de onderzoeker andere verklarende variabelen moeten uitproberen die een nauwkeuriger aanpassing aan de gegevens zouden kunnen geven. Als sommige studenten de antwoorden bijvoorbeeld van tevoren hadden gezien, zou het regressiemodel twee verklarende variabelen hebben: tijd studeren en of de student voorkennis van de antwoorden had. Met deze twee variabelen zou meer van de variantie van de testscores worden verklaard en zou de variantie van de foutterm dan homoskedastisch kunnen zijn, wat suggereert dat het model goed gedefinieerd was.