Variantie-inflatiefactor (VIF)
Wat is een variantie-inflatiefactor (VIF)?
Variantie-inflatiefactor (VIF) is een maat voor de hoeveelheid multicollineariteit in een set van meervoudige regressievariabelen . Wiskundig, het VIF een regressiemodel variabele is gelijk aan de verhouding van de totaalmodel variantie de variantie van een model dat alleen één onafhankelijke variabele omvat. Deze verhouding wordt berekend voor elke onafhankelijke variabele. Een hoge VIF geeft aan dat de bijbehorende onafhankelijke variabele sterk collineair is met de andere variabelen in het model.
Belangrijkste leerpunten
- Een variantie-inflatiefactor (VIF) geeft een maat voor de multicollineariteit tussen de onafhankelijke variabelen in een meervoudig regressiemodel.
- Het detecteren van multicollineariteit is belangrijk omdat hoewel multicollineariteit de verklarende kracht van het model niet vermindert, het wel de statistische significantie van de onafhankelijke variabelen vermindert.
- Een grote variantie-inflatiefactor (VIF) op een onafhankelijke variabele duidt op een sterk collineair verband met de andere variabelen die moeten worden overwogen of gecorrigeerd in de structuur van het model en de selectie van onafhankelijke variabelen.
Een variantie-inflatiefactor (VIF) begrijpen
Een variantie-inflatiefactor is een hulpmiddel om de mate van multicollineariteit te helpen identificeren. Een meervoudige regressie wordt gebruikt wanneer een persoon het effect van meerdere variabelen op een bepaald resultaat wil testen. De afhankelijke variabele is het resultaat waarop wordt gereageerd door de onafhankelijke variabelen – de invoer in het model. Er is sprake van multicollineariteit als er een lineaire relatie of correlatie is tussen een of meer van de onafhankelijke variabelen of inputs.
Multicollineariteit zorgt voor een probleem bij de meervoudige regressie omdat de inputs elkaar allemaal beïnvloeden. Daarom zijn ze niet echt onafhankelijk, en het is moeilijk om te testen in hoeverre de combinatie van de onafhankelijke variabelen de afhankelijke variabele of uitkomst beïnvloedt binnen het regressiemodel. Statistisch gezien zal een meervoudig regressiemodel met een hoge multicollineariteit het moeilijker maken om de relatie tussen elk van de onafhankelijke variabelen en de afhankelijke variabele te schatten. Kleine veranderingen in de gebruikte gegevens of in de structuur van de modelvergelijking kunnen grote en grillige veranderingen in de geschatte coëfficiënten op de onafhankelijke variabelen veroorzaken.
Om er zeker van te zijn dat het model correct is gespecificeerd en correct functioneert, zijn er tests die kunnen worden uitgevoerd op multicollineariteit. De variantie-opblaasfactor is zo’n meetinstrument. Het gebruik van variantie-inflatiefactoren helpt om de ernst van eventuele multicollineariteitsproblemen te identificeren, zodat het model kan worden aangepast. Variantie-inflatiefactor meet hoeveel het gedrag (variantie) van een onafhankelijke variabele wordt beïnvloed, of opgeblazen, door zijn interactie / correlatie met de andere onafhankelijke variabelen. Variantie-inflatiefactoren maken een snelle meting mogelijk van hoeveel een variabele bijdraagt aan de standaardfout in de regressie. Als er significante multicollineariteitsproblemen zijn, zal de variantie-inflatiefactor erg groot zijn voor de betrokken variabelen. Nadat deze variabelen zijn geïdentificeerd, kunnen verschillende benaderingen worden gebruikt om collineaire variabelen te elimineren of te combineren, waardoor het multicollineariteitsprobleem wordt opgelost.
Speciale overwegingen
Multicollineariteit
Hoewel multicollineariteit het algehele voorspellende vermogen van een model niet vermindert, kan het wel schattingen opleveren van de regressiecoëfficiënten die niet statistisch significant zijn. In zekere zin kan het worden gezien als een soort dubbeltelling in het model. Wanneer twee of meer onafhankelijke variabelen nauw verwant zijn of bijna hetzelfde meten, wordt het onderliggende effect dat ze meten twee keer (of meer) in rekening gebracht over de variabelen. Het wordt moeilijk of onmogelijk om te zeggen welke variabele de onafhankelijke variabele werkelijk beïnvloedt. Dit is een probleem omdat het doel van veel econometrische modellen is om precies dit soort statistische relatie tussen de onafhankelijke variabelen en de afhankelijke variabele te testen.
Stel dat een econoom wil testen of er een statistisch significant verband bestaat tussen het werkloosheidspercentage (onafhankelijke variabele) en het inflatiecijfer (afhankelijke variabele). Door aanvullende onafhankelijke variabelen op te nemen die verband houden met het werkloosheidspercentage, zou een dergelijke nieuwe aanvankelijke werkloosheidsaanvraag waarschijnlijk multicollineariteit in het model introduceren. Het algemene model vertoont mogelijk een sterke, statistisch voldoende verklarende kracht, maar kan niet vaststellen of het effect voornamelijk te wijten is aan het werkloosheidspercentage of aan de nieuwe aanvankelijke werkloosheidsaanvragen. Dit is wat de VIF zou detecteren, en het zou suggereren om mogelijk een van de variabelen uit het model te laten vallen of een manier te vinden om ze te consolideren om hun gezamenlijke effect vast te leggen, afhankelijk van de specifieke hypothese die de onderzoeker wil testen.