Stapsgewijze regressie
Wat is stapsgewijze regressie?
Stapsgewijze regressie is de stapsgewijze iteratieve constructie van een regressiemodel waarbij onafhankelijke variabelen worden geselecteerd voor gebruik in een definitief model. Het omvat het achtereenvolgens toevoegen of verwijderen van mogelijke verklarende variabelen en het testen op statistische significantie na elke iteratie.
De beschikbaarheid van statistische softwarepakketten maakt stapsgewijze regressie mogelijk, zelfs in modellen met honderden variabelen.
Belangrijkste leerpunten
- Stapsgewijze regressie is een methode die iteratief de statistische significantie van elke onafhankelijke variabele in een lineair regressiemodel onderzoekt.
- De benadering van voorwaartse selectie begint met niets en voegt elke nieuwe variabele stapsgewijs toe, waarbij wordt getest op statistische significantie.
- De achterwaartse eliminatiemethode begint met een volledig model geladen met verschillende variabelen en verwijdert vervolgens één variabele om het belang ervan ten opzichte van de algemene resultaten te testen.
- Stapsgewijze regressie heeft echter zijn nadelen, aangezien het een benadering is die gegevens in een model past om het gewenste resultaat te bereiken.
Soorten stapsgewijze regressie
Het onderliggende doel van stapsgewijze regressie is om door middel van een reeks tests (bijv. F-tests, t-tests ) een reeks onafhankelijke variabelen te vinden die de afhankelijke variabele significant beïnvloeden. Dit wordt gedaan met computers door middel van iteratie, wat het proces is waarbij tot resultaten of beslissingen komt door herhaalde ronden of analysecycli te doorlopen. Het automatisch uitvoeren van tests met behulp van statistische softwarepakketten heeft het voordeel dat het tijd bespaart en fouten beperkt.
Stapsgewijze regressie kan worden bereikt door één onafhankelijke variabele tegelijk uit te proberen en deze op te nemen in het regressiemodel als deze statistisch significant is, of door alle potentiële onafhankelijke variabelen in het model op te nemen en de variabelen die niet statistisch significant zijn, te elimineren. Sommige gebruiken een combinatie van beide methoden en daarom zijn er drie benaderingen voor stapsgewijze regressie:
- Voorwaartse selectie begint zonder variabelen in het model, test elke variabele zodra deze aan het model wordt toegevoegd, en houdt vervolgens de variabelen die statistisch het meest significant worden geacht, waarbij het proces wordt herhaald totdat de resultaten optimaal zijn.
- Achterwaartse eliminatie begint met een reeks onafhankelijke variabelen, waarbij ze één voor één worden verwijderd en vervolgens wordt getest of de verwijderde variabele statistisch significant is.
- Bidirectionele eliminatie is een combinatie van de eerste twee methoden die testen welke variabelen moeten worden opgenomen of uitgesloten.
Voorbeeld
Een voorbeeld van een stapsgewijze regressie met behulp van de achterwaartse eliminatiemethode is een poging om het energieverbruik in een fabriek te begrijpen met behulp van variabelen zoals de gebruiksduur van de apparatuur, de leeftijd van de apparatuur, de grootte van het personeel, de buitentemperaturen en de tijd van het jaar. Het model omvat alle variabelen en vervolgens wordt elke variabelen een voor een verwijderd om te bepalen welke het minst statistisch significant is. Uiteindelijk zou het model kunnen aantonen dat de tijd van het jaar en de temperaturen het belangrijkst zijn, wat mogelijk suggereert dat het piekenergieverbruik in de fabriek is wanneer het gebruik van airconditioners het hoogst is.
Beperkingen van stapsgewijze regressie
Regressieanalyse, zowel koers-winstverhoudingen en aandelenrendementen gedurende vele jaren om te bepalen of aandelen met lage P / E-ratio’s (onafhankelijke variabele) hogere rendementen bieden (afhankelijke variabele). Het probleem met deze benadering is dat de marktomstandigheden vaak veranderen en dat relaties die in het verleden hebben bestaan niet noodzakelijkerwijs gelden in het heden of de toekomst.
Ondertussen kent het stapsgewijze regressieproces veel critici en er zijn zelfs oproepen om de methode helemaal niet meer te gebruiken. Statistici merken verschillende nadelen van de aanpak op, waaronder onjuiste resultaten, een inherente vertekening in het proces zelf en de noodzaak van aanzienlijke rekenkracht om complexe regressiemodellen te ontwikkelen door middel van iteratie.