Een lineair regressiemodel maken in Excel
Wat is lineaire regressie?
Lineaire regressie is een gegevensplot die de lineaire relatie tussen een onafhankelijke en een afhankelijke variabele grafisch weergeeft. Het wordt meestal gebruikt om de sterkte van de relatie en de spreiding van resultaten visueel weer te geven – allemaal om het gedrag van de afhankelijke variabele te verklaren.
Stel dat we de sterkte van de relatie tussen de hoeveelheid gegeten ijs en obesitas wilden testen. We zouden de onafhankelijke variabele, de hoeveelheid ijs, nemen en deze relateren aan de afhankelijke variabele, zwaarlijvigheid, om te zien of er een verband was. Gegeven een regressie is een grafische weergave van deze relatie, hoe lager de variabiliteit in de gegevens, hoe sterker de relatie en hoe nauwer de regressielijn past.
Belangrijkste leerpunten
- Lineaire regressie modelleert de relatie tussen een afhankelijke en onafhankelijke variabele (n).
- Regressieanalyse kan worden bereikt als de variabelen onafhankelijk zijn, er geen heteroscedasticiteit is en de fouttermen van variabelen niet gecorreleerd zijn.
- Het modelleren van lineaire regressie in Excel is eenvoudiger met de Data Analysis ToolPak.
Belangrijke overwegingen
Er zijn een paar kritische aannames over uw dataset die waar moeten zijn om door te gaan met een regressieanalyse :
- De variabelen moeten echt onafhankelijk zijn (met behulp van een Chi-kwadraattoets ).
- De gegevens moeten geen andere fout varianties (dit heet heteroskedasticiteit (ook gespelde heteroscedasticiteit)).
- De fouttermen van elke variabele moeten niet gecorreleerd zijn. Als dit niet het geval is, betekent dit dat de variabelen serieel gecorreleerd zijn.
Als die drie dingen ingewikkeld klinken, zijn ze dat ook. Maar het effect dat een van die overwegingen niet waar is, is een vooringenomen schatting. In wezen zou u de relatie die u meet, verkeerd weergeven.
Een regressie uitvoeren in Excel
De eerste stap bij het uitvoeren van regressieanalyse in Excel is om te controleren of de gratis Excel-plug-in Data Analysis ToolPak is geïnstalleerd. Deze plug-in maakt het berekenen van een reeks statistieken erg eenvoudig. Het is niet nodig om een lineaire regressielijn in kaart te brengen, maar het maakt het maken van tabellen met statistieken eenvoudiger. Om te controleren of het geïnstalleerd is, selecteert u “Data” in de werkbalk. Als “Gegevensanalyse” een optie is, is de functie geïnstalleerd en klaar voor gebruik. Indien niet geïnstalleerd, kunt u deze optie aanvragen door op de Office-knop te klikken en “Excel-opties” te selecteren.
Met behulp van de Data Analysis ToolPak is het creëren van een regressie-uitvoer slechts een paar klikken.
De onafhankelijke variabele valt in het X-bereik.
Gelet op de S & P 500 terug, zeggen dat we willen weten of we de kracht en de relatie van Visa (kan schatten voorraad rendementen. De Visa (V) -aandeel retourneert gegevens vullen kolom 1 in als de afhankelijke variabele. S&P 500 retourneert gegevens en vult kolom 2 als de onafhankelijke variabele.
- Selecteer “Gegevens” in de werkbalk. Het menu “Data” wordt weergegeven.
- Selecteer “Gegevensanalyse”. Het dialoogvenster Gegevensanalyse – Analysehulpmiddelen wordt weergegeven.
- Selecteer in het menu “Regressie” en klik op “OK”.
- Klik in het dialoogvenster Regressie op het vak “Invoer Y-bereik” en selecteer de afhankelijke variabele gegevens (Visa (V) aandelenrendementen).
- Klik op het vak “Input X Range” en selecteer de onafhankelijke variabele gegevens (S&P 500 retourneert).
- Klik op “OK” om de resultaten uit te voeren.
[Opmerking: als de tabel klein lijkt, klikt u met de rechtermuisknop op de afbeelding en opent u in een nieuw tabblad voor een hogere resolutie.]
Interpreteer de resultaten
Met behulp van die gegevens (dezelfde uit ons R-kwadraatartikel ), krijgen we de volgende tabel:
De R 2 -waarde, ook wel de determinatiecoëfficiënt, meet de hoeveelheid variatie in de afhankelijke variabele verklaard door de onafhankelijke variabele of hoe goed het regressiemodel bij de data past. De R 2- waarde varieert van 0 tot 1, en een hogere waarde geeft een betere pasvorm aan. De p-waarde, of waarschijnlijkheidswaarde, varieert ook van 0 tot 1 en geeft aan of de test significant is. In tegenstelling tot de R 2 waarde kleiner p-waarde gunstig duidt een correlatie tussen de onafhankelijke en afhankelijke variabele.
Een regressie in Excel in kaart brengen
We kunnen een regressie in Excel in kaart brengen door de gegevens te markeren en deze als een spreidingsplot in kaart te brengen. Om een regressielijn toe te voegen, kiest u “Indeling” in het menu “Hulpmiddelen voor grafieken”. Selecteer in het dialoogvenster “Trendlijn” en vervolgens “Lineaire trendlijn”. Om de R toe te voegen 2 waarde, selecteer “Meer Trendline Options” van de “Trendline menu. Ten slotte kiest u ‘R-kwadraat waarde op grafiek’. Het visuele resultaat vat de sterkte van de relatie, zij het ten koste van het niet verstrekken van evenveel details als de bovenstaande tabel.