Som van de kwadraten
Wat is de som van vierkanten?
Som of squares is een statistische techniek die wordt gebruikt bij regressieanalyse om de spreiding van gegevenspunten te bepalen. Bij een regressieanalyse is het doel om te bepalen hoe goed een gegevensreeks kan worden aangepast aan een functie die kan helpen verklaren hoe de gegevensreeks is gegenereerd. Som van kwadraten wordt gebruikt als een wiskundige manier om de functie te vinden die het beste past (het minst varieert) van de gegevens.
De formule voor de som van vierkanten is
Som van vierkanten wordt ook wel variatie genoemd.
Wat zegt de som van vierkanten u?
De som van de kwadraten is een maat voor de afwijking van het gemiddelde. In statistieken is het gemiddelde het gemiddelde van een reeks getallen en is het de meest gebruikte maat voor centrale tendens. Het rekenkundig gemiddelde wordt eenvoudig berekend door de waarden in de gegevensverzameling bij elkaar op te tellen en te delen door het aantal waarden.
Laten we zeggen dat de slotkoersen van Microsoft (MSFT) in de afgelopen vijf dagen 74,01, 74,77, 73,94, 73,61 en 73,40 in Amerikaanse dollars waren. De som van de totale prijzen is $ 369,73 en de gemiddelde of gemiddelde prijs van het leerboek zou dus $ 369,73 / 5 = $ 73,95 zijn.
Maar het gemiddelde van een meetset kennen is niet altijd voldoende. Soms is het handig om te weten hoeveel variatie er in een reeks metingen zit. Hoe ver de individuele waarden van het gemiddelde verwijderd zijn, kan enig inzicht geven in hoe goed de waarnemingen of waarden passen bij het gemaakte regressiemodel.
Als een analist bijvoorbeeld wil weten of de aandelenprijs van MSFT mee beweegt met de prijs van Apple (AAPL), kan hij een lijst maken van de reeks waarnemingen voor het proces van beide aandelen voor een bepaalde periode, zeg 1, 2., of 10 jaar en maak een lineair model met elk van de geregistreerde waarnemingen of metingen. Als de relatie tussen beide variabelen (dwz de prijs van AAPL en de prijs van MSFT) geen rechte lijn is, dan zijn er variaties in de dataset die onder de loep moeten worden genomen.
In de statistieken wordt gesproken, als de lijn in het gecreëerde lineaire model niet alle waardemetingen doorloopt, dan is een deel van de variabiliteit die is waargenomen in de aandelenkoersen onverklaard. De som van de kwadraten wordt gebruikt om te berekenen of er een lineair verband bestaat tussen twee variabelen, en elke onverklaarde variabiliteit wordt de residuale som van de kwadraten genoemd.
De som van de kwadraten is de som van het variatie kwadraat, waarbij variatie wordt gedefinieerd als de spreiding tussen elke individuele waarde en het gemiddelde. Om de som van de kwadraten te bepalen, wordt de afstand tussen elk gegevenspunt en de best passende lijn gekwadrateerd en vervolgens opgeteld. De best passende lijn zal deze waarde minimaliseren.
Hoe de som van vierkanten te berekenen
Nu kun je zien waarom de meting de som van de kwadraten wordt genoemd, of kortweg de som van de kwadraten. Met behulp van ons MSFT-voorbeeld hierboven, kan de som van vierkanten worden berekend als:
- SS = (74,01 – 73,95) 2 + (74,77 – 73,95) 2 + (73,94 – 73,95) 2 + (73,61 – 73,95) 2 + (73,40 – 73,95) 2
- SS = (0,06) 2 + (0,82) 2 + (-0,01) 2 + (-0,34) 2 + (-0,55) 2
- SS = 1,0942
Het optellen van de som van de afwijkingen alleen zonder kwadratuur zal resulteren in een getal gelijk aan of dichtbij nul, aangezien de negatieve afwijkingen de positieve afwijkingen bijna perfect zullen compenseren. Om een realistischer getal te krijgen, moet de som van de afwijkingen worden gekwadrateerd. De som van de kwadraten is altijd een positief getal omdat het kwadraat van een willekeurig getal, positief of negatief, altijd positief is.
Voorbeeld van het gebruik van de som van vierkanten
Op basis van de resultaten van de MSFT-berekening geeft een hoge som van de kwadraten aan dat de meeste waarden verder van het gemiddelde verwijderd zijn, en dat er dus een grote variabiliteit in de gegevens is. Een lage som van kwadraten verwijst naar een lage variabiliteit in de reeks waarnemingen.
In het bovenstaande voorbeeld laat 1.0942 zien dat de variabiliteit in de aandelenkoers van MSFT in de afgelopen vijf dagen erg laag is en beleggers die willen beleggen in aandelen die worden gekenmerkt door prijsstabiliteit en lage volatiliteit, kunnen kiezen voor MSFT.
Belangrijkste leerpunten
- De som van de kwadraten meet de afwijking van gegevenspunten weg van de gemiddelde waarde.
- Een hoger resultaat van de som van de kwadraten duidt op een grote mate van variabiliteit binnen de gegevensset, terwijl een lager resultaat aangeeft dat de gegevens niet aanzienlijk afwijken van de gemiddelde waarde.
Beperkingen van het gebruik van de som van kwadraten
Om een investeringsbeslissing te nemen over welke aandelen u wilt kopen, zijn veel meer observaties nodig dan hier vermeld. Het kan zijn dat een analist met jaren aan gegevens moet werken om met grotere zekerheid te weten hoe hoog of laag de variabiliteit van een actief is. Naarmate er meer gegevenspunten aan de set worden toegevoegd, wordt de som van de kwadraten groter naarmate de waarden meer verspreid zijn.
De meest gebruikte variatiemetingen zijn de standaarddeviatie en variantie. Om echter een van de twee metrieken te berekenen, moet eerst de som van de kwadraten worden berekend. De variantie is het gemiddelde van de som van de kwadraten (dwz de som van de kwadraten gedeeld door het aantal waarnemingen). De standaarddeviatie is de vierkantswortel van de variantie.
Er zijn twee methoden voor regressieanalyse die de som van de kwadraten gebruiken: de lineaire methode met de kleinste kwadraten en de niet-lineaire methode met de kleinste kwadraten. De methode met de kleinste kwadraten verwijst naar het feit dat de regressiefunctie de som van de kwadraten van de variantie ten opzichte van de feitelijke gegevenspunten minimaliseert. Op deze manier is het mogelijk om een functie te tekenen die statistisch gezien het beste bij de gegevens past. Merk op dat een regressiefunctie lineair (een rechte lijn) of niet-lineair (een gebogen lijn) kan zijn.