24 juni 2021 21:10

Overfitting

Wat is overfitting?

Overfitting is een modelleringsfout in statistieken die optreedt wanneer een functie te nauw is uitgelijnd met een beperkte set gegevenspunten. Als gevolg hiervan is het model alleen bruikbaar met verwijzing naar de oorspronkelijke dataset en niet naar andere datasets.

Overfitting van het model neemt over het algemeen de vorm aan van het maken van een te complex model om eigenaardigheden in de onderzochte gegevens te verklaren. In werkelijkheid bevatten de vaak bestudeerde gegevens een zekere mate van fouten of willekeurige ruis. Als u dus probeert het model te nauw aan te passen aan enigszins onnauwkeurige gegevens, kan het model met aanzienlijke fouten worden geïnfecteerd en kan de voorspellende kracht ervan afnemen.

Belangrijkste leerpunten

  • Overfitting is een fout die optreedt bij datamodellering als gevolg van een bepaalde functie die te nauw aansluit bij een minimale set datapunten.
  • Financiële professionals lopen het risico een model op basis van beperkte gegevens overmatig te passen en te eindigen met resultaten die gebrekkig zijn.
  • Wanneer een model in gevaar is gebracht door overfitting, kan het zijn waarde verliezen als voorspellend instrument voor beleggen.

Overfitting begrijpen

Zo is een veel voorkomend probleem met behulp van computer algoritmes om te zoeken uitgebreide databases van historische marktgegevens om patronen te vinden. Bij voldoende onderzoek is het vaak mogelijk om uitgebreide stellingen te ontwikkelen die zaken als het rendement op de aandelenmarkt nauwkeurig lijken te voorspellen.

Wanneer ze echter worden toegepast op gegevens buiten de steekproef, kunnen dergelijke stellingen waarschijnlijk slechts de overmaat van een model blijken te zijn voor wat in werkelijkheid slechts toevallige gebeurtenissen waren. In alle gevallen is het belangrijk om een ​​model te toetsen aan gegevens die buiten de steekproef vallen die is gebruikt om het te ontwikkelen.

Hoe overfitting te voorkomen

Manieren om overfitting te voorkomen zijn onder meer kruisvalidatie, waarbij de gegevens die worden gebruikt voor het trainen van het model in vouwen of partities worden gehakt en het model voor elke vouw wordt uitgevoerd. Vervolgens wordt de totale foutschatting gemiddeld.  Andere methoden zijn onder meer ensembling, waarbij voorspellingen worden gecombineerd uit ten minste twee afzonderlijke modellen, data-augmentatie, waarbij de beschikbare dataset er divers uitziet, en data-vereenvoudiging, waarbij het model wordt gestroomlijnd om overfitting te voorkomen.



Financiële professionals moeten zich altijd bewust zijn van de gevaren van overfitting van een model op basis van beperkte gegevens.

Overfitting Voorbeeld

Overfitting is ook een factor bij machine learning. Het kan ontstaan ​​wanneer een machine is geleerd om in één richting naar specifieke gegevens te scannen, maar wanneer hetzelfde proces wordt toegepast op een nieuwe set gegevens, zijn de resultaten onjuist. Een universiteit die bijvoorbeeld een schooluitval ziet dat hoger is dan wat ze zou willen, besluit een model te willen maken om de waarschijnlijkheid te voorspellen dat een kandidaat het helemaal zal halen tot het afstuderen. Hiervoor traint de universiteit een model uit een dataset van 5.000 aanvragers en hun uitkomsten. Vervolgens wordt het model uitgevoerd op basis van de oorspronkelijke dataset – de groep van 5.000 aanvragers – en het model voorspelt de uitkomst met een nauwkeurigheid van 98%. Maar om de nauwkeurigheid te testen, draaien ze het model ook op een tweede dataset: nog eens 5.000 aanvragers. Deze keer is het model echter slechts 50% nauwkeurig, aangezien het model te nauw aansloot bij een smalle gegevenssubset, in dit geval de eerste 5.000 toepassingen.