24 juni 2021 7:52

Achterwaartse inductie

Wat is achterwaartse inductie?

Achterwaartse inductie in speltheorie is een iteratief proces van achterwaarts redeneren in de tijd, vanaf het einde van een probleem of situatie, om eindige uitgebreide vorm- en opeenvolgende spellen op te lossen en een reeks optimale acties af te leiden.

Achterwaartse inductie uitgelegd

Achterwaartse inductie is gebruikt om games op te lossen sinds John von Neumann en Oskar Morgenstern speltheorie als academisch onderwerp hebben vastgesteld toen ze in 1944 hun boek Theory of Games and Economic Behavior publiceerden.

In elke fase van het spel bepaalt achterwaartse inductie de optimale strategie van de speler die de laatste zet in het spel doet. Vervolgens wordt de optimale actie van de voorlaatste bewegende speler bepaald, waarbij de actie van de laatste speler wordt uitgevoerd zoals aangegeven. Dit proces gaat achteruit totdat de beste actie voor elk tijdstip is bepaald. In feite bepaalt men het Nash-evenwicht van elk subspel van het originele spel.

De resultaten die uit achterwaartse inductie worden afgeleid, zijn echter vaak niet in staat het werkelijke menselijke spel te voorspellen. Experimentele studies hebben aangetoond dat “rationeel” gedrag (zoals voorspeld door speltheorie) zelden in het echte leven wordt vertoond. Irrationele spelers kunnen uiteindelijk hogere uitbetalingen behalen dan voorspeld door achterwaartse inductie, zoals geïllustreerd in het duizendpootspel.

In het duizendpootspel krijgen twee spelers afwisselend de kans om een ​​groter deel van een toenemende pot met geld te pakken, of om de pot door te geven aan de andere speler. De uitbetalingen zijn zo gerangschikt dat als de pot wordt doorgegeven aan de tegenstander en de tegenstander de pot wint in de volgende ronde, hij iets minder ontvangt dan wanneer hij de pot in deze ronde had gepakt. Het spel is afgelopen zodra een speler de voorraad neemt, waarbij die speler het grotere deel krijgt en de andere speler het kleinere deel.

Voorbeeld van achterwaartse inductie

Stel bijvoorbeeld dat speler A als eerste gaat en moet beslissen of hij de stash moet “nemen” of “passen”, die momenteel $ 2 bedraagt. Als hij pakt, krijgen A en B elk $ 1, maar als A past, moet de beslissing om te nemen of te passen nu door speler B worden genomen. Als B pakt, krijgt zij $ 3 (dat wil zeggen, de vorige stash van $ 2 + $ 1) en A krijgt $ 0. Maar als B slaagt, mag A nu beslissen of hij wil nemen of passen, enzovoort. Als beide spelers er altijd voor kiezen om te passen, ontvangen ze elk een uitbetaling van $ 100 aan het einde van het spel.

Het punt van het spel is dat als A en B allebei samenwerken en blijven passen tot het einde van het spel, ze de maximale uitbetaling van elk $ 100 krijgen. Maar als ze de andere speler wantrouwen en verwachten dat ze bij de eerste gelegenheid “grijpen”, voorspelt Nash-evenwicht dat de spelers de laagst mogelijke claim zullen nemen (in dit geval $ 1).

Het Nash-evenwicht van dit spel, waarbij geen enkele speler een prikkel heeft om af te wijken van zijn gekozen strategie nadat hij de keuze van een tegenstander heeft overwogen, suggereert dat de eerste speler de pot zou winnen in de allereerste ronde van het spel. In werkelijkheid doen echter relatief weinig spelers dat. Als gevolg hiervan krijgen ze een hogere uitbetaling dan de uitbetaling die wordt voorspeld door de evenwichtsanalyse.

Opeenvolgende spellen oplossen met behulp van achterwaartse inductie

Hieronder is een eenvoudig opeenvolgend spel tussen twee spelers. De labels met Speler 1 en Speler 2 erin zijn de informatiesets voor respectievelijk speler één of twee. De cijfers tussen haakjes onderaan de boom zijn de uitbetalingen op elk respectief punt. Het spel is ook opeenvolgend, dus speler 1 neemt de eerste beslissing (links of rechts) en speler 2 neemt zijn beslissing na speler 1 (omhoog of omlaag).

Achterwaartse inductie gebruikt, net als alle speltheorie, de aannames van rationaliteit en maximalisatie, wat betekent dat speler 2 zijn uitbetaling in elke gegeven situatie zal maximaliseren. Bij beide informatiesets hebben we twee keuzes, vier in totaal. Door de keuzes te elimineren die Speler 2 niet zal kiezen, kunnen we onze stamboom verkleinen. Op deze manier markeren we de lijnen in blauw die de uitbetaling van de speler bij de gegeven informatieset maximaliseren.

Na deze vermindering kan Speler 1 zijn uitbetalingen maximaliseren nu de keuzes van Speler 2 bekend zijn gemaakt. Het resultaat is een evenwicht gevonden door achterwaartse inductie van Speler 1 die “goed” kiest en Speler 2 “Omhoog”. Hieronder staat de oplossing voor het spel met het evenwichtspad vetgedrukt.

Men zou bijvoorbeeld gemakkelijk een spel kunnen opzetten dat lijkt op het spel hierboven met bedrijven als de spelers. Deze game kan scenario’s voor productreleases bevatten. Als bedrijf 1 een product wilde uitbrengen, wat zou bedrijf 2 dan kunnen doen? Zal bedrijf 2 een vergelijkbaar concurrerend product uitbrengen? Door de verkoop van dit nieuwe product in verschillende scenario’s te voorspellen, kunnen we een spel opzetten om te voorspellen hoe gebeurtenissen zich zouden kunnen ontvouwen. Hieronder ziet u een voorbeeld van hoe u een dergelijk spel zou kunnen modelleren.