Tager Goldman Sachs fejl? - og bør de europæiske hold frygte VM i Brasilien?

Goldman Sachs VM-model implicerer, at sandsynligheden for at Brasilien slår Holland, Uruguay, Tyskland og Argentina er den samme som for at Manchester City hjemme slår Norwich, West Brom, Hull og Fulham i Premier League. Er det realistisk? Og hvor meget betyder afstande egentlig for resultaterne ved VM?

Den 26. oktober 2010 var nok ret få mennesker i akvariet i Oberhausen klar over hvor alvorlig en begivenhed de var vidne til. Der døde blæksprutten Paul nemlig (af naturlige årsager - heldigvis). For dem der ikke husker det var blæksprutten Paul bedre end de fleste professionelle analytikere til at forudsige resultatet af Tysklands kampe ved VM i 2010, og det er dermed lidt af et tomrum der skal udfyldes hvis vi skal gøre os noget begreb om hvem der vinder VM i Brasilien der starter nu på torsdag.

Det er åbenlyst umuligt at erstatte en synsk blæksprutte, og et mere jordnært alternativ er at estimere sandsynligheden i en eller anden form for statistisk model.
To interessante forsøg på netop dette kom i forrige uge fra henholdsvis Goldman Sachs og Danske Bank. Begge modellerer sandsynligheden for at vinde VM statistisk, og det er bemærkelsesværdigt, at Danske Bank, der blander økonomiske og sportsrelaterede variable i deres model, når stort set samme resultat som Goldman, der udelukkende benytter sportsdata. Ifølge Danske Bank er der 45% sandsynlighed for at Brasilien eksploderer i glædesrus når finalen slutter den 13. juli. Goldman ligger en smule højere og estimerer sandsynligheden til 48,5%. Begge har Argentina som outsider med henholdsvis 8,1% og 14,1% sandsynlighed for at tage pokalen med hjem.

Det interessante er at begge bankers bud på Brasiliens sandsynlighed for at vinde ligger langt højere end den underliggende sandsynlighed der afspejles i betting markedernes odds på de forskellige hold. Jeg har holdt øje med de 12 største engelske bookmakeres odds over de sidste par uger, og de ser således ud

Hvis vi tager Danske Bank og Goldmans estimater for gode varer er der altså masser af free lunch på betting markederne i øjeblikket. Oddset på Brasilien er i så fald sat alt for højt, så vi har forventet profit af at spille på dem som vinder ved VM. Jeg er selv kunde i Danske Bank, og har da overvejet at ringe derned og høre om de vil låne mig et stort beløb til min investeringsidé, som givet deres egne estimater har en ret stor positiv forventet værdi. Før man gør det er der imidlertid nok behov for lige at stoppe op og overveje, om det er betting markederne eller de to banker der tager fejl af sandsynlighederne.

Det første man bemærker af ovenstående figur er at der ikke er nogen form for diskontinuitet omkring 27. maj, hvor Goldman offentliggør deres rapport, eller 28. maj, hvor Danske Bank offentliggør deres. Begge raporter er offentligt tilgængelige, og Goldmans har været refereret i både NYT, WSJ og the Guardian. Den mest oplagte grund til at markedet ikke bevæger sig er nok, at der ikke rigtig er nogen der tror på de to meget høje estimater på Brasilien. Og det er der muligvis god grund til.

Vi har længe vidst, at betting markeder kan være en attraktiv mekanisme til at samle og aggregere information, hvis denne er spredt blandt mange aktører. Det skyldes dels at det sorterer cheap talk fra, og dels, at profitmotiveret giver incitament til at undersøge en sag nærmere og blive klogere på problemstillingen. Denne erkendelse har fået virksomheder som Google og Hewlett-Packard til i årevis at køre interne betting-markeder om alt fra, hvor mange brugere der i fremtiden vil benytte Gmail, til hvordan nye HP-produkter vil sælge.

Hvis man gerne vil forsøge intuitivt at forstå om de to bankers sandsynligheder er sat for højt kan vi prøve med følgende lille tankeeksperiment (som jeg så på Twitter forleden):
Brasilien skal efter gruppespillet igennem 4 knockout kampe. Hvis den samlede sandsynlighed for gevinst skal være 48,5%, kan vi spørge os selv hvilken sandsynlighed Brasilien skal have for at vinde hver kamp der er konsistent med at Brasilien vinder alle 4 kampe knap halvdelen af gangene. Her er binomialfordelingen vores ven og den individuelle sandsynlighed er lige omkring 83,5% (da 0,835^4 = 0.486).
Ifølge Goldmans model står Brasilien til at møde Holland, Uruguay, Tyskland og Argentina i de fire kampe, og deres estimat på 48,5% implicerer altså, at Brasilien med 83,5% sandsynlighed vinder hver af de kampe.
For at give os en ide om hvor højt det er har jeg fundet betting market data frem fra Premier League sæsonen 2013-14. Jeg har fokuseret på Manchester City der vandt ligaen nogenlunde sikkert. Her er fire hjemmekampe hvor betting markederne vurderede sandsynligheden for at City vandt lige omkring de 83%


Home TeamAway TeamProbability
1Man CityNorwich84.03
2Man CityWest Brom84.03
3Man CityHull86.21
4Man CityFulham86.96

Af de 4 hold rykkede Norwich og Fulham ned, mens Hull og West Brom blev henholdsvis nr. 16 og 17. Så med andre ord: Goldman Sachs model implicerer, at sandsynligheden for at Brasilien slår Holland, Uruguay, Tyskland og Argentina ved VM er stort set den samme som for at Manchester City hjemme slår Norwich, West Brom, Hull og Fulham i Premier League. Realistisk? det synes betting markederne sjovt nok ikke.

En andet mistænkeligt aspekt ved Goldman Sachs' model er fordelingen af mål scoret i gruppespillet. Goldman forudser at langt størstedelen af holdene scorer 1 mål per kamp. Jeg har hentet resultaterne fra gruppespillet ved VM 2010, og her er fordelingen af mål scoret per hold per kamp i Goldmans model sammenlignet med fordelingen af faktisk scorede mål VM 2010

Som figuren viser er der ret stor diskrepans mellem forventede mål per hold per kamp og faktisk scorede mål i 2010. Bemærk at det ikke nødvendigvis betyder at Goldmans model er forkert, men at den forudsiger, at Cameroon som det eneste hold ikke formår at score i gruppespillet gør mig en smule urolig.

Jeg vil gerne understrege, at min pointe ikke er at hænge hverken Goldman Sachs eller Danske Bank ud. Tværtimod skal de have stor ros for at lægge deres metode frem og estimere deres modeller med offentligt tilgængeligt data. Når jeg alligevel ikke tror så meget på resultaterne er det snarere fordi jeg tror deres modeller er for simple. Det kan selvfølgelig godt ses som en svaghed, til gengæld giver det alle med en computer mulighed for at udvide modellerne med nye variable, og det kan jeg selvfølgelig ikke stå for.

Jeg har ofte spekuleret over hvorvidt afstanden mellem to lande har en betydning for resultatet. Denne variabel indgår ikke i hverken Goldman eller Danske Banks model, men det kunne den sådan set godt. Det er (relativt) nemt at generere en variabel der måler afstanden i km mellem to lande. Jeg har gjort det simpelt og målt afstanden mellem landenes hovedstader. Derudover har jeg indsamlet samme type data som Goldman og Danske Bank bruger. Jeg har scrapet kampinformation fra ELOratings, økonomisk data fra Penn World Tables, Balon D'or data fra wikipedia og forskellige småting rundtomkring (detaljerne kan findes her).

Jeg estimerer nu samme model som Danske Bank med en yderligere variabel, nemlig afstanden mellem hjemme- og udeholds hovedstad målt i kilometer. Jeg inkluderer også denne variabel i anden for at tillade en mere fleksibel form. Den afhængige variabel er forskel mellem mål scoret af hjemme- og udehold, og jeg estimerer modellen på alle landskampe minus træningskampe siden 1960 (samme metode som i Goldman Sachs modellen, N = 6.258).
Både afstandsvariablen og afstandsvariablen i anden er signifikante på 1% niveau, og har de forventede tegn: jo større afstand i km der er mellem hjemme- og udehold, jo bedre er det for hjemmeholdet. Denne effekt er dog aftagende, og reduceres ligefrem for meget store afstande (det er dog usikkert da N er relativt småt for større afstande end 10.000 km). Vi kan plotte effekten af afstand således

Bemærk at denne graf er ret dårligt nyt for de europæiske hold. Jeg holder altid med Italien når Danmark ikke deltager, og der er præcis 8.789 km mellem Rom og Brasilia, hvilket ifølge mine estimater svarer til en målforskel på ca 0,4 mål i Brasiliens favør skulle de to hold mødes til VM.

Ovenstående viser at det med en smule arbejde burde være muligt at forbedre den type statistiske modeller som Danske Bank og Goldman bruger når de predikterer mulige vindere af VM, således at vi i fremtiden er bedre til at forudsige resultaterne end det næste synske dyr medierne graver frem. Desværre viser ovenstående også, at Italien næppe vinder VM til sommer, og at det muligvis kan være en idé at have en esktra sydamerikaner på dit VM-drømmehold denne gang.

Al rådata og samtlige filer der genererer ovenstående er tilgængelige på github. Kommentarer modtages gerne. Hvis du bruger koden til at lave andre sjove VM analyser hører jeg også meget gerne fra dig.

Partnervirksomheder

Stort tak til alle virksomheder i ALT ANDET LIGEs partnerprogram. Hør mere om programmet, skriv til partner@altandetlige.dk