Sebastian  Barfort

Tager Goldman Sachs fejl? - og bør de europæiske hold frygte VM i Brasilien?

Goldman Sachs VM-model implicerer, at sandsynligheden for at Brasilien slår Holland, Uruguay, Tyskland og Argentina er den samme som for at Manchester City hjemme slår Norwich, West Brom, Hull og Fulham i Premier League. Er det realistisk? Og hvor meget betyder afstande egentlig for resultaterne ved VM?

Den 26. oktober 2010 var nok ret få mennesker i akvariet i Oberhausen klar over hvor alvorlig en begivenhed de var vidne til. Der døde blæksprutten Paul nemlig (af naturlige årsager - heldigvis). For dem der ikke husker det var blæksprutten Paul bedre end de fleste professionelle analytikere til at forudsige resultatet af Tysklands kampe ved VM i 2010, og det er dermed lidt af et tomrum der skal udfyldes hvis vi skal gøre os noget begreb om hvem der vinder VM i Brasilien der starter nu på torsdag.

Det er åbenlyst umuligt at erstatte en synsk blæksprutte, og et mere jordnært alternativ er at estimere sandsynligheden i en eller anden form for statistisk model.
To interessante forsøg på netop dette kom i forrige uge fra henholdsvis Goldman Sachs og Danske Bank. Begge modellerer sandsynligheden for at vinde VM statistisk, og det er bemærkelsesværdigt, at Danske Bank, der blander økonomiske og sportsrelaterede variable i deres model, når stort set samme resultat som Goldman, der udelukkende benytter sportsdata. Ifølge Danske Bank er der 45% sandsynlighed for at Brasilien eksploderer i glædesrus når finalen slutter den 13. juli. Goldman ligger en smule højere og estimerer sandsynligheden til 48,5%. Begge har Argentina som outsider med henholdsvis 8,1% og 14,1% sandsynlighed for at tage pokalen med hjem.

Det interessante er at begge bankers bud på Brasiliens sandsynlighed for at vinde ligger langt højere end den underliggende sandsynlighed der afspejles i betting markedernes odds på de forskellige hold. Jeg har holdt øje med de 12 største engelske bookmakeres odds over de sidste par uger, og de ser således ud

Hvis vi tager Danske Bank og Goldmans estimater for gode varer er der altså masser af free lunch på betting markederne i øjeblikket. Oddset på Brasilien er i så fald sat alt for højt, så vi har forventet profit af at spille på dem som vinder ved VM. Jeg er selv kunde i Danske Bank, og har da overvejet at ringe derned og høre om de vil låne mig et stort beløb til min investeringsidé, som givet deres egne estimater har en ret stor positiv forventet værdi. Før man gør det er der imidlertid nok behov for lige at stoppe op og overveje, om det er betting markederne eller de to banker der tager fejl af sandsynlighederne.

Det første man bemærker af ovenstående figur er at der ikke er nogen form for diskontinuitet omkring 27. maj, hvor Goldman offentliggør deres rapport, eller 28. maj, hvor Danske Bank offentliggør deres. Begge raporter er offentligt tilgængelige, og Goldmans har været refereret i både NYT, WSJ og the Guardian. Den mest oplagte grund til at markedet ikke bevæger sig er nok, at der ikke rigtig er nogen der tror på de to meget høje estimater på Brasilien. Og det er der muligvis god grund til.

Vi har længe vidst, at betting markeder kan være en attraktiv mekanisme til at samle og aggregere information, hvis denne er spredt blandt mange aktører. Det skyldes dels at det sorterer cheap talk fra, og dels, at profitmotiveret giver incitament til at undersøge en sag nærmere og blive klogere på problemstillingen. Denne erkendelse har fået virksomheder som Google og Hewlett-Packard til i årevis at køre interne betting-markeder om alt fra, hvor mange brugere der i fremtiden vil benytte Gmail, til hvordan nye HP-produkter vil sælge.

Hvis man gerne vil forsøge intuitivt at forstå om de to bankers sandsynligheder er sat for højt kan vi prøve med følgende lille tankeeksperiment (som jeg så på Twitter forleden):
Brasilien skal efter gruppespillet igennem 4 knockout kampe. Hvis den samlede sandsynlighed for gevinst skal være 48,5%, kan vi spørge os selv hvilken sandsynlighed Brasilien skal have for at vinde hver kamp der er konsistent med at Brasilien vinder alle 4 kampe knap halvdelen af gangene. Her er binomialfordelingen vores ven og den individuelle sandsynlighed er lige omkring 83,5% (da 0,835^4 = 0.486).
Ifølge Goldmans model står Brasilien til at møde Holland, Uruguay, Tyskland og Argentina i de fire kampe, og deres estimat på 48,5% implicerer altså, at Brasilien med 83,5% sandsynlighed vinder hver af de kampe.
For at give os en ide om hvor højt det er har jeg fundet betting market data frem fra Premier League sæsonen 2013-14. Jeg har fokuseret på Manchester City der vandt ligaen nogenlunde sikkert. Her er fire hjemmekampe hvor betting markederne vurderede sandsynligheden for at City vandt lige omkring de 83%


Home TeamAway TeamProbability
1Man CityNorwich84.03
2Man CityWest Brom84.03
3Man CityHull86.21
4Man CityFulham86.96

Af de 4 hold rykkede Norwich og Fulham ned, mens Hull og West Brom blev henholdsvis nr. 16 og 17. Så med andre ord: Goldman Sachs model implicerer, at sandsynligheden for at Brasilien slår Holland, Uruguay, Tyskland og Argentina ved VM er stort set den samme som for at Manchester City hjemme slår Norwich, West Brom, Hull og Fulham i Premier League. Realistisk? det synes betting markederne sjovt nok ikke.

En andet mistænkeligt aspekt ved Goldman Sachs' model er fordelingen af mål scoret i gruppespillet. Goldman forudser at langt størstedelen af holdene scorer 1 mål per kamp. Jeg har hentet resultaterne fra gruppespillet ved VM 2010, og her er fordelingen af mål scoret per hold per kamp i Goldmans model sammenlignet med fordelingen af faktisk scorede mål VM 2010

Som figuren viser er der ret stor diskrepans mellem forventede mål per hold per kamp og faktisk scorede mål i 2010. Bemærk at det ikke nødvendigvis betyder at Goldmans model er forkert, men at den forudsiger, at Cameroon som det eneste hold ikke formår at score i gruppespillet gør mig en smule urolig.

Jeg vil gerne understrege, at min pointe ikke er at hænge hverken Goldman Sachs eller Danske Bank ud. Tværtimod skal de have stor ros for at lægge deres metode frem og estimere deres modeller med offentligt tilgængeligt data. Når jeg alligevel ikke tror så meget på resultaterne er det snarere fordi jeg tror deres modeller er for simple. Det kan selvfølgelig godt ses som en svaghed, til gengæld giver det alle med en computer mulighed for at udvide modellerne med nye variable, og det kan jeg selvfølgelig ikke stå for.

Jeg har ofte spekuleret over hvorvidt afstanden mellem to lande har en betydning for resultatet. Denne variabel indgår ikke i hverken Goldman eller Danske Banks model, men det kunne den sådan set godt. Det er (relativt) nemt at generere en variabel der måler afstanden i km mellem to lande. Jeg har gjort det simpelt og målt afstanden mellem landenes hovedstader. Derudover har jeg indsamlet samme type data som Goldman og Danske Bank bruger. Jeg har scrapet kampinformation fra ELOratings, økonomisk data fra Penn World Tables, Balon D'or data fra wikipedia og forskellige småting rundtomkring (detaljerne kan findes her).

Jeg estimerer nu samme model som Danske Bank med en yderligere variabel, nemlig afstanden mellem hjemme- og udeholds hovedstad målt i kilometer. Jeg inkluderer også denne variabel i anden for at tillade en mere fleksibel form. Den afhængige variabel er forskel mellem mål scoret af hjemme- og udehold, og jeg estimerer modellen på alle landskampe minus træningskampe siden 1960 (samme metode som i Goldman Sachs modellen, N = 6.258).
Både afstandsvariablen og afstandsvariablen i anden er signifikante på 1% niveau, og har de forventede tegn: jo større afstand i km der er mellem hjemme- og udehold, jo bedre er det for hjemmeholdet. Denne effekt er dog aftagende, og reduceres ligefrem for meget store afstande (det er dog usikkert da N er relativt småt for større afstande end 10.000 km). Vi kan plotte effekten af afstand således

Bemærk at denne graf er ret dårligt nyt for de europæiske hold. Jeg holder altid med Italien når Danmark ikke deltager, og der er præcis 8.789 km mellem Rom og Brasilia, hvilket ifølge mine estimater svarer til en målforskel på ca 0,4 mål i Brasiliens favør skulle de to hold mødes til VM.

Ovenstående viser at det med en smule arbejde burde være muligt at forbedre den type statistiske modeller som Danske Bank og Goldman bruger når de predikterer mulige vindere af VM, således at vi i fremtiden er bedre til at forudsige resultaterne end det næste synske dyr medierne graver frem. Desværre viser ovenstående også, at Italien næppe vinder VM til sommer, og at det muligvis kan være en idé at have en esktra sydamerikaner på dit VM-drømmehold denne gang.

Al rådata og samtlige filer der genererer ovenstående er tilgængelige på github. Kommentarer modtages gerne. Hvis du bruger koden til at lave andre sjove VM analyser hører jeg også meget gerne fra dig.

10 kommentarer


Jakob Saugbjerg Kristensen

Jakob Saugbjerg Kristensen @ d. 10. june 2014 #1

KUs University Post har også i dag en artikel om nogle tyske økonomer og sociologer, der benytter den samlede markedsværdi af holdenes spillere som forklarede variabel. Det lyder også som en fornuftig måde at aggregere en masse information om spillernes individuelle kvaliteter.
Link:
http://universitypost.dk/article/world-cup-scientists-know-exactly-who-going-win?utm_source=Universitypost+via+mailman+-+UK&utm_medium=newsletter&utm_campaign=Scientists%3A+This+team+will+win+the+World+Cup+%2F+Danish+as+spoken+in+America


Ole Smidth

Ole Smidth @ d. 10. june 2014 #2

I sammenligningen med ManCity og odds fra Premier League er der så vidt jeg kan se en vigtig forskel. I Premier League kan kampe slutte uafgjort, det kan de ikke på samme måde i knockoutkampe ved VM. Hvordan tager man højde for det?


Patrick Kofod Mogensen

Patrick Kofod Mogensen @ d. 11. june 2014 #4

Bruger en sandsynlighedsmodel, som kan have mere end to udfald: fx multinomial probit.


Christian Stassen

Christian Stassen @ d. 12. june 2014 #5

Hvis du spoerger folk der arbejder i Goldman er der ikke mange der er enige i deres 48.5% estimat - som alle siger naar vi snakker om det, "yours".

Det er nu nemt nok at forklare hvorfor modellen siger hvad den goer:
1) europaeiske hold har aldrig vundet et VM i sydamerika
2) udover argentina er brasilien det eneste hold i SA der har vundet VM i nyere tid (og argentina er knap "nyere tid" laengere

Udover Bras og Argentina er det kun Tyskland, Spanien og Holland som levnes en signifikant chance, hvilket igen er nemt at forklare givet deres success paa baade klubplan og landsholdsniveau de sidste par aar..

Man kan dog sige at det maaske betyder at hold som England, Italien, Portugal, Frankrig og endda maaske USA er underprisede, baade i en model som denne og saa i odds.


Patrick Kofod Mogensen

Patrick Kofod Mogensen @ d. 12. june 2014 #6

Det gør det vel næppe til en bedre model, at det er nemt at forklare hvorfor den er dårlig :) "Man" har jo trods alt valgt at offentliggøre tallet.


Christian Stassen

Christian Stassen @ d. 12. june 2014 #7

Haha ja det har du ret i. Jeg synes ogsaa det estimat er lidt "pinligt", dog skal det siges at pointen med rapporten ikke er at lave en super serioes research raport som skal bruges til at tjene penge, men snarere at lave lidt sjov laesning for bankens kunder. For eksempel er maaden hvorpaa beskrivelsen af landenes fodboldhold foerer over i noget snak om landets oekonomi ikke ment som et forsoeg paa at sige at fodbold og GDP er specielt korrelerede.

Saa det er de "kedelige bankfolks" forsoeg paa at lave lidt sjov og ballade.

(og jo, jeg synes at en model er bedre hvis man kan forklare hvorfor den er daarlig end hvis man ikke kan - enhver model er daarlig iom den ikke kan forklare virkeligheden 100%, men hvis det er tydeligt hvor den fejler er den mere brugbar end en model der ikke viser det da man i saa fald kan justere "manuelt" nemmere)


Patrick Kofod Mogensen

Patrick Kofod Mogensen @ d. 12. june 2014 #8

Ud fra dit "Haha", tror jeg godt du ved, at min kommentar var drillende og bevidst forsimplende. Naturligvis er en analyse bedre og mere anvendelig, hvis man er klar over dens svagheder.


Mikael Olai Milhøj

Mikael Olai Milhøj @ d. 12. june 2014 #9

@Patrick

Modellen er sikkert dårlig, men det er da stadigvæk meget sjov. Bidrager jo til lidt skæg og ballade :)


Patrick Kofod Mogensen

Patrick Kofod Mogensen @ d. 12. june 2014 #10

Derfor må man vel godt drille lidt! Heldigvis var sandsynligheden da i intervallet [0,1] :)


Ditlev Vang Wildt

Ditlev Vang Wildt @ d. 12. june 2014 #11

Et problem ved alle tre analyser, som jeg ser det, er brugen af Fifa's rangeringssystem, som om det faktisk angiver de indbyrdes styrkeforhold mellem holdene.

Som det er nu ligger Schweiz fx nummer 6 (http://www.fifa.com/worldranking/rankingtable/) mens Holland og Frankrig ligger nummer hhv. 15 og 17. Jeg tror, de færreste fodboldinteresserede ville spille på Schweiz over Holland eller Frankrig, hvis de stod i knockout mod hinanden ;)

Skulle et land ønske det, er det muligt, gennem sine valg af kampe, at manipulere sig til en højere eller lavere rangering. Der tages ikke højde for, om det er hjemmekamp eller udekamp, og på den måde vil man ved at skaffe sig hjemmebanefordel oftere i venskabskampe kunne placere sig højere. Hvad værre er, er at der i nogle sammenhænge gives incitament for gode lande til blankt at afvise, at spille mod svage lande, eller for lande som Schweiz til helt at afvise at spille venskabskampe. Pointsystemet, som rangeringen bygger på, er indrettet sådan, at der gives et antal point for hver kamp givet udfaldet vægtet med forskellige ting, fx giver venskabskampe færrest point og sejre over lavere rangerede hold lige så. Scoren betyder intet; vinder man 1-0 eller 12-0 gives samme point. Herefter udregnes et tidsvægtet gennemsnit af pointene fra de seneste 4 år, og rangeringen fastslås.

Det betyder, at et land som fx Spanien uanset resultatet vil tabe point ved at indgå i en venskabskamp mod et lavtrangeret land, mens et land som Schweiz, der har spillet meget få venskabskampe, men været heldige at møde relativt lette hold i vigtige kampe, vil tabe point ved at spille venskabskampe generelt.


Tak for din kommentar!
Skriv venligst en kommentar der er længere end 5 tegn

Skriv en kommentar

Log ind for at kommentere - eller opret en bruger

Sebastian Barfort

Jeg er Ph.D. studerende på Institut for Økonomi ved Københavns Universitet. Mine primære forskningsområder omfatter dannelsen af ​​politiske præferencer og vælgeradfærd, og mere generelt, samspillet mellem politik og økonomi.