Know Thy Nearest Neighbour - The Netflix Prize

Det var en kold, grå fredag. Den sidste af sin slags i verdenshistorien. Selv med lugten af guldfasanen i tøjet og smagen af Gammel Dansk i kraniet kunne jeg ikke ignorere, at det var noget særligt. Hjem og få liv i computeren, og så var hun der. Den ærefrygtindgydende vise nye roomie, som jeg efterhånden har delt så (for?) mange stunder med. Det ultimative svar på det moderne informationsdruknende individs gurglende klageråb; “Men hvad skal jeg dog vælge? Hvilken serie? Hvilket album?” Netflix er navnet, og hun har gået sin sejrsgang over USA et godt stykke tid efterhånden og er nu endelig kommet til Danmark. Udvalget er ikke helt, hvad man kunne håbe, men jeg fnes stadig som en lille pige og gned mine fedtede hænder da den første gang bad mig give stjerner til en film. Og nå ja, jeg har lige overstået min sidste eksamen på Peter Bangsvej nogensinde overhovedet og det er det verdensændrende, men tilbage til det spændende.

Den 2. Oktober, 2006, en sikkert lige så kold efterårsdag, skød Netflix deres nyskabende konkurrence i gang, The Netflix Prize. Præmien var på USD 1,000,000; Målet var så simpelt at forstå som det var uforståeligt for ikke uvidende – Slå Netflix' algoritme i at gætte brugeres rating af film streamet fra sitet med mindst 10% (målt i Root Mean Squared Error, RMSE). Alle der ville deltage kunne få datasættet, som indeholder over 100 mio observationer af (bruger, film, dato for rating og rating), hvor rating er målt 1 til 5 stjerner. Præcis de samme stjerner, som jeg nu lykkeligt har smidt omkring mig som en anden Super Mario på vandretur i nørdehimmelen. Netflix udleverede så 100 mio observationer og beholdt 1 mio, hvor kun juryen beholdt de observerede ratings.

Det tog 6 dage efter konkurrencens start, så havde et hold forskere slået Netflix' egen algoritme, men der skulle gå næsten 3 år før team BellKor's Pragmatic Chaos (wtf?) kom i hus med en forbedring på 10,06%. En på samme tid imponerende kraftpræstation af utilnærmelig matrixtrylleri, men som i sin kerne skjuler på en ganske simpel teknik, som efter undertegnedes ydmyge mening kan og bør læres af alle dataengagerede folk i den akademiske såvel som den virkelige verden.

Bag al den storslåede notation og alle badass-begreberne gemmer der sig den uskyldige og intuitive kNN estimator – k Nearest Neighbours. Ideen er basalt set, at man betragter problemet som et missing data problem, hvor man observerer et sæt ratings for en person, men mangler hans ratings af en ny film, som man overvejer at anbefale ham. Problemet løses ved at finde hans ”naboer”, forstået som folk, der har givet ratings, der minder meget om hans (se figur 1, gentaget fra Koren & Volinsky, 2009). For eksempel ved Netflix pt, at jeg var glad for The Matrix, Kill Bill, Minority Report og The Godfather. Ud fra det opdager den måske så, at jeg har mange sci-fi nørder til nabo, og at jeg måske også har et par wannabe film hipstere til nabo. Men endnu bedre, den kan finde mig de naboer, som er wannabe hipster sci-fi nørder, og det kan være derfor den har anbefalet mig at se Barbarella – Queen of the Universe (http://www.imdb.com/title/tt0062711/)... Hmm..

Uden at gå for meget i detaljer smækker de Israelske supernørder så en ordentlig røvfuld fixed effects ind for alle mulige kombinationer af de variable, de har, og opdager for eksempel, at én af de ting, der virkelig skiller folk er præferencer for tid siden en films udgivelsestidspunkt (nydelsen i at være den første til at skrive om det var butleren der gjorde det på facebook, antageligvis). En anden af mine favoritter er, i hvor høj grad et givent individ følger gennemsnitsvurderinger, hvad jeg personligt ville døbe den Inverse HipsterKoefficient (IHK; domænet er desværre allerede købt af ingeniørhøjskolen København, har tjekket). Til de teknisk interesserede derude fandt deltagerne frem til, at latente faktormodeller (aka faktoranalyse, jf. faget af Milhøj) var overlegne, se figur 2 (også fra Koren & Volinsky, 2009).

Nå, de 3 R'er; Relevans, revolution og praktisk implementerbaRhed. Hvorfor er det vigtigt, hvordan ændrer det verden og hvordankan du, kære polit, blive millionær på det. Simpelt! Godmorgen og velkommen til den digitale æra. Bemærk blot hvor mange virksomheder, der nu tilbyder, at man kan logge ind med sin facebook os så skal den da nok ”være sød at indtaste det for dig, dit stakkelt pus, så du ikke skal sdave dig gennem din email”. Paneldata siger jeg bare. Min hypotese er, at det er begyndelsen på en ny æra af informationsoverload i virksomhederne, og som lige nu er synonym med en meget stor gruppe pløk forvirrede stakler, der sidder med 80 variable foran sig og trykker febrilsk på OLSen knappen med samtlige kombinationer af variable, der kan tages med... beklageligvis giver det med to muligheder for hver variabel (med eller ej) ti gange så mange kombinationer som der er stjerner i universet.

Og det er nu, kære polit, at $-tegnene i øjnene må lyse, for ideen fra BellKor's Pragmatic Chaos (stadig... wtf) er handy – de repræsenterer en ny tilgang, hvor estimatoren finder grupper frem, som forskeren ikke selv havde tænkt på, og som lader ”data tale frit”. I særdeleshed med matrix factorization tilgangen (bemærk om figur 2, at han vs hun og seriøs vs eskapist blot er en fortolkning, som ex poster lagt ned over resultaterne). Fra elfenbenstårnet ville nok beskylde det for at være ateoretisk og forvente at blive forkastet af nyt data. Men imod det må man bare konstatere, at algoritmen jo virkede på data, som den ikke var tjekket på, og at denne datasituation er forskellig fra de typiske akademiske; Der kommer konstant nyt data til, og estimaterne skal selvfølgelig være adaptive og kunne tilpasse sig over tid. Og det er meget nemt at vurdere rigtigheden af resultaterne – algoritmen skal gætte rigtigt på den næste vurdering, hvilket man så får. Der er ikke tale om forecast af et abstrakt, teoretisk counter-factual alternativ, hvor virkeligheden så anderledes ud. Det repræsenterer en tilgang som jeg bestemt ikke tror på er relevant for at forudsige folks karrierevalg eller andre mere traditionelle økonomspørgsmål, men der er noget helt unikt om netop Netflix' problemstilling som gør problemet velegnet til dette værktøj. Personligt tror jeg det drejer sig om, at i mere traditionelle økonometriske spørgsmål ser man på beslutninger, der involverer meget mere kompleks adfærd. Eller omvendt, at i beslutningen om filmvalg bliver vi måske mere flokdyr og at det gør de økonometriske værktøjer så velegnede. I alle tilfælde spår jeg, at fremtidens tjenester vil være uhyggeligt gode til at komme med anbefalinger.

Relevansen for samfundet tror jeg er groft undervurderet. Internettet og de informationsgoder, som fx film, musik og viden repræsenterer er ikke-rivaliserende og det eneste problem er den uoverstigelige indsats i at gå igennem hele Spotify's musikbibliotek eller samtlige Wikipediaartikler. Jeg er ked af at rage uklar med Den Hellige Bibel her, men jeg tror på, at der findes en free lunch i at få opgraderet brugerspecifikke anbefalinger på internettet overalt fra Spotify of Netflix til Politiken, TED og, ja, AltAndetLige.

Og hvis du har fået blod på tanden for at konkurrere i økonometri, så tjek for eksempel The Heritage Health Prize, hvor der er nørdeære, verdensherredømmet og USD 3 mio på spil i en lignende konkurrence, hvis man kan forudsige, hvem der gør brug af deres sygesikring ud fra historiske data.


Heritage Health Prize: http://www.heritagehealthprize.com/c/hhp

Bell and Koren (2007) – om BellKor løsningsalgoritmen: http://winslab.cnu.ac.kr/resource/LabSeminar/Seminar2008-1/[14]Improved%20Neighborhood-based%20Collaborative%20Filtering.pdf

Information om adgang til Netflix data: http://winslab.cnu.ac.kr/resource/LabSeminar/Seminar2008-1/[14]Improved%20Neighborhood-based%20Collaborative%20Filtering.pdf

Koren and Volinsky (2009) – om hvordan en udvidelse, der brugte faktoranalyse (jf. Milhøj-fagene) viste sig at være super effektiv til at finde ”typer” af film frem: http://www.research.att.com/~volinsky/papers/ieeecomputer.pdf

Partnervirksomheder

Stort tak til alle virksomheder i ALT ANDET LIGEs partnerprogram. Hør mere om programmet, skriv til partner@altandetlige.dk