Big data og efterspørgslen på arbejdsmarkedet

Det satte vi os for at finde ud af i Højbjerre Brauer Schultz, da virksomheden blot lige var startet i efteråret 2015. Vi startede op fra bunden med en stor mængde digitale jobopslag fra de sidste 10 år og masser af gå-på-mod. Jobopslag er spækkede med information. Om den åbne stilling(er), om de kompetencer, uddannelser og andre egenskaber, der efterspørgers, om virksomheden, om arbejdstid osv. Alle disse informationer skulle vi trække ud af jobopslagene, men vi stod primært med programmeringserfaring inden for statistikken.

Vi skulle med andre ord begynde at bruge tekstanalyse, data mining og machine learning metoder. Planen blev først at lære Python til data mining og dernæst opsætte en infrastruktur, så det var muligt at lave statistik på de systematiserede jobopslagdata i R. Det lykkedes, og i dag har vi opbygget en jobopslagsdatabase med det mundrette  navn ”HBS-Jobindex”, som indhenter, systematiserer og kategoriserer jobopslag. Og der kommer nye jobopslag hver dag, så der er nok at tage fat på.

Undervejs har vi fået mulighed for at arbejde med databasen på en række projekter. Blandt andet har vi lavet en analyse for Uddannelses- og Forskningsministeriet, som skulle indgå som vidensgrundlag for regeringens sprogstrategi. Opgaven gik ud på at analysere efterspørgslen efter sproglige kompetencer. Så var det ellers bare at gå i gang med at lave en algoritme, som kunne identificere sprog, sprogkompetencer og -niveau i jobopslag. Men hvilken model var det bedste valg for at løse netop denne opgave. Vi prøvede en support vector machine model, en random forest model og andre modeller, men fandt til sidst ud af, at en logistisk regression var bedst til at identificere sprog i jobopslag.

En anden opgave bestod i at kortlægge kompetenceefterspørgsel inden for en bestemt faggruppe. Her var opgaven først at afgrænse populationen af jobopslag til netop den relevante faggruppe. Herefter kortlagde vi via tekstanalyse de kompetencer og egenskaber, der blev efterspurgt inden for faggruppen. Og til sidst testede vi så, hvilke kompetencer og kombinationer af kompetencer, som netop er afgørende for denne faggruppe.

Der er fortsat lang vej tilbage, og vi bliver nok aldrig helt færdige med at udvikle databasen. Det vi allerede har lavet, kan forbedres, og vi får løbende nye idéer til, hvad databasen kan bruges til. Et af de udviklingsprojekter vi er i gang med, er at koble jobopslagsdata sammen med Danmarks Statistiks virksomhedsdata via cvr-nummeret. Det er et projekt vi laver sammen med bl.a. Daniel le Maire og Nikolaj Harmon fra Københavns Universitet og Fane Groes fra Copenhagen Business School. At kunne koble virksomheders arbejdskraftefterspørgsel med informationer om, hvorvidt de ansætter en medarbejder til den pågældende stilling, og hvem de i givet fald ansætter, gør det muligt at svare på et væld af interessante forskningsspørgsmål, som man hidtil ikke har haft gode nok data til at kunne besvare. Det kan forhåbentligt gøre os meget klogere på hvordan man i fremtiden skal tilrettelægge for eksempel beskæftigelses- og uddannelsespolitik


Partnervirksomheder

Stort tak til alle virksomheder i ALT ANDET LIGEs partnerprogram. Hør mere om programmet, skriv til partner@altandetlige.dk