Sådan crawler du et lækkert datasæt fra nettet!

Vi kender det alle, når man som ung nysgerrig stud.polit surfer rundt på det store internet og falder over en flot struktureret tabel og sidder der med sin store begejstring og tænker: ”Hvordan får jeg lige fingrene i den flotte tabel”. Jeg vil her gennemgå en metode der letter arbejdet med at crawle kæmpe tabeller og smide det over i excel.

Programmet jeg vil gennemgå, er den første toolbar du godt vil have installeret i din browser! Data Tool bar. Jeg har valgt at installere det i Chrome/Firefox-version, men det fungerer også i Internet Explorer.

Når du har installeret det og åbner det, så vil du bemærke at det minder om en helt normal browser du har åbnet, blot med den lille tilføjelse at der oppe i venstre hjørne sidder en lille Data Tool Bar-knap du kan åbne.


Jeg vil nu bruge det på den flotte tabel-strukturerede side jeg har fundet, i dette tilfælde Lauritz.com. Jeg er gået ind på Lauritz.com og har opsat en søgning udfra de kriterier jeg godt kunne tænke mig at vide. I dette tilfælde vil jeg godt teste om hvor gode de er til at lave vurderinger, eller om vurderingen bestemmer prisen på varen (Det kommer lidt an på hvilken konklusion du er blevet betalt for at lave). Så jeg har opsat en søgning på de auktioner der er afsluttet indenfor 24 timer, og så har jeg trykket på Data Tool. Den åbner så nedenstående vindue.


Nu kan jeg så begynde at tilføje de informationer jeg godt vil have, at den skal crawle på siden. Så for den første vare, (en meget flot kasse til at opbevare to ure!), tilføjer jeg vurdering. Når Data Tool Bar er åben, så vil den markere det element du har åbent med gul baggrund. Når du så trykker på denne markering, så tilføjer den elementet i programvinduet.


Jeg tilføjer så variablene beskrivelse, vurdering, showroom, udløbstid og hammerslag og trykker ”Get Data”

Efter ca. 5 sekunder er den færdig med at crawle siden og fremviser stolt, som en hund der lige har hentet pinden, sit resultat.


Man kan nu hurtigt se at det ikke er alle varer, der er blevet solgt på Lauritz i de sidste 24 timer. Efter den har crawlet siden kan du nu gemme dit crawl i dit yndlings-rådataformat. Jeg har valgt .xlsx.

Programmet har dog også flere smarte og lidt mere avancerede indstillinger, som jeg lige vil gennemgå de mest gængse af.

”Set next element”

I din jagt på data vil du hurtigt løbe ind i problemet med, at folk der ikke kan lide store tabeller, brækker dem midt over og laver flere sider. STRENGT!! Data Tool Bar har heldigvis en klog funktion til det, nemlig ”Set Next Element”. Når du har valgt de elementer den skal crawle, så trykker du på ”Set Next Element” og så skal du vælge den knap på siden der får dig til næste side. Se billedet herunder. Så er du klar til at trykke Get Data.

Du kan nu følge med i at programmet crawler siderne, og når den har besluttet at der ikke er mere at hente, så stopper den og fremviser stolt igen.

”Action”

Du kan derudover sætte en ”action” på din crawler, hvilket vil sige at du kan få den til at klikke sig ind på ting og crawle undersider.  I dette tilfælde kan vi sætte den til at åbne alle varerne og hente noget mere data.

Jeg har trykket på varens overskrift og trykker nu på det grønne plus under action.

Frem kommer en ny lille boks med teksten ”Open”. Data Tool Bar har nu forstået, at det faktisk er et link det her, og man kan trykke på det. Tryk på knappen og du kan se at programmet trykker på knappen, da vi nu kommer ind på vores uræskes side. I mange tilfælde vil der være ekstra informationer vi kan hente. Nu sætter vi crawleren op til at hente elementerne fra undersiden, og når vi er færdige med det, så trykker vi ”back” nede i venstre hjørne.


Tryk Get Data og du kan nu følge med i, at crawleren trykker løs på alle varer og henter de informationer på undersiden vi bad om.

Nu er du så klar til at skyde dit dataset af i dit yndlings statistikprogram.

Programmet har en gratis version, som er den jeg har brugt i eksemplet. Den har dog et max på 100 rækker, så hvis du skal hente mere skal du altså købe det. Det koster $24, hvilket er godt givet ud hvis du skal crawle 1000 siders data.

Programmet har også flere funktioner, fx kan du sætte en timer på, som så eksekverer en crawling du har sat op hver time. Så hvis du overvejer at skrive bachelor om kortsigts fluktuationer på portvinsmarkedet, så kan du også lave et datasæt til det.

Du skal dog lige passe lidt på, da det ikke er alle sider der er lige tilfredse med at dig og din crawler lige kommer forbi og ”låner” alt indhold. Undertegnede fik spærret sin gamle chefs Linkedin-profil, da undertegnede lige skulle vise en sej måde at skaffe alle chefens connections ned i et excelark på. (Heldigvis åbnede de den igen efter 24 timer, ellers havde jeg nok ikke været i live til at kunne skrive det her). 


Partnervirksomheder

Stort tak til alle virksomheder i ALT ANDET LIGEs partnerprogram. Hør mere om programmet, skriv til partner@altandetlige.dk