Sådan crawler du et lækkert datasæt fra nettet!

Thomas Motzfeldt

Har du fundet en stor flot tabel på internettet som du bare MÅ eje i dit eget excelark? Eller har du et job hvor du ofte får til opgave at copy/paste en masse informationer fra nettet. Her er et program der måske kan hjælpe dig.

Vi kender det alle, når man som ung nysgerrig stud.polit surfer rundt på det store internet og falder over en flot struktureret tabel og sidder der med sin store begejstring og tænker: ”Hvordan får jeg lige fingrene i den flotte tabel”. Jeg vil her gennemgå en metode der letter arbejdet med at crawle kæmpe tabeller og smide det over i excel.

Programmet jeg vil gennemgå, er den første toolbar du godt vil have installeret i din browser! Data Tool bar. Jeg har valgt at installere det i Chrome/Firefox-version, men det fungerer også i Internet Explorer.

Når du har installeret det og åbner det, så vil du bemærke at det minder om en helt normal browser du har åbnet, blot med den lille tilføjelse at der oppe i venstre hjørne sidder en lille Data Tool Bar-knap du kan åbne.


Jeg vil nu bruge det på den flotte tabel-strukturerede side jeg har fundet, i dette tilfælde Lauritz.com. Jeg er gået ind på Lauritz.com og har opsat en søgning udfra de kriterier jeg godt kunne tænke mig at vide. I dette tilfælde vil jeg godt teste om hvor gode de er til at lave vurderinger, eller om vurderingen bestemmer prisen på varen (Det kommer lidt an på hvilken konklusion du er blevet betalt for at lave). Så jeg har opsat en søgning på de auktioner der er afsluttet indenfor 24 timer, og så har jeg trykket på Data Tool. Den åbner så nedenstående vindue.


Nu kan jeg så begynde at tilføje de informationer jeg godt vil have, at den skal crawle på siden. Så for den første vare, (en meget flot kasse til at opbevare to ure!), tilføjer jeg vurdering. Når Data Tool Bar er åben, så vil den markere det element du har åbent med gul baggrund. Når du så trykker på denne markering, så tilføjer den elementet i programvinduet.


Jeg tilføjer så variablene beskrivelse, vurdering, showroom, udløbstid og hammerslag og trykker ”Get Data”

Efter ca. 5 sekunder er den færdig med at crawle siden og fremviser stolt, som en hund der lige har hentet pinden, sit resultat.


Man kan nu hurtigt se at det ikke er alle varer, der er blevet solgt på Lauritz i de sidste 24 timer. Efter den har crawlet siden kan du nu gemme dit crawl i dit yndlings-rådataformat. Jeg har valgt .xlsx.

Programmet har dog også flere smarte og lidt mere avancerede indstillinger, som jeg lige vil gennemgå de mest gængse af.

”Set next element”

I din jagt på data vil du hurtigt løbe ind i problemet med, at folk der ikke kan lide store tabeller, brækker dem midt over og laver flere sider. STRENGT!! Data Tool Bar har heldigvis en klog funktion til det, nemlig ”Set Next Element”. Når du har valgt de elementer den skal crawle, så trykker du på ”Set Next Element” og så skal du vælge den knap på siden der får dig til næste side. Se billedet herunder. Så er du klar til at trykke Get Data.

Du kan nu følge med i at programmet crawler siderne, og når den har besluttet at der ikke er mere at hente, så stopper den og fremviser stolt igen.

”Action”

Du kan derudover sætte en ”action” på din crawler, hvilket vil sige at du kan få den til at klikke sig ind på ting og crawle undersider.  I dette tilfælde kan vi sætte den til at åbne alle varerne og hente noget mere data.

Jeg har trykket på varens overskrift og trykker nu på det grønne plus under action.

Frem kommer en ny lille boks med teksten ”Open”. Data Tool Bar har nu forstået, at det faktisk er et link det her, og man kan trykke på det. Tryk på knappen og du kan se at programmet trykker på knappen, da vi nu kommer ind på vores uræskes side. I mange tilfælde vil der være ekstra informationer vi kan hente. Nu sætter vi crawleren op til at hente elementerne fra undersiden, og når vi er færdige med det, så trykker vi ”back” nede i venstre hjørne.


Tryk Get Data og du kan nu følge med i, at crawleren trykker løs på alle varer og henter de informationer på undersiden vi bad om.

Nu er du så klar til at skyde dit dataset af i dit yndlings statistikprogram.

Programmet har en gratis version, som er den jeg har brugt i eksemplet. Den har dog et max på 100 rækker, så hvis du skal hente mere skal du altså købe det. Det koster $24, hvilket er godt givet ud hvis du skal crawle 1000 siders data.

Programmet har også flere funktioner, fx kan du sætte en timer på, som så eksekverer en crawling du har sat op hver time. Så hvis du overvejer at skrive bachelor om kortsigts fluktuationer på portvinsmarkedet, så kan du også lave et datasæt til det.

Du skal dog lige passe lidt på, da det ikke er alle sider der er lige tilfredse med at dig og din crawler lige kommer forbi og ”låner” alt indhold. Undertegnede fik spærret sin gamle chefs Linkedin-profil, da undertegnede lige skulle vise en sej måde at skaffe alle chefens connections ned i et excelark på. (Heldigvis åbnede de den igen efter 24 timer, ellers havde jeg nok ikke været i live til at kunne skrive det her). 


9 kommentarer


Anders Munk-Nielsen

Anders Munk-Nielsen @ d. 02. november 2014 #1

Fed artikel, tak for indsatsen :) Sejt at nogen har lavet et point-and-click program til at crawle...


Thomas Motzfeldt

Thomas Motzfeldt @ d. 02. november 2014 #2

Tak skal du have. Jeg har testet en del crawlere, og den her er klart den letteste at bruge.


Kristian Lauritsen

Kristian Lauritsen @ d. 02. november 2014 #3

Tusind tak! Lige det jeg stod og manglede! :)


Patrick Kofod Mogensen

Patrick Kofod Mogensen @ d. 02. november 2014 #4

Nice try Agent "Laurit[z]en"... Jeg tror vi kan forvente auktionshusets hjemmeside patchet en af dagene, så "Data Tool Bar" ikke længere virker!


Anders Munk-Nielsen

Anders Munk-Nielsen @ d. 02. november 2014 #5

Hahahaha :D


Kristian Lauritsen

Kristian Lauritsen @ d. 04. november 2014 #6

Haha, det tror jeg ikke jeg ville ligge søvnløs omkring :) Nogen der har erfaringer med den betalte version?


Thomas Motzfeldt

Thomas Motzfeldt @ d. 04. november 2014 #7

Ja - jeg har købt det. Det er vidst kun begrænsningen med de 100rækker der ændres.


Rasmus Møllerhøj

Rasmus Møllerhøj @ d. 30. januar 2015 #8

Tak for artikelen Thomas!

Jeg sparede lige studenten på arbejdet for 5000-6000 manuelle klik!


Thomas Motzfeldt

Thomas Motzfeldt @ d. 30. januar 2015 #9

Selv tak. Studenten skylder mig i så fald en flaske rødvin!


Tak for din kommentar!
Skriv venligst en kommentar der er længere end 5 tegn

Skriv en kommentar

Log ind for at kommentere - eller opret en bruger