Sådan virker WeCrawl

WeCrawl Crawler
Crawleren besøger alle danske domæner + udenlandske domæner med dansk sprog vi finder undervejs (se afsnit om WeCrawl domains), og læser kildekoden på forsiden + 2 niveauer ned fra forsiden og sørger for at gemme alt data i WeCrawl databasen. Vi både læser og overholder robots.txt.

WeCrawl DB
I WeCrawl´s enorme database gemmes alle de mange milliarder linjers kildekode, og der foretages samtidig en meget avanceret form for indeksering, så det efterfølgende er muligt at lave fritekstsøgninger, ikke bare på alm. ord, men også på html-markup m.m.

Desuden gemmes information om: IP, IP-ejer, Pagerank, WHOIS, MX records, SSL certifikat o.l.

WeCrawl Domains
Når vi crawler og indekserer kildekode, følger vi samtidig alle links til eksterne domæner, tjekker om sproget er dansk og om vi har det i databasen i forvejen, hvis ikke, så bliver det crawlet næste gang. På den måde finder vi løbende nye domæner, både .dk, men også .com/.org/.net/.nu m.f.

WeCrawl Search
Search-delen er et administrationsværktøj hvor vi kan udnytte mulighederne for fritekstsøgning i hele databasen. Hvis vi eksempelvis ønsker at finde alle Magentoshops i Danmark, finder vi nogle shops vi ved er Magento, og finder manuelt specifikke strenge i HTML´en (det vi kalder digitale fingeraftryk) som identificerer at det er lige præcis en Magento shop. Derefter kan vi lave en søgning på den specifikke streng og få et resultat der i skrivende stund giver ca. 2200 danske Magentoshops.

Vi kan tilbyde de fleste former for data omhandlende danske websites, kontakt os for en snak om netop jeres behov.

WeCrawl Stats
Vi har konstant pulsen på den danske del af Internettet og leverer månedlig statistik baseret på bla. danske shops, fordelingen af CM-systemer i Danmark, udbredelsen af sociale medier m.m.

Ønsker du at benytte vores statistik service, er du velkommen til at kontakte os.

Vi bruger cookies!

Her på sitet bruger vi cookies i forbindelse med bl.a. trafikmåling, for at kunne udvikle bedre og mere målrettede brugeroplevelser.

Ved at benytte sitet accepterer du brugen af cookies.

Læs mere om cookies her.

Accepter Forlad sitet