Hoe de crawler van SiteJuggler werkt

De crawler van SiteJuggler is opgesplitst in twee modues. Een geabonneerde en niet-geabonneerde modus. De geabonneerde modus wordt gebruikt wanneer een pagina wordt gecrawld voor een site die een licentie heeft. Niet-geabonneerd wordt gebruikt voor pagina's die voortkomen uit gecrawlde pagina's uit de vorige modus.

Geabonneerde sites

Wanneer een site is geabonneerd, worden de bronnen van de site gecrawld.

Deze modus volgt ook de robots.txt-standaard. Waar er naar drie soorten user agents wordt gezocht.

*: er wordt standaard een jokerteken-user-agent gebruikt
siteJuggler: deze agent wordt gebruikt als algemene agent
siteJuggler[id]: deze agent kan worden gebruikt om alleen een specifieke site met een licentie te laten gebruiken voor crawlen.

Momenteel is er geen ondersteuning voor specifieke paginablokkering, dus het is alles of niets

Blokkeer SiteJuggler, maar sta andere crawlers toe

Als je wilt voorkomen dat SiteJuggler jouw website crawlt, maar toch andere crawlers wilt toestaan, kun je de volgende robots.txt gebruiken;

user-agent: *
Allow: /
user-agent: siteJuggler
Disallow: /

Blokkeer andere

Wil je zelf wel SiteJuggler gebruiken, maar er zeker van zijn dat andere het niet kunnen gebruiken. Dan is de volgende robots.txt nodig;

user-agent: siteJuggler
Disallow: /
user-agent: siteJuggler[723720c0-d6de-4220-9456-1422a2e20d60]
Allow: /

Hierbij is '723720c0-d6de-4220-9456-1422a2e20d60' dan van jou specifieke site.

Overige sites

Als een geaboneerde website een link heeft naar een externe domein wordt deze ook gecontroleerd. Echter de controle vind enkel plaats door middel van de status code. Er vind dus geen content check op plaats.

Bij een redirect wordt deze wel gevolgd om te controleren dat deze ook bij een pagina eindigd.