Baraja bot

Baraja bot je internetový robot, který slouží k procházení webových stránek a sbírání technických informací o stavu internetu.

K čemu je to dobré?

Aby mohl internet zůstat bezpečným a stabilním místem, je potřeba pro provozování některých služeb provádět hromadné scany co největší části internetu.

Internetová společnost Baraja.cz v pravidelných intervalech prochází veřejně dostupné internetové zdroje, ukládá si jejich obsah a URL, a na základě zpětné analýzy stažených dat provádí další kroky a optimalizace, které jsou užitečné pro majitele webů a poté zejména pro jejich uživatele.

Většinu získaných dat používáme pro analýzu bezpečnostních hrozeb, útoků, zachování historie cenných internetových zdrojů, analýzu struktury webů a mapování URL adres (data používáme pro lepší SEO optimalizaci) a zejména monitoring výpadků a dalších typů technických chyb, které jsou užitečné pro provozovatele internetových portálů.

Jak procházení funguje?

Kdykoli narazíme na novou URL, kterou zatím neznáme, nejprve si stáhneme technický soubor robots.txt, abychom zjistili, jestli správce webu povolil přístup pro roboty.

Pokud máme přístup k webu povolen, snažíme se při každé návštěvě projít co možná nejvíc URL adres patřící k doméně. Mezi stažením jednotlivých stránek vždy čekáme minimálně 5 sekund, abychom vám nezařížili webový server.

Pokud vás zajímají technické detaily ohledně algoritmu na procházení webu, doporučujeme prostudovat veřejně dostupné zdrojové kódy.

Jak mohu strojově procházet svůj web?

Pokud potřebujete svůj web procházet přímo na vaší straně (například pro zajištění monitoringu všech URL adres), doporučujeme použít hotovou PHP knihovnu baraja-core/webcrawler, pokud si nevíte rady, připravili jsme podrobnější informace přímo v PHP manuálu pro vývojáře.

Kolik URL budete na mém webu procházet?

Přesný počet URL adres, které na vašem webu procházíme určuje tzv. crawl budget, který vyjadřuje počet URL adres, které se každý kalendářní měsíc pokusíme navštívit.

Aktuální hodnotu této metriky si můžete zobrazit v rámci služby Baraja Cloud. Navýšení limitu si nemůžete přímo koupit, ale musíte si ji zasloužit optimalizací vašeho webu. Obecně platí, že dobrý crawl budget získáte za rychlou odpověď serveru, správně vrácené stavové HTTP kódy a málo duplicitního obsahu.

Základní limit pro každou doménu je 50 procházených URL měsíčně, maximální hodnota není omezena. Weby ve velmi špatném technickém stavu mohou získat minimálně 1 procházenou URL měsíčně, která bude stanovena na hlavní stránku webu, kde budeme jednou za náhodný čas kontrolovat, že byl problém s procházením vyřešen.

Mohu procházení ovlivnit nebo zakázat?

Robot v pravidelných intervalech stahuje technický soubor robots.txt, ve kterém můžete ovlivnit pravidla pro procházení vašeho webu, případně procházení úplně zakázat.

Zákaz indexování se projevuje až se zpožděním několika hodin, než robot zjistí, že se váš soubor pravidel změnil. Zakázání procházení vašeho webu nezpůsobí okamžité odebrání informací, které robot zjistil, ale pouze zákaz stahování nových dat. K odstranění již stažených dat dochází se zpožděním několika dnů až jednotek týdnů.

Důležité: Pokud soubor robots.txt neexistuje nebo má nevalidní formát, považujeme to za povolení web procházet.

Mohu požádat o smazání veškerých dat o mém webu?

Ano, do souboru robots.txt v kořenovém adresáři vašeho webu umístěte tyto řádky:

User-agent: BarajaBot
Disallow: /

Smazání provádíme při příštím stažení obsahu tohoto souboru, což trvá obvykle týden. Uživatelé služby Baraja Cloud mohou o rychlejší aktualizaci manuálně požádat.

Jak data zpracováváte?

Všechna stažená data pochází z veřejně dostupných zdrojů, ale i tak je pečlivě chráníme. Konkrétní informace o konkrétním webu poskytujeme jen provozovateli konkrétního portálu, nebo osobám, které tomu byly pověřeny. Obecné informace o všech sledovaných webech poskytujeme veřejnosti pouze v anonymizované podobě.

Mohu ovlivnit, které URL budou procházeny?

Částečně ano.

URL umístěné v souboru sitemap.xml mají při procházení přednost před těmi, na které vede pouze odkaz. Dále upřednostňujeme URL adresy, na které vede více odkazů z relevantních stránek nebo jsou blíže k hlavní stránce webu na odkazové síti.

Pokud je nějaká URL málo významná nebo přestane existovat, může se stát, že ji robot bude procházet velmi málo (jednou za několik měsíců), nebo z procházení úplně vyloučí.

Uživatelé se zaregistrovanou doménou v rámci Baraja Cloud mají při procházení přednost a jejich weby procházíme pravidelně do větší hloubky.

Společnost Baraja.cz si vyhrazuje exkluzivní právo rozhodovat prioritu procházení a hodnocení každé URL. Zvýhodnění konkrétní stránky si musíte zasloužit na základě splnění řady interních kritérií a nelze ani za poplatek uměle navýšit.

ProvozujeJan Barášek © 2009-2024Kontakt