Co je to webový crawler a na co se používá?

Oblíbený druh softwaru, který je naprosto nepostradatelný při jakémkoliv pokusu o sběr a využití veřejných i neveřejných dat z webu. Zjistěte co je to webový crawler, jak pracuje a při čem jej můžete využít ve svůj prospěch …

Co je to webový crawler a na co se používá?

Co je to webový crawler?

Webový crawler je počítačový program, který systematicky prochází zadané webové zdroje, stahuje z nich jejích obsah a tento obsah dále zpracovává. Webovým zdrojem pak může být jakákoliv webová stránka, portál, médium, aplikace, nebo webový informační systém. Ve většině případů se jedná o aplikaci nebo skript, který je nasazen a spuštěn na nějakém serveru umístěném v internetu a který pracuje nepřetržitě.

Jak pracuje webový crawler?

Webový crawler obvykle pracuje tak, že systematicky podle určitého algoritmu prochází jednotlivé webové zdroje, ve kterých hledá určité data. Po nalezení požadovaných dat ve zdroji tyto data buď pouze uloží do databáze k dalšímu využití, nebo je případně také lehce před zpracuje. Například v datech identifikuje a extrahuje z nich parametry, které již mají nějaký sémantický význam. Často je proto pak součástí webového crawleru také parser a crawler při běhu provádí nějaký druh syntaktické a sémantické analýzy dat, která stáhne z webového zdroje.

K čemu se dá využít webový crawler?

Pokud se podíváme do logu jakéhokoliv veřejně dostupného webového serveru, určitě zde najdeme kromě reálných uživatelských přístupů také velké množství přístupů od různých robotů, botů, spiderů, crawlerů. Za těmito přístupy stojí právě webové crawlery, které slouží pro automatizované procházení webu a automatizovaný sběr dat z webu.

Veřejně dostupné webové stránky nejčastěji navštěvuje webový crawler různých vyhledávačů. Tento webový crawler automaticky prochází internet, čte text z nalezených webových stránek, nebo chcete-li webových zdrojů a tento text indexuje. Nad takto indexovaným obsahem pak vyhledávač (jako je například google) umožňuje svému uživateli vyhledávat různý webový obsah.

Webový crawler lze ale dobře využít také při automatizaci různých procesů ve firmě nebo podnikání. Webový crawler nalezne uplatnění například v následujících oblastech:

  • Indexace obsahu

    Asi nejčastější použití, kdy webový crawler pravidelně prochází zadané webové zdroje dat a stahuje z nich data (nejčastěji text) a nad těmito daty buduje vlastní index, který následně umožňuje uživatelům vyhledávat nad sesbíranými a indexovanými daty.

  • Tvorba databáze

    Webový crawler může také sloužit pro budování různých databází, při čem může kombinovat různé veřejné data z různých zdrojů do jedné databáze, kterou bude možné dále využít pro další účely. Zde je potřeba se zaměřit na to, zda nebudou porušeny autorské práva autorů původních databází, které webový crawler vytěžuje.

  • Sledování konkurence

    Často nalezne webový crawler také využití při sledování konkurence. Typicky pak webový crawler pravidelně prochází zadané webové zdroje konkurence a stahuje z nich vybraná data. Může tak například pro marketingové účely pravidelně stahovat a shromažďovat informace o cenách nebo dostupnosti zboží v e-shopech konkurence.

  • Pokročilé vyhledávání

    Webový crawler lze také využít například pro rešeršní činnost podobně jako zde, kdy může pomoci realizovat funkci pokročilého vyhledávání pouze nad vybranými zdroji. Lze tak například procházet články ve vybraných webových zdrojích a na základě složitějších vyhledávacích pravidel je lze třídit do množství různých zájmových témat a hodnotit jak moc je ten který článek v daném tématu zajímavý. Takto nalezené nejlépe vyhovující články lze dále použít při rešeršní vědecké činnosti v oblasti daného témata.

  • Analýzy webových stránek

    Webový crawler lze také velmi dobře použít pro různé analýzy obsahu webových stránek. Lze tak systematicky procházet veřejné webové stránky a nad jejich obsahem zkoušet různé analýzy, například SEO analýzu jako zde, a následně si ukládat výsledky analýzy. S takto vybudovanou databázi pak lze dále pracovat, například oslovovat zákazníky s nejhoršími výsledky dané analýzy.

  • Jako náhrada za API

    V neposlední řadě lze webový crawler také dost dobře použít pro komunikaci jako náhradu za API pro komunikaci s webovou aplikací. Pokud tvůrci webové aplikace nemají technické možnosti pro vybudování vlastního rozhraní pro předávání dat třetí straně, lze vybudovat triviální crawler, který bude danou webovou aplikaci systematicky procházet a stahovat dané data, případně jinak s aplikací komunikovat. Webový crawler se může umět k aplikaci také přihlásit a interagovat s webovou aplikaci jako běžný uživatel .

Kromě výše uvedených určitě existuje ještě množství dalších případů, při kterých nalezne webový crawler využití. Nejčastěji je ale webový crawler pouze prostředníkem, který pouze posbírá veřejné, nebo jinak dostupné data a připraví je do databáze k dalšímu zpracování.

Pokud potřebujete vytvořit vlastní webový crawler a zajímá Vás na co si dát pozor při poptávce a vývoji vlastního udržitelného webového crawleru, pokračujte zde, nebo mě kontaktujte.

Michal Strelec,

Ing. Michal Strelec |
michal@strelec.pro |
+420 608 407 544

Poslat zprávu Reference

Jsem softwarový inženýr na volné noze a zkušený vývojář informačních systémů a webových aplikací na míru. Nabízím dlouhodobé a spolehlivé partnerství při vývoji, provozu, rozšiřování a podpoře softwarového řešení. Mám přes 15 let zkušeností a úspěšně jsem realizoval více než 35 projektů webových aplikací a informačních systémů. Kancelář mám v hlavním městě Praha, své služby ale poskytuji také na dálku po celé České republice.

Zajímá Vás více informací?

Přečtěte si podrobněji, jak budeme postupovat při vývoji softwaru na míru, nebo si stáhněte moji vizitku s podrobnými informacemi v PDF. Pokud Vás blíže zajímá moje práce, prohlédněte si moje reference, nebo mě kontaktujte a zeptejte se na více informací …

Další podobné články

Vývoj udržitelného webového crawleru

Vývoj udržitelného webového crawleru

Mnozí to často zkouší s až kuriózně nízkým rozpočtem a s nedostatečnou představou o fungování webového crawleru. Pojďme shrnout na co je dobré se zaměřit při poptávce a vývoji dlouhodobě udržitelného webového crawleru …

Co je to webová aplikace?

Co je to webová aplikace?

Pro realizaci informačních systémů na míru se ve většině případů velmi dobře hodí webová aplikace. Zjistěte, co je to webová aplikace, jak funguje, a kdy a proč je vhodné ji použít pro implementaci informačního systému …

Porovnání webové a desktopové aplikace pro realizaci informačního systému

Porovnání webové a desktopové aplikace pro realizaci informačního systému

Pro implementaci každého informačního systému se může lépe hodit jiný typ aplikace. Porovnejme proto z různých pohledů použití webové aplikace a její náhradu v podobě desktopového řešení …

Jak funguje webová aplikace?

Jak funguje webová aplikace?

Při vývoji nového informačního systému do firmy často stojíme před rozhodnutím, jestli pro řešení systému použít webovou aplikaci. Abychom se uměli správně rozhodnout, musíme vědět, jak webová aplikace funguje …