Webový crawler pro sběr článků z internetu

Pro projekt Addmention jsem vyvinul webový crawler, který pravidelně různými způsoby prochází internetové média, nachází v nich nové články a ty stahuje a transformuje do unifikovaného formátu a spolu s dalšími metadaty je poskytuje přes API internímu systému k dalšímu zpracování …

Webový crawler pro sběr článků z internetu

Crawler Addmention pro sběr článků z internetu

Pro slovenský projekt Addmention jsem vytvořil a provozoval webovou aplikaci webový crawler, která pravidelně různými způsoby prochází zadané webové zdroje - internetové média a nachází v nich nové články. Po nalezení článku v něm identifikuje zadané parametry a transformuje jej do unifikovaného formátu. Takto následně článek spolu se zadanými metadaty poskytne prostřednictvím API internímu informačnímu systému k dalšímu zpracování.

Webový crawler je navržen tak, aby umožňoval procházet a objevovat články v jakémkoliv webovém zdroji a jakémkoliv formátu. Pravidelně v zadaných intervalech prochází různé internetové média (webové stránky) a to buď pomocí XML sitemap, RSS kanálů, nebo přímo systematickým procházením webového obsahu a objevuje nové URL adresy, které v daném webovém zdroji přibyly.

Následně identifikuje, jaký obsah se nachází na nově objevených URL adresách zdroje. Takové URL, které neobsahují zajímaví obsah, vyřadí. Ty, na kterých je nalezen nový článek dále zpracovává. Obsah všech nalezených článků sparsuje a pomocí různých metod z něj extrahuje zadané parametry, které následně k danému článku uchovává v databázi.

Webový crawler obsahuje také API, pomocí kterého poskytuje informace o nalezených a zpracovaných článcích dalším systémům. Pomocí API přistupuje k systému prodejní informační systém, který si přes API stahuje data o článcích v unifikovaném formátu a dále je zpracovává při prodeji zmínek v těchto článcích.

Tvorba webového crawleru pro dolování dat z internetu

Vytvořit dlouhodobě udržitelný webový crawler pro dolování dat z internetu může být nelehký úkol a je nutné předem pořádně promyslet všechny aspekty řešení. Tato webová aplikace již slouží ke stahování množství nových článků z internetových medií. Pokud uvažujete o tvorbě podobné aplikace pro dolování dat z internetu, rád Vám s tím pomohu. Kontaktujte mě, rád s Vámi proberu podrobnosti Vašeho projektu …

Michal Strelec

Ing. Michal Strelec |
michal@strelec.pro |
+420 608 407 544

Poslat zprávu Reference

Jsem softwarový inženýr na volné noze a zkušený vývojář informačních systémů a webových aplikací na míru. Nabízím dlouhodobé a spolehlivé partnerství při vývoji, provozu, rozšiřování a podpoře softwarového řešení. Mám přes 15 let zkušeností a úspěšně jsem realizoval více než 35 projektů webových aplikací a informačních systémů. Kancelář mám v hlavním městě Praha, své služby ale poskytuji také na dálku po celé České republice.

Zajímá Vás více informací?

Přečtěte si podrobněji, jak budeme postupovat při vývoji softwaru na míru, nebo si stáhněte moji vizitku s podrobnými informacemi v PDF. Pokud Vás blíže zajímá moje práce, prohlédněte si moje reference, nebo mě kontaktujte a zeptejte se na více informací …

Další podobné články

Multi e-shopový systém na míru

Multi e-shopový systém na míru

Pro společnost Glentyn(e) Shops CZ jsem vyvinul multi e-shopový systém na míru, pomocí kterého společnost provozuje a v jedné přehledné administraci spravuje všechny své e-shopy s prémiovými alkoholickými nápoji …

Aplikace pro online SEO analýzu webu

Aplikace pro online SEO analýzu webu

Pro firmu SEOlight poskytující svým klientům služby v oblasti SEO jsem na míru vyvinul a provozuji webovou aplikaci pro detailní analýzu jednotlivých SEO faktorů webových stránek, která je veřejně dostupná online …

Informační systém nejen pro sledování zásilek

Informační systém nejen pro sledování zásilek

Zákazníci firmy Gama Logistics můžou pomocí nového informačního systému vyvinutého na míru kdykoliv online sledovat stav doručování svých zásilek. Systém GamaLogIS ale nabízí i další chytré funkce …

Informační systém Elektronická objednávková kniha

Informační systém Elektronická objednávková kniha

Pro firmu PRAGUE BOATS jsem vyvinul na míru a provozuji rozsáhlý informační systém pro plánování a objednávání lodní dopravy, který ulehčuje nebo zcela nahrazuje práci dispečerů a obchodního oddělení firmy …

Webová aplikace pro prodej služeb

Webová aplikace pro prodej služeb

Pro firmu VolnéKapacity jsem vyvinul na míru webovou aplikaci jobuya.cz, která umožňuje registrovaným uživatelům vytvářet a nabízet online různé nabídky případně poptávky mikroslužeb …

Pokladní informační systém na míru s pokročilou kalkulaci

Pokladní informační systém na míru s pokročilou kalkulaci

Pro Pražskou paroplavební společnost a firmu PRAGUE BOATS jsem vyvinul na míru a provozuji pokladní informační systém na míru s pokročilými možnostmi kalkulace a tisku …

Informační systém pro zpracování objednávek a fakturaci

Informační systém pro zpracování objednávek a fakturaci

Pro Brašnářství Tatiana jsem vytvořil a provozuji informační systém pro zpracování objednávek a fakturaci, který pomáhá spravovat a automatizovat množství objednávek z e-shopu i prodejny …