Description
Tytuł/Topic: import smtpd - to trochę za mało, żeby stworzyć system pocztowy WP Prelegent/Speaker: Wojciech Bederski
W niniejszej prezentacji omawiać będziemy zagadnienia dotyczące problemu automatycznego wyszukiwania linków w strukturach stron i pobierania ich zawartości. Na wybranych przykładach zaprezentujemy możliwe przeszkody oraz ich rozwiązania przy użyciu gotowych aplikacji oraz własnych rozwiązań opartych o istniejące biblioteki i narzędzia. Przejdziemy przez poszczególne etapy "crawlowania" sieci, zaczynając od pobierania elementów struktury dokumentów, poprzez analizę zawartości, do wybranych bazodanowych rozwiązań indeksujących. Prelekcję zakończymy pokazując kompletne rozwiązania architektoniczne szyte na miarę problemów poruszonych w trakcie prezentacji.