Sposoby indentyfikacji web crawler'ów

Rejestracja:ponad 14 lat
Ostatnio:prawie 11 lat

W necie krąży dużo sposobów na identyfikację robotów. Większość (wg moich obserwacji) sprowadza się do sprawdzania $_SERVER['HTTP_USER_AGENT'].

Znalazłem też takie cuś: http://www.develobert.info/2008/11/php-robot-check.html. Autor opiera się tylko na odwołaniach to robots.txt. Co sądzicie o takim podejściu?

roboty

massther

2011-04-05 11:18

massther2011-04-05 11:18

Rejestracja:ponad 16 lat
Ostatnio:prawie 9 lat

Cóż, wielu innych sensownych metod nie ma. Roboty wyszukiwarek i generalnie uczciwe nie maskują się podszywając się pod przeglądarki i w user_agent przekazują swoją nazwę.
Jakieś dziwne szpiegule (np. kradnące kontent), oczywiście wstawią jako user_agent nazwę przeglądarki i tyle. Jedynie na podstawie IP możesz spróbować wnioskować że może to być taki cwaniak, ale jeśli to jest sprytny cwaniak, to tych IP będzie miał wiele, będzie zmieniał etc.
Więc generalnie bazuje się na user_agent.

Adam Boduch

2011-04-05 12:19

Adam Boduch2011-04-05 12:19

Administrator

Rejestracja:około 23 lata
Ostatnio:dzień
Postów:11948

Mozesz identyfikowac po IP. Ale jak wiesz, samo Google ma mnostwo adresow IP, wiec trzeba byc na biezaco z baza danych adresow. Ja generalnie identyfikuje po user-agent.

marcinsvr 2011-04-06 10:33

dziękuję obu kolegom za odpowiedź, "ptaszek" idzie do massthera, jako że pierwszy :)

Liczba odpowiedzi na stronę

Zarejestruj się i dołącz do największej społeczności programistów w Polsce.

Otrzymaj wsparcie, dziel się wiedzą i rozwijaj swoje umiejętności z najlepszymi.

Utwórz konto

Sposoby indentyfikacji web crawler'ów

marcinsvr

massther

Adam Boduch

Praca dla programistów

Forum dyskusyjne

Sprawy administracyjne

O nas

Skontaktuj się z nami