Sposoby indentyfikacji web crawler'ów

Sposoby indentyfikacji web crawler'ów
MA
  • Rejestracja:ponad 14 lat
  • Ostatnio:prawie 11 lat
0

W necie krąży dużo sposobów na identyfikację robotów. Większość (wg moich obserwacji) sprowadza się do sprawdzania $_SERVER['HTTP_USER_AGENT'].

Znalazłem też takie cuś: http://www.develobert.info/2008/11/php-robot-check.html. Autor opiera się tylko na odwołaniach to robots.txt. Co sądzicie o takim podejściu?

massther
  • Rejestracja:ponad 16 lat
  • Ostatnio:prawie 9 lat
1

Cóż, wielu innych sensownych metod nie ma. Roboty wyszukiwarek i generalnie uczciwe nie maskują się podszywając się pod przeglądarki i w user_agent przekazują swoją nazwę.
Jakieś dziwne szpiegule (np. kradnące kontent), oczywiście wstawią jako user_agent nazwę przeglądarki i tyle. Jedynie na podstawie IP możesz spróbować wnioskować że może to być taki cwaniak, ale jeśli to jest sprytny cwaniak, to tych IP będzie miał wiele, będzie zmieniał etc.
Więc generalnie bazuje się na user_agent.

Adam Boduch
Administrator
  • Rejestracja:około 23 lata
  • Ostatnio:dzień
  • Postów:11948
1

Mozesz identyfikowac po IP. Ale jak wiesz, samo Google ma mnostwo adresow IP, wiec trzeba byc na biezaco z baza danych adresow. Ja generalnie identyfikuje po user-agent.

MA
dziękuję obu kolegom za odpowiedź, "ptaszek" idzie do massthera, jako że pierwszy :)

Zarejestruj się i dołącz do największej społeczności programistów w Polsce.

Otrzymaj wsparcie, dziel się wiedzą i rozwijaj swoje umiejętności z najlepszymi.