Komentarze na wp i innych portalach

0

Witajcie, nie programuję w php ale w delphi dlatego potrzebuję pomocy.
Wpadliśmy ze znajomymi na pomysł analizy statystycznej słów uważanych za agresywne oraz przeciwnie, na dużych portalach internetowych w różnych regionach świata celem badania nastrojów społecznych.
Niestety tylko ja programuję z naszej grupy.
Nie potrafię sobie poradzić w kodzie źródłowym strony. Chodzi o miejsce z którego moGę pobrać komentarze.
Program działa przez użycie protokołu http jak przeglądarka i klika na linki na portalach a później ma analizować komentarze, ściągając pliki na dysk i analizując już typowo programistycznie.
Jednak problemem są dla mnie linki , jak wyłuskać z kodu strony częściowo w Javie częściowo w php kod html z komentarzami?
Czy jest to w ogóle wykonalne ? Czy są one ładowane dynamicznie? Bez udziału pośredniej strony z htmlem?
Pozdrawiam i proszę o sugestie jeśli możecie jakiś pomysł podrzucić. Albo link gdzie mogę przeczytać jak te dane są wyświetlane .

0

Komentarze mogą być ładowane przez AJAX, w tym przypadku trzeba np. jakimś inspektorem DOM zbadać stronę i wyłuskać URL skąd mechanizmem AJAX są pobierane komentarze.

Można też do tego podejść inaczej - zrobić swoją własną wtyczkę do przeglądarki - np. Firefox - która to wtyczka będzie robotem wybierającym komentarze ze strony i wysyłającym je np. do bazy danych celem daleszej analizy już przez inny program.

0

Inspektorem analizującym html strony będzie mój program, on będzie szukał tych linków. W kodzie html... o to właśnie chodzi. Mechanizm jest taki ze łatwo mogę ściągnąć stronę jako plik html a później go analizować programistycznie , ale problem dla mnie stanowi miejsce skąd taki plik html- mogę pobrać z tymi danymi. Analizowałem wzrokowo kody tych stron i nie znalazłem liku z komentarzami - tzn być może przeoczyłem ale szybki skan wzrokowy nie wystarcza.

0
Windowbee napisał(a):

Inspektorem analizującym html strony będzie mój program, on będzie szukał tych linków. W kodzie html...

No i tu chociażby na takim facebooku nic byś nie pobrał :D w htmlu nie ma nic, html jest kompilowany na bieżąco przez js, i tak jest aktualnie z większością nowych stron.

0

No i to jest właśnie ten problem. Wyszukiwarki jakoś widza ten tekst i go wyświetlają Wiec jak pobierają takie źródło? Wybaczcie ale z php i js jestem noga totalna.
Najpierw myślałem ze da radę pobrać stronę html wycisnąc linki i w nie wejść itd aż do komentarzy a tu zonk wydaje się ze są dynamicznie ładowane jakoś przez skrypty...
Nie mylę się?

0

Ale co ma php do tego? php się wykonuje po stronie serwera tak jak python, node.js, asp.net i java. Ty nie wiesz co tam się wykonuje pod spodem bo każdy zwróci tak samo wyglądający kod html, albo dane w api. Jak działa np google? Normlanie potrafi przetwarzać kod js.

0
Windowbee napisał(a):

No i to jest właśnie ten problem. Wyszukiwarki jakoś widza ten tekst i go wyświetlają [...]

Dlatego pisze Ci, abyś użył wtyczki do przeglądarki, bo w przeglądarce masz już wszystko wyrenderowane, i nie przejmujesz się, czy to jest JS czy nie, po prostu wybierasz interesujące Cię dane i wysyłasz do bazy danych. Jeżeli nie jesteś w stanie takich prostych rzeczy zrozumieć, to kiepsko to widzę.

0

No to to chyba jest to , jak one zwracają ten kod html? To jest dynamicznie chwilowo tworzona strona html? Czy jakiś strumień danych płynący do podprogramu w przeglądarce?

0

Komentarze np: na WP na bank ładowane są Ajaxem, a przynajmniej większość z nich (po kliknięciu na rozwinięcie komentarzy). Możesz je mieć w treści strony, ale tylko pod warunkiem użycia odpowiedniego narzędzia (najlepsza byłaby headless'owa przeglądarka - Chrome w wersji headless, Phantom.js, Selenium sparowane z przeglądarką pewnie też da radę) Do narzędzia musisz napisać skrypt js, w formie obsługiwanej przez dane narzędzie, który klika rozwinięcie komentarzy. Do Chrome pewnie najlepszy będzie skrypt GreaseMonkey, Phantom.js sam z siebie nic nie robi póki takiego skryptu mu nie zapewnisz jako parametr wywołania. W nim kilka prostych komend do załadowania strony, wykonania kliknięcia i wyplucia pełnej treści. Poczytaj dokumentację narzędzia, które uznasz za najlepsze. PHP nie ma tu nic do rzeczy. PHPem możesz co najwyżej parsować HTML, który uzyskałeś poprzez wykorzystanie powyższych narzędzi.

Zarejestruj się i dołącz do największej społeczności programistów w Polsce.

Otrzymaj wsparcie, dziel się wiedzą i rozwijaj swoje umiejętności z najlepszymi.