Komentarze na wp i innych portalach

Komentarze na wp i innych portalach
WI
  • Rejestracja:około 7 lat
  • Ostatnio:około 2 miesiące
  • Postów:138
0

Witajcie, nie programuję w php ale w delphi dlatego potrzebuję pomocy.
Wpadliśmy ze znajomymi na pomysł analizy statystycznej słów uważanych za agresywne oraz przeciwnie, na dużych portalach internetowych w różnych regionach świata celem badania nastrojów społecznych.
Niestety tylko ja programuję z naszej grupy.
Nie potrafię sobie poradzić w kodzie źródłowym strony. Chodzi o miejsce z którego moGę pobrać komentarze.
Program działa przez użycie protokołu http jak przeglądarka i klika na linki na portalach a później ma analizować komentarze, ściągając pliki na dysk i analizując już typowo programistycznie.
Jednak problemem są dla mnie linki , jak wyłuskać z kodu strony częściowo w Javie częściowo w php kod html z komentarzami?
Czy jest to w ogóle wykonalne ? Czy są one ładowane dynamicznie? Bez udziału pośredniej strony z htmlem?
Pozdrawiam i proszę o sugestie jeśli możecie jakiś pomysł podrzucić. Albo link gdzie mogę przeczytać jak te dane są wyświetlane .

Patryk27
nie programuję w php ale w delphi dlatego potrzebuję pomocy - w sensie, że gdybyś programował w PHP, to nie potrzebowałbyś pomocy? Jak to?
Pyxis
W sensie, że pytanie jest umieszczone w dziale PHP.
WI
No jest w php bo tu mieszkają dobre Stwory co ten język i zasady jego działania znają...
TR
  • Rejestracja:ponad 7 lat
  • Ostatnio:około miesiąc
  • Lokalizacja:700m n.p.m.
  • Postów:677
0

Komentarze mogą być ładowane przez AJAX, w tym przypadku trzeba np. jakimś inspektorem DOM zbadać stronę i wyłuskać URL skąd mechanizmem AJAX są pobierane komentarze.

Można też do tego podejść inaczej - zrobić swoją własną wtyczkę do przeglądarki - np. Firefox - która to wtyczka będzie robotem wybierającym komentarze ze strony i wysyłającym je np. do bazy danych celem daleszej analizy już przez inny program.


DRY > SOLID (nie bierz tego zbyt poważnie)
edytowany 1x, ostatnio: TomRZ
WI
  • Rejestracja:około 7 lat
  • Ostatnio:około 2 miesiące
  • Postów:138
0

Inspektorem analizującym html strony będzie mój program, on będzie szukał tych linków. W kodzie html... o to właśnie chodzi. Mechanizm jest taki ze łatwo mogę ściągnąć stronę jako plik html a później go analizować programistycznie , ale problem dla mnie stanowi miejsce skąd taki plik html- mogę pobrać z tymi danymi. Analizowałem wzrokowo kody tych stron i nie znalazłem liku z komentarzami - tzn być może przeoczyłem ale szybki skan wzrokowy nie wystarcza.

mr_jaro
  • Rejestracja:ponad 13 lat
  • Ostatnio:około 3 lata
  • Lokalizacja:Grudziądz/Bydgoszcz
  • Postów:5300
0
Windowbee napisał(a):

Inspektorem analizującym html strony będzie mój program, on będzie szukał tych linków. W kodzie html...

No i tu chociażby na takim facebooku nic byś nie pobrał :D w htmlu nie ma nic, html jest kompilowany na bieżąco przez js, i tak jest aktualnie z większością nowych stron.


It's All About the Game.
edytowany 1x, ostatnio: mr_jaro
WI
  • Rejestracja:około 7 lat
  • Ostatnio:około 2 miesiące
  • Postów:138
0

No i to jest właśnie ten problem. Wyszukiwarki jakoś widza ten tekst i go wyświetlają Wiec jak pobierają takie źródło? Wybaczcie ale z php i js jestem noga totalna.
Najpierw myślałem ze da radę pobrać stronę html wycisnąc linki i w nie wejść itd aż do komentarzy a tu zonk wydaje się ze są dynamicznie ładowane jakoś przez skrypty...
Nie mylę się?

edytowany 1x, ostatnio: Windowbee
mr_jaro
  • Rejestracja:ponad 13 lat
  • Ostatnio:około 3 lata
  • Lokalizacja:Grudziądz/Bydgoszcz
  • Postów:5300
0

Ale co ma php do tego? php się wykonuje po stronie serwera tak jak python, node.js, asp.net i java. Ty nie wiesz co tam się wykonuje pod spodem bo każdy zwróci tak samo wyglądający kod html, albo dane w api. Jak działa np google? Normlanie potrafi przetwarzać kod js.


It's All About the Game.
edytowany 1x, ostatnio: mr_jaro
TR
  • Rejestracja:ponad 7 lat
  • Ostatnio:około miesiąc
  • Lokalizacja:700m n.p.m.
  • Postów:677
0
Windowbee napisał(a):

No i to jest właśnie ten problem. Wyszukiwarki jakoś widza ten tekst i go wyświetlają [...]

Dlatego pisze Ci, abyś użył wtyczki do przeglądarki, bo w przeglądarce masz już wszystko wyrenderowane, i nie przejmujesz się, czy to jest JS czy nie, po prostu wybierasz interesujące Cię dane i wysyłasz do bazy danych. Jeżeli nie jesteś w stanie takich prostych rzeczy zrozumieć, to kiepsko to widzę.


DRY > SOLID (nie bierz tego zbyt poważnie)
edytowany 1x, ostatnio: TomRZ
WI
Szczerze to ja tez kiepsko. Ale popróbuje się z tym jeszcze. Wolałbym przeglądarki nie ruszać tak żeby program mógł byc niezależny od platformy(OS X i Windows) i przeglądarki , żeby działał oddzielnie , a dane przechowywał na wspólnym serwerze ftp i z dostępem tylko z mojego programu. Wiem ze php wykonuje się po stronie serwera ale muszę wiedzieć co i jak generuje dla przeglądarki żeby to rozgryźć niestety bez wtyczek. A To wiecie Wy phpowcy 😉
WI
  • Rejestracja:około 7 lat
  • Ostatnio:około 2 miesiące
  • Postów:138
0

No to to chyba jest to , jak one zwracają ten kod html? To jest dynamicznie chwilowo tworzona strona html? Czy jakiś strumień danych płynący do podprogramu w przeglądarce?

Marcin Kula-Bukowski
  • Rejestracja:około 7 lat
  • Ostatnio:prawie 6 lat
  • Lokalizacja:Warszawa
  • Postów:79
0

Komentarze np: na WP na bank ładowane są Ajaxem, a przynajmniej większość z nich (po kliknięciu na rozwinięcie komentarzy). Możesz je mieć w treści strony, ale tylko pod warunkiem użycia odpowiedniego narzędzia (najlepsza byłaby headless'owa przeglądarka - Chrome w wersji headless, Phantom.js, Selenium sparowane z przeglądarką pewnie też da radę) Do narzędzia musisz napisać skrypt js, w formie obsługiwanej przez dane narzędzie, który klika rozwinięcie komentarzy. Do Chrome pewnie najlepszy będzie skrypt GreaseMonkey, Phantom.js sam z siebie nic nie robi póki takiego skryptu mu nie zapewnisz jako parametr wywołania. W nim kilka prostych komend do załadowania strony, wykonania kliknięcia i wyplucia pełnej treści. Poczytaj dokumentację narzędzia, które uznasz za najlepsze. PHP nie ma tu nic do rzeczy. PHPem możesz co najwyżej parsować HTML, który uzyskałeś poprzez wykorzystanie powyższych narzędzi.


Kliknij, aby dodać treść...

Pomoc 1.18.8

Typografia

Edytor obsługuje składnie Markdown, w której pojedynczy akcent *kursywa* oraz _kursywa_ to pochylenie. Z kolei podwójny akcent **pogrubienie** oraz __pogrubienie__ to pogrubienie. Dodanie znaczników ~~strike~~ to przekreślenie.

Możesz dodać formatowanie komendami , , oraz .

Ponieważ dekoracja podkreślenia jest przeznaczona na linki, markdown nie zawiera specjalnej składni dla podkreślenia. Dlatego by dodać podkreślenie, użyj <u>underline</u>.

Komendy formatujące reagują na skróty klawiszowe: Ctrl+B, Ctrl+I, Ctrl+U oraz Ctrl+S.

Linki

By dodać link w edytorze użyj komendy lub użyj składni [title](link). URL umieszczony w linku lub nawet URL umieszczony bezpośrednio w tekście będzie aktywny i klikalny.

Jeżeli chcesz, możesz samodzielnie dodać link: <a href="link">title</a>.

Wewnętrzne odnośniki

Możesz umieścić odnośnik do wewnętrznej podstrony, używając następującej składni: [[Delphi/Kompendium]] lub [[Delphi/Kompendium|kliknij, aby przejść do kompendium]]. Odnośniki mogą prowadzić do Forum 4programmers.net lub np. do Kompendium.

Wspomnienia użytkowników

By wspomnieć użytkownika forum, wpisz w formularzu znak @. Zobaczysz okienko samouzupełniające nazwy użytkowników. Samouzupełnienie dobierze odpowiedni format wspomnienia, zależnie od tego czy w nazwie użytkownika znajduje się spacja.

Znaczniki HTML

Dozwolone jest używanie niektórych znaczników HTML: <a>, <b>, <i>, <kbd>, <del>, <strong>, <dfn>, <pre>, <blockquote>, <hr/>, <sub>, <sup> oraz <img/>.

Skróty klawiszowe

Dodaj kombinację klawiszy komendą notacji klawiszy lub skrótem klawiszowym Alt+K.

Reprezentuj kombinacje klawiszowe używając taga <kbd>. Oddziel od siebie klawisze znakiem plus, np <kbd>Alt+Tab</kbd>.

Indeks górny oraz dolny

Przykład: wpisując H<sub>2</sub>O i m<sup>2</sup> otrzymasz: H2O i m2.

Składnia Tex

By precyzyjnie wyrazić działanie matematyczne, użyj składni Tex.

<tex>arcctg(x) = argtan(\frac{1}{x}) = arcsin(\frac{1}{\sqrt{1+x^2}})</tex>

Kod źródłowy

Krótkie fragmenty kodu

Wszelkie jednolinijkowe instrukcje języka programowania powinny być zawarte pomiędzy obróconymi apostrofami: `kod instrukcji` lub ``console.log(`string`);``.

Kod wielolinijkowy

Dodaj fragment kodu komendą . Fragmenty kodu zajmujące całą lub więcej linijek powinny być umieszczone w wielolinijkowym fragmencie kodu. Znaczniki ``` lub ~~~ umożliwiają kolorowanie różnych języków programowania. Możemy nadać nazwę języka programowania używając auto-uzupełnienia, kod został pokolorowany używając konkretnych ustawień kolorowania składni:

```javascript
document.write('Hello World');
```

Możesz zaznaczyć również już wklejony kod w edytorze, i użyć komendy  by zamienić go w kod. Użyj kombinacji Ctrl+`, by dodać fragment kodu bez oznaczników języka.

Tabelki

Dodaj przykładową tabelkę używając komendy . Przykładowa tabelka składa się z dwóch kolumn, nagłówka i jednego wiersza.

Wygeneruj tabelkę na podstawie szablonu. Oddziel komórki separatorem ; lub |, a następnie zaznacz szablonu.

nazwisko;dziedzina;odkrycie
Pitagoras;mathematics;Pythagorean Theorem
Albert Einstein;physics;General Relativity
Marie Curie, Pierre Curie;chemistry;Radium, Polonium

Użyj komendy by zamienić zaznaczony szablon na tabelkę Markdown.

Lista uporządkowana i nieuporządkowana

Możliwe jest tworzenie listy numerowanych oraz wypunktowanych. Wystarczy, że pierwszym znakiem linii będzie * lub - dla listy nieuporządkowanej oraz 1. dla listy uporządkowanej.

Użyj komendy by dodać listę uporządkowaną.

1. Lista numerowana
2. Lista numerowana

Użyj komendy by dodać listę nieuporządkowaną.

* Lista wypunktowana
* Lista wypunktowana
** Lista wypunktowana (drugi poziom)

Składnia Markdown

Edytor obsługuje składnię Markdown, która składa się ze znaków specjalnych. Dostępne komendy, jak formatowanie , dodanie tabelki lub fragmentu kodu są w pewnym sensie świadome otaczającej jej składni, i postarają się unikać uszkodzenia jej.

Dla przykładu, używając tylko dostępnych komend, nie możemy dodać formatowania pogrubienia do kodu wielolinijkowego, albo dodać listy do tabelki - mogłoby to doprowadzić do uszkodzenia składni.

W pewnych odosobnionych przypadkach brak nowej linii przed elementami markdown również mógłby uszkodzić składnie, dlatego edytor dodaje brakujące nowe linie. Dla przykładu, dodanie formatowania pochylenia zaraz po tabelce, mogłoby zostać błędne zinterpretowane, więc edytor doda oddzielającą nową linię pomiędzy tabelką, a pochyleniem.

Skróty klawiszowe

Skróty formatujące, kiedy w edytorze znajduje się pojedynczy kursor, wstawiają sformatowany tekst przykładowy. Jeśli w edytorze znajduje się zaznaczenie (słowo, linijka, paragraf), wtedy zaznaczenie zostaje sformatowane.

  • Ctrl+B - dodaj pogrubienie lub pogrub zaznaczenie
  • Ctrl+I - dodaj pochylenie lub pochyl zaznaczenie
  • Ctrl+U - dodaj podkreślenie lub podkreśl zaznaczenie
  • Ctrl+S - dodaj przekreślenie lub przekreśl zaznaczenie

Notacja Klawiszy

  • Alt+K - dodaj notację klawiszy

Fragment kodu bez oznacznika

  • Alt+C - dodaj pusty fragment kodu

Skróty operujące na kodzie i linijkach:

  • Alt+L - zaznaczenie całej linii
  • Alt+, Alt+ - przeniesienie linijki w której znajduje się kursor w górę/dół.
  • Tab/⌘+] - dodaj wcięcie (wcięcie w prawo)
  • Shit+Tab/⌘+[ - usunięcie wcięcia (wycięcie w lewo)

Dodawanie postów:

  • Ctrl+Enter - dodaj post
  • ⌘+Enter - dodaj post (MacOS)