Witam
Czy podpowiedziałby ktoś mi jak mogę pobrać pdf ze strony, który jest ukryty? Jest dokument, który da się przeczytać strona po stronie i wiem że każda strona to jest osobny pdf tylko do odczytu, ale bawiąc się inspektorem strony nie mogę nic znaleźć, a chciałbym docelowo napisać skrypt, który będzie te pdfy pobierał i scalał w jeden pdf.
Czy możesz podać link do strony z tymi PDFami?
Czy problemem, z którym się meczysz to jest uzyskanie adresów PDFów składowych, pobranie tych plików, czy scalenie plików PDF w jeden plik? Najlepiej do każdego z tych trzech rzeczy podejść osobno.
W devtoolsach na zakładce Application znajdziesz każdy obrazek i dokument który jest na stronie, ewentualnie na zakładce Network możesz też sprawdzić URL. Chyba że pdf jest generowany przez javascript ale wtedy też powinieneś być w stanie zobaczyć jego base64 i zapisać jako plik. No chyba że to w ogóle nie jest pdf tylko ładny edytor zrobiony w javascript...
Pokaż lepiej screenshota z inspektora
@obscurity Problem to uzyskanie adresów, natomiast linku do strony nie mogę podać bo nie da się zalogować na tą stronę logując się spoza sieci uczelnianej a bez zalogowania się nie ma dostępu do tego co chce pobrać.
@obscurity: A jaką dokładnie część inspektora pokazać? I czy base64 będzie też w zakładce network?
Adam Szumacher napisał(a):
@obscurity: A jaką dokładnie część inspektora pokazać? I czy base64 będzie też w zakładce network?
to co się pokazuje gdy wybierzesz "Select an element in the page" i wskażesz pdf myszką (Ctrl + Shift + C). Nie będzie w zakładce network jeśli jest generowane po stronie klienta
obscurity napisał(a):
Adam Szumacher napisał(a):
@obscurity: A jaką dokładnie część inspektora pokazać? I czy base64 będzie też w zakładce network?
to co się pokazuje gdy wybierzesz "Select an element in the page" i wskażesz pdf myszką (Ctrl + Shift + C). Nie będzie w zakładce network jeśli jest generowane po stronie klienta
Jest sporo sposobów, żeby to zrobić od analizy kodu i komunikacji z serwerem frontendu, ale po zdjęciu screena na pierwszy rzut oka mi się skojarzyła taka metoda, gdzie dobierasz się do elementu canvas i tam możesz dobrać się do obrazu, który został wyrenderowany na canvasie czy nawet base64 z niego dostać binarnej reprezentacji formatu png czy innego, a potem sobie przelecieć pluginem po wszystkich stronach, czy webdriverem i wyrenderowany obraz z canvasa zapisywać, potem zescalić do jakiegoś formatu.
Jest to chyba najprostsze rozwiązanie, ale zawsze mogą jakieś problemy wystąpić po drodze, np. skrypt nadpisze funkcje nullami i nie będą dostępne te operacje od ręki.
Ale na drugi rzut oka widzę, że możesz to kupić tanio lub pobrać jak dobrze poszukasz w internecie, widzę, że to są jakieś podstawy programowania ze spisu treści wnioskując więc nic ciekawego.
No to pdf jest renderowany w kliencie na canvasie przez javascript, nie wiem czy to plugin w przeglądarce czy skrypt na stronie, musiałbyś dotrzeć teraz w jaki sposób ten pdf trafia do canvasa, zapewne cały pdf jest gdzieś w pamięci i łatwo go wyjąć. Sprawdzałeś zakładkę "Sieć"? W chrome miałbyś też zakładkę "Aplikacja" ze wszystkimi zasobami strony, nie wiem gdzie takie coś znaleźć w firefoksie
obscurity napisał(a):
No to pdf jest renderowany w kliencie na canvasie przez javascript, nie wiem czy to plugin w przeglądarce czy skrypt na stronie, musiałbyś dotrzeć teraz w jaki sposób ten pdf trafia do canvasa, zapewne cały pdf jest gdzieś w pamięci i łatwo go wyjąć. Sprawdzałeś zakładkę "Sieć"? W chrome miałbyś też zakładkę "Aplikacja" ze wszystkimi zasobami strony, nie wiem gdzie takie coś znaleźć w firefoksie
niestety w zakładce sieci tylko pliki js są.
wiem że każda strona to jest osobny pdf tylko do odczytu
Ale skąd to wiesz? Trochę dziwne.
Ale najpierw sprawdź zakładkę Network.
kelog napisał(a):
wiem że każda strona to jest osobny pdf tylko do odczytu
Ale skąd to wiesz? Trochę dziwne.
Podpowiedź od wykładowcy z uczelni
Ah ah omijanie copyrightu, chcesz żeby doktorant co to pisał klepał biedę do końca życia...
{EDITED: Nie ma co pomagać cebulakom}
Ale czy nie wyjdzie taniej i prościej po prostu wydać 50 PLN na tą ksiażkę?
EDIT: To już wstyd! https://helion.magazyn.pl/Java-Zadania-z-programowania-z-przyk-adowymi-rozwi-zaniami-Wydanie-II/javaz2_ebook/ksiazka.html
Cena książki: 13,70 zł (poprzednio: 24,46 zł)
Wstyd K...a!
BTW
a chciałbym docelowo napisać skrypt, który będzie te pdfy pobierał i scalał w jeden pdf.
Może w ogóle nie warto w to iść od tej strony, tylko zautomatyzować przewijanie stron + screenshoty w dobrej jakości. Potem tylko przycięcie obrazków i zapis do PDF to prosta sprawa.
Oczywiście jeśli ta praca jest warta choćby w doświadczeniu więcej niż te 14 złotych powyżej xD