Jak pobrać ukryte pdf?

0

Witam
Czy podpowiedziałby ktoś mi jak mogę pobrać pdf ze strony, który jest ukryty? Jest dokument, który da się przeczytać strona po stronie i wiem że każda strona to jest osobny pdf tylko do odczytu, ale bawiąc się inspektorem strony nie mogę nic znaleźć, a chciałbym docelowo napisać skrypt, który będzie te pdfy pobierał i scalał w jeden pdf.

3

Czy możesz podać link do strony z tymi PDFami?

Czy problemem, z którym się meczysz to jest uzyskanie adresów PDFów składowych, pobranie tych plików, czy scalenie plików PDF w jeden plik? Najlepiej do każdego z tych trzech rzeczy podejść osobno.

1

W devtoolsach na zakładce Application znajdziesz każdy obrazek i dokument który jest na stronie, ewentualnie na zakładce Network możesz też sprawdzić URL. Chyba że pdf jest generowany przez javascript ale wtedy też powinieneś być w stanie zobaczyć jego base64 i zapisać jako plik. No chyba że to w ogóle nie jest pdf tylko ładny edytor zrobiony w javascript...
Pokaż lepiej screenshota z inspektora

0

@obscurity Problem to uzyskanie adresów, natomiast linku do strony nie mogę podać bo nie da się zalogować na tą stronę logując się spoza sieci uczelnianej a bez zalogowania się nie ma dostępu do tego co chce pobrać.

@obscurity: A jaką dokładnie część inspektora pokazać? I czy base64 będzie też w zakładce network?

0
Adam Szumacher napisał(a):

@obscurity: A jaką dokładnie część inspektora pokazać? I czy base64 będzie też w zakładce network?

to co się pokazuje gdy wybierzesz "Select an element in the page" i wskażesz pdf myszką (Ctrl + Shift + C). Nie będzie w zakładce network jeśli jest generowane po stronie klienta

0
obscurity napisał(a):
Adam Szumacher napisał(a):

@obscurity: A jaką dokładnie część inspektora pokazać? I czy base64 będzie też w zakładce network?

to co się pokazuje gdy wybierzesz "Select an element in the page" i wskażesz pdf myszką (Ctrl + Shift + C). Nie będzie w zakładce network jeśli jest generowane po stronie klienta

screenshot-20241104104958.png

0

Jest sporo sposobów, żeby to zrobić od analizy kodu i komunikacji z serwerem frontendu, ale po zdjęciu screena na pierwszy rzut oka mi się skojarzyła taka metoda, gdzie dobierasz się do elementu canvas i tam możesz dobrać się do obrazu, który został wyrenderowany na canvasie czy nawet base64 z niego dostać binarnej reprezentacji formatu png czy innego, a potem sobie przelecieć pluginem po wszystkich stronach, czy webdriverem i wyrenderowany obraz z canvasa zapisywać, potem zescalić do jakiegoś formatu.
Jest to chyba najprostsze rozwiązanie, ale zawsze mogą jakieś problemy wystąpić po drodze, np. skrypt nadpisze funkcje nullami i nie będą dostępne te operacje od ręki.

Ale na drugi rzut oka widzę, że możesz to kupić tanio lub pobrać jak dobrze poszukasz w internecie, widzę, że to są jakieś podstawy programowania ze spisu treści wnioskując więc nic ciekawego.

0

No to pdf jest renderowany w kliencie na canvasie przez javascript, nie wiem czy to plugin w przeglądarce czy skrypt na stronie, musiałbyś dotrzeć teraz w jaki sposób ten pdf trafia do canvasa, zapewne cały pdf jest gdzieś w pamięci i łatwo go wyjąć. Sprawdzałeś zakładkę "Sieć"? W chrome miałbyś też zakładkę "Aplikacja" ze wszystkimi zasobami strony, nie wiem gdzie takie coś znaleźć w firefoksie

0
obscurity napisał(a):

No to pdf jest renderowany w kliencie na canvasie przez javascript, nie wiem czy to plugin w przeglądarce czy skrypt na stronie, musiałbyś dotrzeć teraz w jaki sposób ten pdf trafia do canvasa, zapewne cały pdf jest gdzieś w pamięci i łatwo go wyjąć. Sprawdzałeś zakładkę "Sieć"? W chrome miałbyś też zakładkę "Aplikacja" ze wszystkimi zasobami strony, nie wiem gdzie takie coś znaleźć w firefoksie
niestety w zakładce sieci tylko pliki js są.

0

wiem że każda strona to jest osobny pdf tylko do odczytu

Ale skąd to wiesz? Trochę dziwne.

Ale najpierw sprawdź zakładkę Network.

0
kelog napisał(a):

wiem że każda strona to jest osobny pdf tylko do odczytu

Ale skąd to wiesz? Trochę dziwne.

Podpowiedź od wykładowcy z uczelni

1

Ah ah omijanie copyrightu, chcesz żeby doktorant co to pisał klepał biedę do końca życia...

{EDITED: Nie ma co pomagać cebulakom}

Ale czy nie wyjdzie taniej i prościej po prostu wydać 50 PLN na tą ksiażkę?

EDIT: To już wstyd! https://helion.magazyn.pl/Java-Zadania-z-programowania-z-przyk-adowymi-rozwi-zaniami-Wydanie-II/javaz2_ebook/ksiazka.html
Cena książki: 13,70 zł (poprzednio: 24,46 zł)
Wstyd K...a!

1

BTW

a chciałbym docelowo napisać skrypt, który będzie te pdfy pobierał i scalał w jeden pdf.

Może w ogóle nie warto w to iść od tej strony, tylko zautomatyzować przewijanie stron + screenshoty w dobrej jakości. Potem tylko przycięcie obrazków i zapis do PDF to prosta sprawa.

Oczywiście jeśli ta praca jest warta choćby w doświadczeniu więcej niż te 14 złotych powyżej xD

Zarejestruj się i dołącz do największej społeczności programistów w Polsce.

Otrzymaj wsparcie, dziel się wiedzą i rozwijaj swoje umiejętności z najlepszymi.