Jak pobrać ukryte pdf? :: 4programmers.net

Adam Szumacher

2024-10-30T21:27:16+01:00

Rejestracja: dni
Ostatnio: dni
Postów: 35

0

Witam
Czy podpowiedziałby ktoś mi jak mogę pobrać pdf ze strony, który jest ukryty? Jest dokument, który da się przeczytać strona po stronie i wiem że każda strona to jest osobny pdf tylko do odczytu, ale bawiąc się inspektorem strony nie mogę nic znaleźć, a chciałbym docelowo napisać skrypt, który będzie te pdfy pobierał i scalał w jeden pdf.

andrzejlisek

2024-10-30T22:30:00+01:00

Rejestracja: dni
Ostatnio: dni

3

Czy możesz podać link do strony z tymi PDFami?

Czy problemem, z którym się meczysz to jest uzyskanie adresów PDFów składowych, pobranie tych plików, czy scalenie plików PDF w jeden plik? Najlepiej do każdego z tych trzech rzeczy podejść osobno.

obscurity

2024-10-30T22:48:58+01:00

Rejestracja: dni
Ostatnio: dni

1

W devtoolsach na zakładce Application znajdziesz każdy obrazek i dokument który jest na stronie, ewentualnie na zakładce Network możesz też sprawdzić URL. Chyba że pdf jest generowany przez javascript ale wtedy też powinieneś być w stanie zobaczyć jego base64 i zapisać jako plik. No chyba że to w ogóle nie jest pdf tylko ładny edytor zrobiony w javascript...
Pokaż lepiej screenshota z inspektora

Adam Szumacher

2024-10-30T23:04:43+01:00

Rejestracja: dni
Ostatnio: dni
Postów: 35

0

@obscurity Problem to uzyskanie adresów, natomiast linku do strony nie mogę podać bo nie da się zalogować na tą stronę logując się spoza sieci uczelnianej a bez zalogowania się nie ma dostępu do tego co chce pobrać.

@obscurity: A jaką dokładnie część inspektora pokazać? I czy base64 będzie też w zakładce network?

obscurity

2024-10-31T14:55:20+01:00

Rejestracja: dni
Ostatnio: dni

0

Adam Szumacher napisał(a):

@obscurity: A jaką dokładnie część inspektora pokazać? I czy base64 będzie też w zakładce network?

to co się pokazuje gdy wybierzesz "Select an element in the page" i wskażesz pdf myszką (Ctrl + Shift + C). Nie będzie w zakładce network jeśli jest generowane po stronie klienta

Adam Szumacher

2024-11-04T10:50:03+01:00

Rejestracja: dni
Ostatnio: dni
Postów: 35

0

obscurity napisał(a):

Adam Szumacher napisał(a):

@obscurity: A jaką dokładnie część inspektora pokazać? I czy base64 będzie też w zakładce network?

to co się pokazuje gdy wybierzesz "Select an element in the page" i wskażesz pdf myszką (Ctrl + Shift + C). Nie będzie w zakładce network jeśli jest generowane po stronie klienta

.GodOfCode.

2024-11-04T14:56:34+01:00

Rejestracja: dni
Ostatnio: dni
Postów: 358

0

Jest sporo sposobów, żeby to zrobić od analizy kodu i komunikacji z serwerem frontendu, ale po zdjęciu screena na pierwszy rzut oka mi się skojarzyła taka metoda, gdzie dobierasz się do elementu canvas i tam możesz dobrać się do obrazu, który został wyrenderowany na canvasie czy nawet base64 z niego dostać binarnej reprezentacji formatu png czy innego, a potem sobie przelecieć pluginem po wszystkich stronach, czy webdriverem i wyrenderowany obraz z canvasa zapisywać, potem zescalić do jakiegoś formatu.
Jest to chyba najprostsze rozwiązanie, ale zawsze mogą jakieś problemy wystąpić po drodze, np. skrypt nadpisze funkcje nullami i nie będą dostępne te operacje od ręki.

Ale na drugi rzut oka widzę, że możesz to kupić tanio lub pobrać jak dobrze poszukasz w internecie, widzę, że to są jakieś podstawy programowania ze spisu treści wnioskując więc nic ciekawego.

obscurity

2024-11-04T15:57:31+01:00

Rejestracja: dni
Ostatnio: dni

0

No to pdf jest renderowany w kliencie na canvasie przez javascript, nie wiem czy to plugin w przeglądarce czy skrypt na stronie, musiałbyś dotrzeć teraz w jaki sposób ten pdf trafia do canvasa, zapewne cały pdf jest gdzieś w pamięci i łatwo go wyjąć. Sprawdzałeś zakładkę "Sieć"? W chrome miałbyś też zakładkę "Aplikacja" ze wszystkimi zasobami strony, nie wiem gdzie takie coś znaleźć w firefoksie

Adam Szumacher

2024-11-04T18:45:04+01:00

Rejestracja: dni
Ostatnio: dni
Postów: 35

0

obscurity napisał(a):

No to pdf jest renderowany w kliencie na canvasie przez javascript, nie wiem czy to plugin w przeglądarce czy skrypt na stronie, musiałbyś dotrzeć teraz w jaki sposób ten pdf trafia do canvasa, zapewne cały pdf jest gdzieś w pamięci i łatwo go wyjąć. Sprawdzałeś zakładkę "Sieć"? W chrome miałbyś też zakładkę "Aplikacja" ze wszystkimi zasobami strony, nie wiem gdzie takie coś znaleźć w firefoksie
niestety w zakładce sieci tylko pliki js są.

kelog

2024-11-04T19:54:08+01:00

Rejestracja: dni
Ostatnio: dni
Postów: 767

0

wiem że każda strona to jest osobny pdf tylko do odczytu

Ale skąd to wiesz? Trochę dziwne.

Ale najpierw sprawdź zakładkę Network.

Adam Szumacher

2024-11-04T19:55:53+01:00

Rejestracja: dni
Ostatnio: dni
Postów: 35

0

kelog napisał(a):

wiem że każda strona to jest osobny pdf tylko do odczytu

Ale skąd to wiesz? Trochę dziwne.

Podpowiedź od wykładowcy z uczelni

99xmarcin

2024-11-05T20:35:21+01:00

Rejestracja: dni
Ostatnio: dni
Postów: 2420

1

Ah ah omijanie copyrightu, chcesz żeby doktorant co to pisał klepał biedę do końca życia...

{EDITED: Nie ma co pomagać cebulakom}

Ale czy nie wyjdzie taniej i prościej po prostu wydać 50 PLN na tą ksiażkę?

EDIT: To już wstyd! https://helion.magazyn.pl/Java-Zadania-z-programowania-z-przyk-adowymi-rozwi-zaniami-Wydanie-II/javaz2_ebook/ksiazka.html
Cena książki: 13,70 zł (poprzednio: 24,46 zł)
Wstyd K...a!

kelog

2024-11-05T20:49:13+01:00

Rejestracja: dni
Ostatnio: dni
Postów: 767

1

BTW

a chciałbym docelowo napisać skrypt, który będzie te pdfy pobierał i scalał w jeden pdf.

Może w ogóle nie warto w to iść od tej strony, tylko zautomatyzować przewijanie stron + screenshoty w dobrej jakości. Potem tylko przycięcie obrazków i zapis do PDF to prosta sprawa.

Oczywiście jeśli ta praca jest warta choćby w doświadczeniu więcej niż te 14 złotych powyżej xD