PyPDF2 nie wykrywa tekstu w PDF

Witam :)
Pracuję obecnie nad prostym programem, ktorego zadaniem jest odczytywanie danych z plikow PDF. Wielokrotnie w przeszłości uzywałem PyPDF2 lecz tym razem natrafiłem na problem, iż tekt w pliku nie jest wykrywany :) Czy wie ktoś może czym to moze byc spowodowane ??

Tym ze tam nie ma tekstu, tylko jest np obrazek.

Problemy z czcionkami?

@UglyMan: Jest tekst
@.andy : Można jakoś sprawdzić czy to jest ten błąd ?

Spróbuj otworzyć plik PDF np. w LibreOffice i zobacz, czy tekst się kopiuje.
A Może same pliki to po prostu skan w PDF?

@.andy: Tak tekst się kopiuje. Pliki nie są skanem.

Aż tak się na tym nie znam niestety ale wiem że w projekcie, w którym wcześniej pracowałem był to jeden z powodów przy przetwarzaniu pdf.

Może te acrofieldy są jakieś dziwne i dlatego biblioteka sobie z nimi nie radzi.
Możesz te pole w jakimś edytorze do metadanych pokazać?

@.andy:
https://zapodaj.net/41c61e6a3ebf2.png.html
https://zapodaj.net/089724c2e098f.png.html

Zauważyłem też ciekawą rzecz. Pliki posiadają rozszerzenie .Pdf a nie .pdf ma to jakieś znaczenie ? Czy może to dotyczyć mojego problemu ??

@rolniczy: o to chodziło. Teraz musisz dojść który obiekt to ten tekst, którego nie da się skopiować i spróbować porównać z plikiem gdzieś jest ok.

@.andy: mógłbyś podpowiedzieć czym charakteryzują się obiekty tekstu ? po czym je poznać ?? ( próbowałem juz tez innych metod wyciągania danych z pdf, tabela, obrazki i nic nie przynosi efektów )

Liczba odpowiedzi na stronę

PyPDF2 nie wykrywa tekstu w PDF

1 użytkowników online, w tym zalogowanych: 0, gości: 1

Praca dla programistów

Forum dyskusyjne

Sprawy administracyjne

O nas

Skontaktuj się z nami