PyPDF2 nie wykrywa tekstu w PDF

0

Witam :)
Pracuję obecnie nad prostym programem, ktorego zadaniem jest odczytywanie danych z plikow PDF. Wielokrotnie w przeszłości uzywałem PyPDF2 lecz tym razem natrafiłem na problem, iż tekt w pliku nie jest wykrywany :) Czy wie ktoś może czym to moze byc spowodowane ??

0

Tym ze tam nie ma tekstu, tylko jest np obrazek.

0

Problemy z czcionkami?

0

@UglyMan: Jest tekst
@.andy : Można jakoś sprawdzić czy to jest ten błąd ?

0

Spróbuj otworzyć plik PDF np. w LibreOffice i zobacz, czy tekst się kopiuje.
A Może same pliki to po prostu skan w PDF?

0

@.andy: Tak tekst się kopiuje. Pliki nie są skanem.

0

Aż tak się na tym nie znam niestety ale wiem że w projekcie, w którym wcześniej pracowałem był to jeden z powodów przy przetwarzaniu pdf.

Może te acrofieldy są jakieś dziwne i dlatego biblioteka sobie z nimi nie radzi.
Możesz te pole w jakimś edytorze do metadanych pokazać?

0

@.andy:
https://zapodaj.net/41c61e6a3ebf2.png.html
https://zapodaj.net/089724c2e098f.png.html

Zauważyłem też ciekawą rzecz. Pliki posiadają rozszerzenie .Pdf a nie .pdf ma to jakieś znaczenie ? Czy może to dotyczyć mojego problemu ??

0

@rolniczy: o to chodziło. Teraz musisz dojść który obiekt to ten tekst, którego nie da się skopiować i spróbować porównać z plikiem gdzieś jest ok.

0

@.andy: mógłbyś podpowiedzieć czym charakteryzują się obiekty tekstu ? po czym je poznać ?? ( próbowałem juz tez innych metod wyciągania danych z pdf, tabela, obrazki i nic nie przynosi efektów )

1 użytkowników online, w tym zalogowanych: 0, gości: 1