Jaki OCR do PDF?

Wątek przeniesiony 2024-04-23 10:01 z Off-Topic przez cerrato.

phantom_wizard

2024-04-21T11:27:14+02:00

Rejestracja: dni
Ostatnio: dni
Postów: 147

Jak w temacie - jestem ciekaw czy ktokolwiek używa/używał jakiegokolwiek narzędzia do generowania/czytania tekstu z pdfa będącego sklejką skanów z (powiedzmy) książki. O ile wiem oficjalnie taką opcję oferuje tylko Adobe za $$$, ale chętnie dowiem się jakie istnieją alternatywy.

Czitels

2024-04-21T11:50:24+02:00

Rejestracja: dni
Ostatnio: dni
Postów: 2553

Niektórzy po prostu template matching używają do tego po oczywiście wstępnej obróbce np adaptive threshold.

Jak masz bardzo kiepskiej jakości, albo powyginane to wtedy bym się bawił w OCR.

MarekR22

2024-04-21T13:20:11+02:00

Rejestracja: dni
Ostatnio: dni

A google drive nie robi tego domyślnie?

Przebrzydły Kontestator

2024-04-21T23:25:40+02:00

Rejestracja: dni
Ostatnio: dni
Postów: 596

phantom_wizard napisał(a):

Jak w temacie - jestem ciekaw czy ktokolwiek używa/używał jakiegokolwiek narzędzia do generowania/czytania tekstu z pdfa będącego sklejką skanów z (powiedzmy) książki. O ile wiem oficjalnie taką opcję oferuje tylko Adobe za $$$, ale chętnie dowiem się jakie istnieją alternatywy.

Wszystko zależy jak bardzo idealnego rozwiązania potrzebujesz, ale darmowe alternatywy radzą sobie całkiem dobrze (przetestowałem):

https://ocrmypdf.readthedocs.io/en/latest/index.html

główne problemy jakie mogą się pojawić to np kastrowanie polskich znaków z ogonków, lub rozdzielanie na znak i przecinek.
Ale jak potrzebujesz z pdf-a będącego stertą grafik zrobić pdf-a wyszukiwalnego to jak najbardziej.

Liczba odpowiedzi na stronę

Zarejestruj się i dołącz do największej społeczności programistów w Polsce.

Otrzymaj wsparcie, dziel się wiedzą i rozwijaj swoje umiejętności z najlepszymi.

Utwórz konto