Jak w temacie - jestem ciekaw czy ktokolwiek używa/używał jakiegokolwiek narzędzia do generowania/czytania tekstu z pdfa będącego sklejką skanów z (powiedzmy) książki. O ile wiem oficjalnie taką opcję oferuje tylko Adobe za $$$, ale chętnie dowiem się jakie istnieją alternatywy.
Jaki OCR do PDF?
Wątek przeniesiony 2024-04-23 10:01 z Off-Topic przez cerrato.
- Rejestracja: dni
- Ostatnio: dni
- Postów: 147
- Rejestracja: dni
- Ostatnio: dni
- Postów: 2553
Niektórzy po prostu template matching używają do tego po oczywiście wstępnej obróbce np adaptive threshold.
Jak masz bardzo kiepskiej jakości, albo powyginane to wtedy bym się bawił w OCR.
- Rejestracja: dni
- Ostatnio: dni
A google drive nie robi tego domyślnie?
- Rejestracja: dni
- Ostatnio: dni
- Postów: 596
phantom_wizard napisał(a):
Jak w temacie - jestem ciekaw czy ktokolwiek używa/używał jakiegokolwiek narzędzia do generowania/czytania tekstu z pdfa będącego sklejką skanów z (powiedzmy) książki. O ile wiem oficjalnie taką opcję oferuje tylko Adobe za $$$, ale chętnie dowiem się jakie istnieją alternatywy.
Wszystko zależy jak bardzo idealnego rozwiązania potrzebujesz, ale darmowe alternatywy radzą sobie całkiem dobrze (przetestowałem):
https://ocrmypdf.readthedocs.io/en/latest/index.html
główne problemy jakie mogą się pojawić to np kastrowanie polskich znaków z ogonków, lub rozdzielanie na znak i przecinek.
Ale jak potrzebujesz z pdf-a będącego stertą grafik zrobić pdf-a wyszukiwalnego to jak najbardziej.