Próbuje zaimplementować taką funkcjonalność:
-otwiera obraz w dużej rozdzielczości z dpi min. 300,
-wycina z niego obszar z tekstem w formie paragrafu lub tabeli
-zapisuje ten obszar do nowego pliku
-poddaje go obróbce ( wzoruje się na tej pozycji link)
-przekazuje wynik do pliku xls
Zacząłem z tesseractem, wyniki były nie najgorsze ale mam wrażenie, że lepiej sobie radzi z całą stroną niż wycinkami pojedynczego tekstu. Mimo dużej rozdzielczości, odseparowania tekstu, czcionek bez ubytków pikseli efekt wynosi ca. 90%, myli dużo nieoczywistych znaków jak & z kropką. Dużo zależy też od języków, angielski bez problemu, niemiecki ujdzie ale francuski efekt spadł poniżej 50%.
Potem zaimplementowałem easyocr, lepiej sobie radzi z wycinkami tekstu, parę znaków lepiej odczytał, efekt podobny ca. 92% na paragrafach ale na tabelach już gorzej sobie radzi, czas trwania konwersji znacznie się wydłużył, wydajnościowo tesseract wygrywa bezapelacyjnie.
Zastanawiam się czy te rozwiązania OCR nadają się do automatyzacji. Czy da się zakodować „uniwersalny” proces przygotowania i konwersji obrazu aby osiągać wyniki ~98%? Siedzi ktoś może głębiej w tym temacie? Dzięki za pomoc