Witam,
Stworzyliśmy projekt parsera CV który potrafi odczytać polskie znaki z dokumentów.
Narzędzie zostało stworzone pierwotnie na nasze potrzeby, obecnie zaczęliśmy je oferować w modelu SaaS.
Główne cechy ekstraktora danych:
pozyskiwanie danych kontaktowych z CV, określenie danych gps, przedstawienie dokumentu w wersji czystego txt.
Obsługiwane najpopularniejsze formaty plików:
doc, docx, odt, pdf, jpg.
Będę wdzięczny za waszą opinię.
Narzędzie znajduje się pod adresem:
https://pozyskajdane.pl
Możliwość przetestowania w wersji demo
https://pozyskajdane.pl/demo
fourfour napisał(a):
Z ciekawości wrzuciłem dwa dokumenty (jpg), w obu przypadkach otrzymałem komunikat "Rozpoznanie pliku się nie udało". Ciao. :)
Proponuję wrzucić pdf lub odt z danymi, jeśli w jpg nie było danych, albo pliki były małej rozdzielczości, to prawdopodobnie nie wyekstraktowano tekstu z dokumentu.

- Rejestracja:ponad 12 lat
- Ostatnio:9 miesięcy
- Lokalizacja:Dąbrowa Górnicza
ja mam takie same wyniki jak kolega wyzej. plik: http://www.thebigidea.co.nz/files/CV.jpg
duuuuza rozdzielczosc a i tak: Rozpoznanie pliku się nie udało
dla pliku pdf przetworzylo, ale mam tylko to:
- 5fda65d82f.png (125 KB) - ściągnięć: 213

- Rejestracja:prawie 11 lat
- Ostatnio:prawie 9 lat
- Postów:627
HRowiec napisał(a):
fourfour napisał(a):
Z ciekawości wrzuciłem dwa dokumenty (jpg), w obu przypadkach otrzymałem komunikat "Rozpoznanie pliku się nie udało". Ciao. :)
Proponuję wrzucić pdf lub odt z danymi, jeśli w jpg nie było danych, albo pliki były małej rozdzielczości, to prawdopodobnie nie wyekstraktowano tekstu z dokumentu.
Jeśli mam wrzucać odt, albo pdf, to równie dobrze mogę wrzucać czysty tekst :) Choć zaraz, zaraz.. czy jeśli wrzucę odt czy pdf zrobione w taki sposób, że wkleję tam ten plik jpg to będzie lepiej? :)
szalonyfacet napisał(a):
ja mam takie same wyniki jak kolega wyzej. plik: http://www.thebigidea.co.nz/files/CV.jpg
duuuuza rozdzielczosc a i tak:
Rozpoznanie pliku się nie udało
dla pliku pdf przetworzylo, ale mam tylko to:
Zapomniałem dodać, że pozyskajdane.pl rozpoznaje dane pod warunkiem że są z Polski:)

- Rejestracja:około 21 lat
- Ostatnio:prawie 3 lata
- Lokalizacja:Space: the final frontier
- Postów:26433
Ale co ten soft niby robi? wyciąganie danych z pdf czy odt jest dostępne w każdym sensownym języku programowania (java, python, zgaduje ze .net też coś ma). Ocr to też nic nowego. Więc jaka jest wartość dodana? Ze macie regexpa do wyciągania adresu i ciągnięcie pozycje gps z google maps? Przecież ten wasz soft to jest pół godziny roboty dla średniego studenta...
Shalom napisał(a):
Ale co ten soft niby robi? wyciąganie danych z pdf czy odt jest dostępne w każdym sensownym języku programowania (java, python, zgaduje ze .net też coś ma). Ocr to też nic nowego. Więc jaka jest wartość dodana? Ze macie regexpa do wyciągania adresu i ciągnięcie pozycje gps z google maps? Przecież ten wasz soft to jest pół godziny roboty dla średniego studenta...
Serdecznie dziękuję za komentarz krytyczny.
Co do ekstrakcji czystego tekstu z dokumentów, wyciągania adresu email i nr telefonu - zgadzam się.
Zostają pewne luki w reszcie danych: ekstrakcja danych typu imię, nazwisko, adres, miasto itp. Prosty regex to trochę za mało...
Zdefiniowanie co jest imieniem/nazwiskiem, miastem, ulicą ( w szczególności w CV gdzie danych znaczeniowo podobnych może być całe mnóstwo) w języku polskim nie jest takie łatwe na jakie wygląda.
Np. jak byśmy mogli regex'em zdefiniować co jest nazwiskiem - szczególnie dwu członowym (słynne Cyps albo Zyps). Nie twierdze że https://pozyskajdane.pl działa idealnie - nie wiem nawet czy w/w konstrukcję nazwiska jest w stanie ( na tym etapie rozwoju) zdefiniować prawidłowo, twierdzę, że testowałem rozwiązania dostępne na świecie i żadne nie miało skuteczności podobnej do naszego w języku polskim.
Pozdrawiam
HRowiec
Trochę trudno się dyskutuje, jak są po scalane posty
"żadne nie miało skuteczności podobnej do naszego w języku polskim." - wysłałem dwa pliki, dwa odrzucone, dla mnie to skuteczność 0. Tłumaczenie typu "wyślij w innym formacie" etc. mnie nie przekonuje - będę miał 500 dokumentów i po kolei będę prosił tych, którzy mi je przysłali, by przysłali jeszcze raz w innych (różnych, bo każdy może być nieodpowiedni) formatach, bo mi automat nie odczytuje danych? O nie :) - fourfour dzisiaj, 08:36
Proszę o informacje jakie formaty plików zostały odrzucone, zgodnie z informacją na stronie, przetwarzane są formaty: DOC, DOCX, PDF, ODT, RTF, JPG - czyli najpopularniejsze w Polsce.
My prowadziliśmy testy na kilkudziesięciu tysiącach i współczynnik prawidłowych przetworzeń jest na poziomie ponad 90%.
Zachęcam do próby na większej ilości plików.
Jeszcze raz dziękuję za wszystkie komentarze.
Pozdrawiam
HRowiec


Wdrożyliśmy nową wersję naszego narzędzia do ekstrakcji danych z CV.
Obecnie można pozyskiwać dane z maili (w formacie eml) wraz z danymi z załączników ograniczenie na https://pozyskajdane.pl/demo do 4 MB.
Zapraszam do testów i dziękuję za opinię.
eczka napisał(a):
Ewidentnie jest jakiś problem z plikami jpg. Nie działa to prawidłowo, gubi znaki albo je miesza dla rozdzielczości 96dpi.
Pliki jpg (skany dokumentów)
są problematyczne, pracujemy nad poprawieniem naszego ocr'a.
Serdecznie dziękuję za testy i opinię.
fasadin