PDF2HTML - konwersja

PDF2HTML - konwersja
bordeux
  • Rejestracja:około 18 lat
  • Ostatnio:8 miesięcy
  • Lokalizacja:Chorzów
  • Postów:1130
0

Poszukuje już od paru dni jakiegoś konwertera na linuxa, ktory zmienia plik pdf na html. Mam juz zainstalowane na linuxie "pdftohtml" <- fajny program, lecz nie tego szukam. On wyodrębnia tekst - bez prawdziwego formatowania.
Szukam czegoś co ma :
http://viewer.zoho.com
google docs
http://www.convertpdftohtml.net/

Czyli jest obrazek a na nim tekst -> ze użytkownik bedzie mogl kopiowac tresc.
Znacie coś sensownego?

Ogólnie chodzi mi po głowie takie coś: muszę na stronie umieścić plik PDF. Niestety nie mogę udostępnić czystego pliku, bo google bedzie odsylac do niego. Z tego powodu będę tracił na odwiedzających. Myślałem żeby dodac iframe do <a href="http://googlesystem.blogspot.com/2009/07/googles-pdf-viewer-for-search-results.html"google viwer </a> ale jest jeden wielki minus - google bot nie zaindeskuje strony. Co na to poradzic?


:)
edytowany 1x, ostatnio: bordeux
kofel
  • Rejestracja:około 15 lat
  • Ostatnio:ponad 12 lat
0

W Zend Frameworku (bodajże tym nowym, dla 5.3 - z githuba) są potężne klasy do obsługi PDFów. Co prawda musisz sam zakodzić konwersję, ale myślę, że będzie to możliwe.
Ew. możesz skorzystać z ghostscripta, który umożliwia eksport PDFów do grafiki, włącznie z wyodrębnieniem tekstu.

Możesz spróbować także jakiegoś viewera PDFów zrobionego w flashu. Istnieje coś takiego jak Flex Paper, dobre, lecz dla komercyjnych rozwiązań płatne. (z autorem jest bardzo dobry kontakt, dostajemy źródło :)).

bordeux
  • Rejestracja:około 18 lat
  • Ostatnio:8 miesięcy
  • Lokalizacja:Chorzów
  • Postów:1130
0

moim głównym celem jest optymalizacja dla wyszukiwarek -> na google opieram swój cały ruch na stronie. Nie mogę dać zwykłego pdfa - jest to nieopłacalne.

Oglądałem własnie ZEND'a ale widzę tylko przkłady z html do pdf. A ja chce w 2 stronę.

Ghostscript - niestety... może ty wiesz jak przekonwertować w nim na html dokument pdf?


:)
kofel
  • Rejestracja:około 15 lat
  • Ostatnio:ponad 12 lat
0

Wiem jak tylko wyodrębnić tekst za pomocą Ghostscripta (chodziło mi o pdftotext z Xpdf), za pomocą Zendowskiego tekstu chyba się wyodrębnić nie da. Możesz za to pobrać wszystkie obiekty (obrazki itd. razem z pozycją) z PDFa, więc wystarczy jakbyś to wszystko połączył, i sam generował HTML.

ZF2 PDF: https://github.com/zendframework/zf2/tree/master/library/Zend/Pdf
pdftotext: http://en.wikipedia.org/wiki/Pdftotext

edytowany 1x, ostatnio: kofel

Zarejestruj się i dołącz do największej społeczności programistów w Polsce.

Otrzymaj wsparcie, dziel się wiedzą i rozwijaj swoje umiejętności z najlepszymi.