DocToText

konwersja dokumentów do postaci tekstowej, przetwarzanie adnotacji i metadanych


SILVERCODERS DocToText to potężne narzędzie do konwersji dokumentów, w wielu popularnych formatach, do prostego formatu tekstowego (plain text). W skład pakietu, dostępnego dla użytkowników za darmo na otwartoźródłowej licencji GPL wchodzi program konsolowy oraz biblioteka C/C++, umożliwiająca wbudowanie mechanizmu ekstrakcji tekstu z dokumentów w inną aplikację.



Obsługiwane są binarne formaty MS Office: MS Word (DOC), MS Excel (XLS, XLSB), MS PowerPoint (PPT), Rich Text Format (RTF), OpenDocument (znany także jako ODF i ISO/IEC 26300, pełna nazwa: OASIS Open Document Format for Office Applications): dokumenty tekstowe (ODT), arkusze kalkulacyjne (ODS), prezentacje (ODP), grafika (ODG), Office Open XML (ISO/IEC 29500, zwany także jako OOXML, OpenXML lub MSOOXML): MS Word (DOCX), MS Excel (XLSX), MS PowerPoint (PPTX), Formaty iWork (PAGES, NUMBERS, KEYNOTE), Formaty OpenDocument Flat XML (FODP, FODS, FODT), Portable Document Format (PDF), Pliki poczty elektronicznej - email (EML) i HyperText Markup Language (HTML).

Wydobywanie tekstu z plików doc, xls, ppt, rtf, odt, ods, odp, odg, docx, xlsx, pptx, pages, numbers, keynote, fodp, fods, fodt, pdf, eml i html może mieć wiele zastosowań, np. wyszukiwanie, indeksowanie lub archiwizacja. DocToText może być też używany jako szybka przeglądarka działająca w konsoli.

DocToText potrafi wydobyć tekst nie tylko z treści dokumentu, ale również z adnotacji (komentarzy) osadzonych w plikach odt, doc, docx lub rtf oraz odczytać metadane takie jak autor, data ostatniej modyfikacji dokumentu, czy ilość stron.

Złożone dokumenty? Inne narzędzia się poddały? Arkusz MS Excel osadzony w dokumencie MS Word? Potrzebna autodetekcja kodowania znaków? OLE w formatach OpenDocument? Nie ma problemu.

DocToText pozwala na konwersję uszkodzonych dokumentów OpenDocument i Office Open XML. Może być użyty do odzyskania tekstu, nawet jeśli inne metody odzysku zawiodły. Jeśli potrzebujesz pomocy z tego rodzaju problemami zapoznaj się z naszymi usługami odzyskiwania dokumentów.

Oferujemy także możliwość wykorzystania biblioteki w aplikacjach komercyjnych, wraz z pełnym wsparciem technicznym. Narzędzie jest stale używane i testowane na tysiącach dokumentów przez klientów na całym świecie. W razie zainteresowania prosimy o kontakt.

Ekscytująca wiadomość! Projekt DocToText ewoluował w DocWire SDK - potężne narzędzie do współczesnej obróbki danych w C++17/20. DocWire SDK, uhonorowane nagrodą Społeczności SourceForge i wspierane przez Microsoft, charakteryzuje się przetwarzaniem opartym na sztucznej inteligencji, obsługując niemal 100 formatów danych, w tym skrzynki pocztowe i OCR. Polepsz swoje doświadczenia z ekstrakcją tekstu, ekstrakcją danych ze stron www, data mining i analizą dokumentów, zachowując jednocześnie możliwość przetwarzania offline dla bezpieczeństwa i poufności. Dołącz do nas w tej kolejnej fazie, eksplorując DocWire SDK na GitHub.

Back to Top