DocuFilterは、さまざまな文書テストを経て信頼性と技術力が検証された文書テキスト抽出SDKソリューションです。
MS Office、ハンコムオフィス、Open Office、PDF、EML、MSG、圧縮(10種類)など、ほとんどの文書フォーマットをサポートし、文書内に含まれる画像抽出機能まで提供されます。
既存の商用製品と比較して数倍以上の高速フィルタリング速度
多年の研究・分析経験による安定したパフォーマンスの提供
2GB以上の大容量ファイルのフィルタリング
メモリリークゼロ化と例外処理で安定性を提供
さまざまな文書フォーマットタイプからテキストを抽出
文書内に含まれる画像データの抽出
暗号化された文書ファイルの検出
DRM適用ファイルの識別(10種類)
多数の(Alz、Eggなど10種類)圧縮ファイルフィルタリングを提供
Windows、Linux 32Bit/64Bit サポート
モバイル環境(Android、iOS)サポート可能
C / C ++、Java、Python、C#などのさまざまなインターフェースを提供する
ユーザー環境に適したライブラリと実行可能ファイルの提供
メモリとファイルインターフェイスのサポート
社内個人情報の漏洩防止、検索、メールなど、文書内容のプレビューが必要な場所に適用可能です。以下はいくつかの例です。
文書編集機
MS Word(97、2003、2007、2010、2013、2016)
OpenOffice Word Document(ODT)
Hancom HWP(2007、2010、2014)、配布用のドキュメントを含める
一太郎
スプレッドシート
MS Excel(97、2003、2007、2010、2013、2016) - xlsb、xlsmのサポート
OpenOffice Excel Document(ODS)
Hancom CELL(2007,2010, 2014)
プレゼンテーション
MS PowerPoint(97、2003、2007、2010、2013、2016)
OpenOffice Powerpoint Document(ODP)
Hancom SHOW(2007、2010、2014)
圧縮
Zip、Egg、Alz、gzip、Tar、7z、gz、rar、tbz、jar
ビューア
Portable Document Format(PDF)
Electronic PUBlication Format(EPUB)
Text
Portable Document Format(PDF)
Electronic PUBlication Format(EPUB)
その他
Open Office ODFファイルのサポート
Embedding OLE オブジェクト文書のフィルタリング機能を追加
HTMLドキュメントのタグフィルタリング機能を追加
EML、RTF、MSG、MP3、MIME、CHM
ファイル形式は不明ですが、ファイル内の文字列を抽出できる形式のファイル
画像抽出可能フォーマット
HWP、DOC、DOCX、XLS、XLSX、PPT、PPTX、PDF
ODT、ODS、ODP、MP3