ソフトウェアの詳細:
バージョン: 2.6.0
日付のアップロード: 20 Feb 15
ライセンス: シェアウェア
価格: 1900.00 $
人気: 63
PDFTextStreamプロジェクトは、Java、Pythonの、および.NETで使用可能なPDFファイルのテキストとメタデータ抽出ライブラリです。
それは、(アクロバット7で使用されるバージョン1.6を含め、)PDF文書仕様のすべてのバージョンをサポートし、40ビットおよび128の解読(中国語、日本語、韓国語を含む)、ダブルバイト文字セットを使用してエンコードされたテキストの抽出ビット暗号化された文書、及び(フォームデータ、ブックマーク、注釈を含む)PDFドキュメントで提供されているすべてのドキュメントのメタデータの抽出。
ジャカルタLuceneのとの容易な統合が含まれております。
のこのリリースではの新機能である:ます。
- このバージョンが作ら各種の不具合を修正し含みPDFTextStreamがPDF仕様に不適合されているPDFドキュメントからテキストを抽出することが可能であることを確認するためにします。
- また、パフォーマンスの向上が多数含まれます。
のバージョン2.3.0でのの新機能:
- COMに.isStruckThrough()メソッドを追加しました。 snowtide.pdf.TextUnit、キャラクターがそれを通って引き出さ取り消し線があるかどうかを示すます。
- 埋め込まれた文字マッピングのためPDFTextStreamのサポートを改善します。
- 単語間の空白の計算は、明示的に元のPDF文書でエンコードされているホワイトスペースのために適切に考慮するように修正されています。
- 以前に抽出時に「無視」されたPDFコンテンツのいくつかの範囲になり失敗する可能性が複合コンテンツのエンコーディング、のPDFTextStreamの扱いが改善します。
- 単一行のテキストを複数行に分割されることになるVisualOutputTargetのバグを修正します。
- テキストの改善された垂直方向の配置がVisualOutputTargetを使用して抽出します。
- は密接に隣接単語間のスプリアス追加の空白を除去するために抽出物をVisualOutputTargetは生産改善します。
のどのバージョン2.2.5にの新しいです。
- 今回のリリースでは、XFAのようにデータを形成する抽出するためのサポートが追加されていますXMLます。
- それはかなりVisualOutputTargetを使用してテキスト抽出のパフォーマンスが向上します。 2GBを超えるPDF文書のサポートをします。
- 埋め込まれたType1フォントからエンコーディングは、以前にいくつかの状況で適切に適用されていなかったバグの修正します。
- 更新したPDF文書の新しいコンテンツが時々無視されていた問題の修正します。
- PDFDocEncodingでエンコードされたブックマークやメタデータが正しくデコードされていなかった問題の修正します。
- com.snowtide.pdf.Bookmarkで.getDestinationName()メソッドます。
の要件の
- はApache Luceneの
コメントが見つかりません