PDFMinerは、最初のPDFファイルの内容を取得し、HTMLのような、より可鍛性形式に変換することによって動作します。
そこから、テキストとデータを抽出して分析し、事前定義されたルールを分離し、提供されているユーザーに、または他のより強力なデータ分析ツールに送信に基づいています。
テキスト分析は、あなたが何を意図したものでなければ、あなたは簡単にPDFMinerは、単に抽出するために設定するか、単にだけでなく、PDFデータに変換することができます。
その機能は、それにより広い利用スペクトルおかげで互いに別々に動作し、許可することができます。
特徴:
この100%のPythonコード、ないCまたはC ++
解析PDFファイル
PDFファイルを解析
PDFは、他の形式に変換します
目次抽出
のみタグ付けされたコンテンツを取得
テキストPDF機能の多数のサポート
PDFファイル内のフォントの種類の多数のサポート
基本的な暗号化(RC4)のサポート
この何このリリースで新しく追加されます。
PDFDocument.initialize()メソッドが削除され、もはや必要とされています。パスワードはPDFDocumentコンストラクタの引数として指定されています。
このバージョン20110515の新機能です:
このAPIの変更。
LTPolygonクラスはLTCurveとして名前が変更されました。
このバージョン20110227の新機能です:
このバグの修正やレイアウト解析の改善。
このバージョン20101226の新機能です:
このバグフィックスとマイナーな改善のカップル。
このバージョン20101017の新機能です:
このバグ修正のカップルとマイナーな改善。
このバージョン20100424の新機能です:
このバグ修正と小さな改良TOC抽出に。
この要件:
このPythonの2.4までの3
この制限事項:
このPDFMinerは、C / C ++よりも20倍遅いことができます - ベースのソフトウェア。
コメントが見つかりません