Apache Tika

ソフトウェアのスクリーンショット:
Apache Tika
ソフトウェアの詳細:
バージョン: 1.9 更新
日付のアップロード: 20 Jul 15
ライセンス: 無料
人気: 89

Rating: 5.0/5 (Total Votes: 1)

はApacheティカは、他のファイル内のコンテンツを検索するための低レベルのツールキットとして開発されました。
ティカは、単純なライブラリであること自分自身であまりしませんが、それは完全に機能でファイル検索システムを提供するために、検索エンジン、デジタル資産管理システムやCMSのようなより強力なツールに統合することができます。
ライブラリには、迅速に、全体的なファイル情報のためだけに、ファイルのヘッダーにアクセスすることができ、またはそれは本当に深い行くと、テキストまたはバイナリ形式で、データの様々なタイプのファイルの体内にあっても検索することができます。
ファイルの種類の広い範囲がサポートされ、ティカは、サードパーティのバインディングとラッパーの一連の他のプログラミング言語のおかげで使用することができます。

このリリースの新機能:ます。

このリリースはバグ修正と新たTesseract OCRパーサなどの新機能が含まれています。新しいGDALパーサ。より多くのフォーマット、およびティカ安定性の全体的な改善をサポート。

このバージョン1.8の新機能です。

このリリースはバグ修正と新たTesseract OCRパーサなどの新機能が含まれています。新しいGDALパーサ。より多くのフォーマット、およびティカ安定性の全体的な改善をサポート。

このバージョン1.7の新機能です。

このリリースはバグ修正と新たTesseract OCRパーサなどの新機能が含まれています。新しいGDALパーサ。より多くのフォーマット、およびティカ安定性の全体的な改善をサポート。

このリリースはバグ修正と新しい翻訳API、よりサポートされている形式、およびティカ安定性の全体的な改善を含む新機能が含まれています。

バージョン1.6の新機能です。
PDFファイルに埋め込まれたファイル処理の取り扱いに

このバグを修正:

このバージョン1.5の新機能です。
JavaやGroovyの、C ++のファイルをサポートするためSourceCodeParserを追加しました。
マルチパート/フォームデータペイロードをサポートするために、ティカサーバーを更新しました。
CXF 2.7.8にティカサーバーを更新しました。
ワイルドカードアドレスを超える要求を受け入れるようにティカサーバーを更新しました。
代替NonSequentialPDFParserを使用するオプションが追加されました。
PDF AcroFormsからのコンテンツは、現在抽出されます。
PPTでのマスタースライドから一定無効アスタリスク。
PPTやPPTXに自動日付の取り扱いを確認するためにテストケースを追加しました。

このバージョン1.4の新機能です:

このことに難選ばれたGPLのテキストでテストHTMLファイルを削除しました。
ティカ・サーバーへの改善は、テキスト/ htmlとtext / xmlでコンテンツを生成できるようにします。
改善がtrueに設定さdecompressConcatenatedオプションを必要とするg'zippedファイルを処理するためにコンプレッサーパーサーに行われました。
AWKファイルの検出から防止されたタイポグラフィのエラーに対処し。

この何がバージョン1.2で新しく追加されます。

Apacheのティカ1.2は、改良とバグの修正が多数含まれています。

この何がバージョン1.0で新しく追加されます。

Apacheのティカ1.0は、改良とバグの修正が多数含まれています。

このバージョン0.9の新機能です。

このリリースには、いくつかの重要なバグ修正と新機能が含まれています。

このバージョン0.8の新機能です:

この言語識別は、動的に構成可能で、クラスパスからロードされた設定ファイルを使用して管理。
ティカは現在、根本的なローマのライブラリをラップすることによって解析するフィードをサポートしています。
ティカの解析のためのクイックスタートガイドが寄贈されました。
XHTML属性を介して、配管のためのアプローチが追加されました。
与えられた入力文書のための最高のパーサーを選択する際に、メディアタイプ階層情報が考慮されるようになりました。
NetCDFファイルとHDF4 / 5などの一般的な科学的データフォーマットを解析するためのサポートが追加されました。
Windows用のユニットテストはTestParsersを完了できるように、修正されました。

このバージョン0.7の新機能です:

このMP3ファイルの解析チャネルとのSampleRate抽出とID3v2のサポートを含む、改善されました。さらに、オーディオ解析のMIME検出もMIDIフォーマットのために改善されました。
ティカは、もはやそのRTF形式の解析機能のためのX11に依存していません。
AutoDetectParserでのスレッドセーフなバグが発見され、対処されました。
PDFBox 1.0.0にアップグレードしてください。新しいPDFBoxバージョンは、PDF解析のパフォーマンスが向上し、テキスト抽出多くの問題が修正されています。

この要件:

このJavaの6以上

同じようなソフトウェア

Inverted
Inverted

10 Feb 16

Rangy
Rangy

13 May 15

Progress
Progress

1 Mar 15

fluxbb-cache
fluxbb-cache

5 Jun 15

開発者の他のソフトウェア Apache Software Foundation

へのコメント Apache Tika

コメントが見つかりません
コメントを追加
画像をオンにする!
カテゴリから探す