Apache Tika

ソフトウェアのスクリーンショット:
Apache Tika
ソフトウェアの詳細:
バージョン: 1.4
日付のアップロード: 20 Feb 15
ライセンス: 無料
人気: 6

Rating: nan/5 (Total Votes: 0)

Apacheのティカを検出およびパーサライブラリを何も使用していないが、既存の、いくつかの文書からメタデータだけでなく、構造化されたテキストの内容を抽出するために設計されたオープンソースのツールキットです。
ハイパーテキストマークアップ言語(HTTP)、XMLおよび派生フォーマット、Microsoft Officeの文書フォーマット、OpenDocumentのフォーマット(ODF)、ポータブルドキュメントフォーマット(PDF)、電子出版フォーマット(EPF)、リッチテキスト形式(RTF:アパッチティカは、以下のドキュメント形式をサポートしています)、圧縮およびパッケージの形式、テキスト/音声/画像/ビデオ形式、mbox形式、およびJavaクラスファイルとアーカイブ。
以前は、Apacheのティカは、Apache Luceneのソフトウェアライブラリのサブプロジェクトだった。今では、Apache Software Foundationがスタンドアロンパッケージとして配布されます。

の新機能の今回のリリースで:ます。

  • を削除それに難選ばれたGPLのテキスト(TIKA-1129)を持つテストHTMLファイルます。

  • ティカ·サーバーに
  • の改善は、それがtext / htmlとテキスト/ XMLコンテンツ(TIKA-1126、TIKA-1127)を生成できるようにします。
  • の改善が真(TIKA-1096)に設定decompressConcatenatedオプションを必要とするg'zippedファイルを処理するために、コンプレッサーパーサーに行われました。
  • awkのファイル(TIKA-1081)の検出から防止した活版印刷のエラーを対処します。
  • は、提出された文書(TIKA-1047)のごく一部に基づいて、メディアタイプを検出しティカのJAX-RS RESTサーバに新しいエンドポイントを追加しました。
  • RTF:順序と順不同リストは、現在(TIKA-1062)が抽出されてます。
  • MP3:オーディオ期間は今が抽出される(TIKA-991)
  • Javaの.classファイル:Javaバイトコード(TIKA-1053)を解析するためのASM 3.1からASM 4.1にアップグレードします。
  • MIMEタイプ:定義はいくつかの一般的な形式の詳細(TIKA-1012 / TIKA-1083)
  • と一緒にリンク(URL)とUTIを含み、任意に延長
    Officeドキュメントからの要約情報を解析する際、OLE10埋め込まれた文書を解析し、TikaCLIに埋め込まdocumenntsを保存するときには、現在の抽出(TIKA-1074)します。を中止ログに記録する代わりにされている
  • 例外
  • MSワード:ライン表形式の文字が今改行(TIKA-1128)に置き換えられます。
  • XML:ElementMetadataHandlersは今、必要に応じて、重複や空の値(TIKA-1133)を受け入れることができます。

の要件

  • は、Java 2 Standard Editionのランタイム環境ます。

開発者の他のソフトウェア The Apache Software Foundation

へのコメント Apache Tika

コメントが見つかりません
コメントを追加
画像をオンにする!