ソフトウェアの詳細:
Apacheのティカを検出およびパーサライブラリを何も使用していないが、既存の、いくつかの文書からメタデータだけでなく、構造化されたテキストの内容を抽出するために設計されたオープンソースのツールキットです。
ハイパーテキストマークアップ言語(HTTP)、XMLおよび派生フォーマット、Microsoft Officeの文書フォーマット、OpenDocumentのフォーマット(ODF)、ポータブルドキュメントフォーマット(PDF)、電子出版フォーマット(EPF)、リッチテキスト形式(RTF:アパッチティカは、以下のドキュメント形式をサポートしています)、圧縮およびパッケージの形式、テキスト/音声/画像/ビデオ形式、mbox形式、およびJavaクラスファイルとアーカイブ。
以前は、Apacheのティカは、Apache Luceneのソフトウェアライブラリのサブプロジェクトだった。今では、Apache Software Foundationがスタンドアロンパッケージとして配布されます。
の新機能の今回のリリースで:ます。
- を削除それに難選ばれたGPLのテキスト(TIKA-1129)を持つテストHTMLファイルます。
- の改善は、それがtext / htmlとテキスト/ XMLコンテンツ(TIKA-1126、TIKA-1127)を生成できるようにします。
- の改善が真(TIKA-1096)に設定decompressConcatenatedオプションを必要とするg'zippedファイルを処理するために、コンプレッサーパーサーに行われました。
- awkのファイル(TIKA-1081)の検出から防止した活版印刷のエラーを対処します。
- は、提出された文書(TIKA-1047)のごく一部に基づいて、メディアタイプを検出しティカのJAX-RS RESTサーバに新しいエンドポイントを追加しました。
- RTF:順序と順不同リストは、現在(TIKA-1062)が抽出されてます。 。
- MP3:オーディオ期間は今が抽出される(TIKA-991)
- Javaの.classファイル:Javaバイトコード(TIKA-1053)を解析するためのASM 3.1からASM 4.1にアップグレードします。 。
- MIMEタイプ:定義はいくつかの一般的な形式の詳細(TIKA-1012 / TIKA-1083) と一緒にリンク(URL)とUTIを含み、任意に延長
- 例外
- MSワード:ライン表形式の文字が今改行(TIKA-1128)に置き換えられます。
- XML:ElementMetadataHandlersは今、必要に応じて、重複や空の値(TIKA-1133)を受け入れることができます。 。
ティカ·サーバーに
Officeドキュメントからの要約情報を解析する際、OLE10埋め込まれた文書を解析し、TikaCLIに埋め込まdocumenntsを保存するときには、現在の抽出(TIKA-1074)します。を中止ログに記録する代わりにされている
の要件の
- は、Java 2 Standard Editionのランタイム環境ます。
コメントが見つかりません