Apache Nutch

ソフトウェアのスクリーンショット:
Apache Nutch
ソフトウェアの詳細:
バージョン: 2.3
日付のアップロード: 1 Mar 15
ライセンス: 無料
人気: 36

Rating: 3.0/5 (Total Votes: 1)

はApache Nutchはは、のはApache Luceneのの、強力なJava検索エンジンの上に構築されました。
Nutchは開発者は、特にWeb上でデータを検索するための専用のプロジェクトにデータに依存しないLuceneのコードベースを変換、Luceneのコードベースを変更しました。
この技術は、組み込みの検索サーバーとして独自のWebページ上で検索するか、解析し、あなたのデータベースにこすりするためのデータを探してウェブをクロールするために使用することができます。
Nutchは、単一のマシン上で実行されますが、のHadoopののクラスタでうまく機能することができます。
様々なプラグインは、その使用スペクトルを拡大するために利用可能である。

このリリースのの新機能:ます。

  • 重複したタグが存在しないことを確認マイクロフォーマット-reltagタグセットでます。
  • よりよい日付フィールドの値をフォールバックします。
  • 恐ろしいます。
  • を取り除く
  • のHadoop 1.2.0にアップグレードします。
  • ティカ1.3にアップグレードします。

のバージョン2.0のの新機能:

  • ParseFilterにHTMLParseFilterに名称変更します。
  • LIB-HTTPでコードを阻止残りロボット/ IPを削除します。
  • SLF4Jにポートロギングします。
  • 外部パーサはencoding属性をサポートしています。
  • アイビー構成設定は強羅は含まれていませんします。
  • インジェクタはinjectedScoreを呼び出す前にメタデータを追加する必要があります。
  • NutchbaseにポートNutchのベンチマークます。
  • バック構文解析HTMLを追加します。
  • MoreIndexingFilter不足している日付形式ます。
  • パーサのタイムアウトします。
  • クロールの日付で再試行間隔は0に設定されます。
  • はSolrのインデクサとDEDUPのログ出力を生成します。
  • の改善NutchConfigurationます。
  • SolrDeleteDuplicates SolrRecordオブジェクトのクローンを作成する必要があります。
  • のMavenによるネイティブのHadoop LIBSは使用できません。
  • ビルドと実行時環境を区切ります。

のバージョン1.5のの新機能は次のとおりです。

  • このリリースには、いくつかの主要コンポーネントのアップグレードを含むいくつかの改良が含まれてティカ1.1とのHadoop 1.0.0、LinkRankとWebGraph要素の改善だけでなく、ブラックリストをカバーする新しいプラグインの数、フィルタリングし、少数を示すために構文解析します。

のバージョン1.4のの新機能:

  • を追加しましたSolr 4X(トランク)例スキーマます
  • は無視svnのように '/ランタイム」を追加しました。
  • アプリケーション/ XHTML + xmlのパース-HTMLのplugin.xmlの中で有効にする必要があります。 plugin.xmlのために複数のMIMEタイプを許可します。
  • 固定構文解析ティカとRFC-3986あたりの相対URLの解決を使用するために、HTMLを解析します。
  • はティカ0.10にアップグレード。注:以前に比べて不正な形式の文書に複数のテキストを無視してもよいティカの新しいRTFパーサーが - 詳細はTIKA-748を参照してくださいます。

  • Antのbuild.xmlのに
  • を追加しましソナーターゲットます。
  • はバージョン3.4.0にSolrJをアップグレードします。
  • AntのPMDターゲットが壊れてます。
  • バージョン1.4にアップグレードしたSolrのスキーマます。

のバージョン1.3のの新機能は次のとおりです。

  • このリリースでは、より緊密ないくつかの改良(改善されたRSSの構文解析サポートが含まアパッチティカ、外部の構文解析のサポート、改善された言語識別と大きさが小さいソースリリースのtarballの順との統合! - のみ約2MB)

  • インデックス-以上のプラグインを設定可能にしてください。

    • のバージョン1.2のの新機能である。 >

    • 設定可能なファイルプロトコル親ディレクトリクロールします。
    • パーサのタイムアウトします。
    • ウェブサイトがまだのLuceneがブランドされます。
    • クロールの日付で再試行間隔は0に設定されます。

    のバージョン1.0のの新機能は次のとおりです。

    • のパーサーは、複数の解析オブジェクトを返すことができるようになります。
    • はオントロジーのプラグインからの冗長コモンズ·ロギングjarを削除します。
    • SegmentReaderにはバグが無限ループの原因とします。
    • スコアリング·フィルタは、一度にすべてのアウトリンクにスコアを配布する必要があります。
    • Nutchはコア内の警告の数を減らします。

同じようなソフトウェア

FilteringHighlight
FilteringHighlight

13 May 15

Apache Blur
Apache Blur

13 Apr 15

TreeListFilter
TreeListFilter

13 May 15

Fuzzysearch
Fuzzysearch

12 Apr 15

開発者の他のソフトウェア Apache Software Foundation

Apache Calcite
Apache Calcite

6 Mar 16

Apache Kafka
Apache Kafka

10 Dec 15

Apache Commons CLI
Apache Commons CLI

20 Jul 15

Apache Groovy
Apache Groovy

10 Dec 15

へのコメント Apache Nutch

コメントが見つかりません
コメントを追加
画像をオンにする!