はApache Nutchはは、のはApache Luceneのの、強力なJava検索エンジンの上に構築されました。
Nutchは開発者は、特にWeb上でデータを検索するための専用のプロジェクトにデータに依存しないLuceneのコードベースを変換、Luceneのコードベースを変更しました。
この技術は、組み込みの検索サーバーとして独自のWebページ上で検索するか、解析し、あなたのデータベースにこすりするためのデータを探してウェブをクロールするために使用することができます。
Nutchは、単一のマシン上で実行されますが、のHadoopののクラスタでうまく機能することができます。
様々なプラグインは、その使用スペクトルを拡大するために利用可能である。
のこのリリースのの新機能:ます。
- 重複したタグが存在しないことを確認マイクロフォーマット-reltagタグセットでます。
- よりよい日付フィールドの値をフォールバックします。
- 恐ろしいます。 を取り除く
- のHadoop 1.2.0にアップグレードします。
- ティカ1.3にアップグレードします。
のバージョン2.0のの新機能:
- ParseFilterにHTMLParseFilterに名称変更します。 。
- LIB-HTTPでコードを阻止残りロボット/ IPを削除します。
- SLF4Jにポートロギングします。
- 外部パーサはencoding属性をサポートしています。
- アイビー構成設定は強羅は含まれていませんします。
- インジェクタはinjectedScoreを呼び出す前にメタデータを追加する必要があります。
- NutchbaseにポートNutchのベンチマークます。
- バック構文解析HTMLを追加します。
- MoreIndexingFilter不足している日付形式ます。
- パーサのタイムアウトします。
- クロールの日付で再試行間隔は0に設定されます。
- はSolrのインデクサとDEDUPのログ出力を生成します。
- の改善NutchConfigurationます。
- SolrDeleteDuplicates SolrRecordオブジェクトのクローンを作成する必要があります。
- のMavenによるネイティブのHadoop LIBSは使用できません。
- ビルドと実行時環境を区切ります。
のバージョン1.5のの新機能は次のとおりです。
- このリリースには、いくつかの主要コンポーネントのアップグレードを含むいくつかの改良が含まれてティカ1.1とのHadoop 1.0.0、LinkRankとWebGraph要素の改善だけでなく、ブラックリストをカバーする新しいプラグインの数、フィルタリングし、少数を示すために構文解析します。
のバージョン1.4のの新機能:
- を追加しましたSolr 4X(トランク)例スキーマます
- は無視svnのように '/ランタイム」を追加しました。
- アプリケーション/ XHTML + xmlのパース-HTMLのplugin.xmlの中で有効にする必要があります。 plugin.xmlのために複数のMIMEタイプを許可します。
- 固定構文解析ティカとRFC-3986あたりの相対URLの解決を使用するために、HTMLを解析します。
- はティカ0.10にアップグレード。注:以前に比べて不正な形式の文書に複数のテキストを無視してもよいティカの新しいRTFパーサーが - 詳細はTIKA-748を参照してくださいます。
- を追加しましソナーターゲットます。
- はバージョン3.4.0にSolrJをアップグレードします。
- AntのPMDターゲットが壊れてます。
- バージョン1.4にアップグレードしたSolrのスキーマます。
Antのbuild.xmlのに
のバージョン1.3のの新機能は次のとおりです。
- このリリースでは、より緊密ないくつかの改良(改善されたRSSの構文解析サポートが含まアパッチティカ、外部の構文解析のサポート、改善された言語識別と大きさが小さいソースリリースのtarballの順との統合! - のみ約2MB) 。
- 李:
- 設定可能なファイルプロトコル親ディレクトリクロールします。
- パーサのタイムアウトします。
- ウェブサイトがまだのLuceneがブランドされます。
- クロールの日付で再試行間隔は0に設定されます。
インデックス-以上のプラグインを設定可能にしてください。
のバージョン1.2のの新機能である。 >
のバージョン1.0のの新機能は次のとおりです。
- のパーサーは、複数の解析オブジェクトを返すことができるようになります。 。
- はオントロジーのプラグインからの冗長コモンズ·ロギングjarを削除します。
- SegmentReaderにはバグが無限ループの原因とします。
- スコアリング·フィルタは、一度にすべてのアウトリンクにスコアを配布する必要があります。
- Nutchはコア内の警告の数を減らします。
コメントが見つかりません