はApache Nutchのプロジェクトは、オープンソースは、Apache Luceneの(Javaバージョン)ライブラリを構築する、スケーラブルで拡張性の高い、無料のWebベースのWebクローラソフトウェアです。
それは二つの別々の枝、これはApacheの財団によって開発され、配布されるなど、クローラ、リンクグラフデータベース、HTMLや他のドキュメント形式のパーサ、として、ウェブの仕様が追加されます。
モジュラーおよびプラグイン可能なので、ApacheのNutchは、このような構文解析用のApacheティカなどのカスタム実装のための解析、インデックスとScoringFilterのような拡張可能なインターフェイスを提供することで、その利点を持っています。
また、ApacheのNutchのは、単一のマシン上で実行するように設計されていますが、Hadoopのクラスタで実行している場合には、より強力です。プラグイン可能なインデックス作成などが弾性検索は、Apache Solrの、のために存在します。
このリリースの新機能:ます。
Nutchの-1779(lewismc)コードに書式設定を適用します
Nutchの-1907 HostDbUpdateReducer内のホストへのアウトリンクの不正な出力(lewismc)
Nutchの-1856ドキュメントwebpage.avscとhost.avsc(lewismc)
Nutchの-1834 GeneratorMapperの動作がログレベルに依存(snagel経由ゲルハルトゴッセン)
Nutchの-1899のビルドの失敗を防ぐために、アップグレードのRestlet LIB(タラート)
Nutchの-1797未使用のパッケージoanhtml(snagel経由Saurabh Chhajed)を削除
Nutchの-1888 TikaParserで使用するHTMLMapperを指定します(jnioche経由ハリルSimsek)
Nutchの-1897プラグインのXMLエラーの簡単なデバッグ(マルクス)
Nutchの-1823は、1.4.1(プーキユウ、マルクス、lewismc)をelasticsearchへのアップグレード
Nutchの-1829ジェネレータ:実際のエラーを区別することができない(マチュー・ブシャール、jnioche、snagel)
正しくバッチでURLの数をログに記録しませNutchの-1778ジェネレータ(jnioche経由snagel)
デフォルトでは、クエリ文字列を無視するNutchの-1877サフィックスURLフィルタ(snagel経由マルクス)
Nutchの-1825プロトコルのhttp特定のWebページのためにハングアップすることがあります(snagel経由プーキユウ)
Nutchの-1483は、プロトコル・ファイル・プラグイン(ホジェリオ・ペレイラアラウージョ、Mengying王、snagel)でファイルシステムをクロールすることはできません。
Nutchの-1885プロトコル・ファイルには、リダイレクト(Mengying王、snagel)としてシンボリックリンクを扱う必要があります
Nutchの-1880 URLUtilは、ファイルのURLの追加のスラッシュ(snagel)を追加しないでください
プロトコル(snagel):Nutchの-1879正規表現のURL正規化は、ファイルの後に複数のスラッシュを削除する必要があります
Nutchの-1820削除フィールド" ORIG"これは、複製" ID" (lewismc、snagel)
Nutchの-1843強羅0.5へのアップグレード(タラート、lewismc、キリルメンシコフ、drazzib)
Nutchの-1883ビン/クロール:(snagel)ビン/ Nutchのを実行し、終了値をチェックする機能を使用
SRC /テスト(snagel)への出力パスを追加するためのNutch-1882アリ日食対象
2.xのにNutchの-1827ポートのNutch-1467とNutchの-1561(snagel)
Nutchの-1876クローラコモンズ0.5(jnioche)へのアップグレード
Nutchの-1866アリ日食のターゲットは、実行時(lewismc経由nimafl)を削除しないでください
Nutchの-1859のNutchのWebアプリケーションポートを設定可能(ニマFalaki lewismc経由)
DashboardPage.htmlインスタンスカウンタのNutchの-1848のバグ(ニマFalaki lewismc経由)
Nutchの-841(lewismc経由Fjodor Vershinin)Nutchのための自動改札ベースのWebアプリケーションを作成します。
Nutchの-1832(mattmann経由lewismc)インデクサなしNutchの作業を行います
Nutchの-1840 SolrIndexWriterで記述する機能が正しくありません(kaveh minooie経由jnioche)
Nutchの-1837ティカ1.6(lewismc)へのアップグレード
Nutchの-1829ジェネレータ:実際のエラーを区別することができない(マチュー・ブシャールjnioche経由)
Nutchの-1828ビン/クロール:Nutchのエラーの誤った取り扱い(jnioche経由マチューブシャール)
Nutchの-1693 TextMD5Signatureテキストコンテンツで計算(ティエングエンManh、マルクス経由snagel)
Nutchの-1409削除廃止されたプロパティのデシベル。{デフォルト、最大} .fetch.interval、generate.max.per.host.by.ip(マティアスAgethle snagel経由)
GeneratorJobでNutchの-1819 batchId(lewismc経由Fjodor Vershinin)
Nutchの-1708使用同じIDリダイレクトのインデックスを作成および削除(snagel)
Nutchの-1817ソース(jnioche)からのpom.xmlを削除
JUnitの4テストランナー(snagel)を使用するNutchの-1811ビン/ NutchのJUnitの
Nutchの-1776ログ不正確plugin.folderファイルのパス(Diaa snagel経由)
Nutchの-1566ビン/ Nutchのパス内の空白(tejasp、snagel)できるようにします
Nutchの-1605 MIMEタイプの検出器は、zipファイルとしてXLSX(snagel)を認識
Nutchの-385はFetcherのためのスレッド関連の設定の説明を改善(jnioche、陸豊市)
Nutchの-1798を正しくクロールスクリプト呼び出していないインデックスコマンド(jnioche経由アーロンベッドの方へ)
Nutchの-1769のREST APIのリファクタリング(Fjodor Vershinin lewismc経由)
Nutchの-1633 SLF4Jは、Hadoopのによって提供され、ジョブファイル(jnioche経由kavehのminooie)に含まれるべきではありません
Nutchの-1787の更新と完全なAPIドキュメントの概要ページ(snagel)
Nutchの-1767は、特別な治療を削除"のparams"相対リンクで(snagel)
Nutchの-1718は、再定義http.robots.agent&QUOTとして、さらなる薬剤名" (snagel、Tejasパティル、ダニエル・クーゲル)
Nutchの-1796空のコンストラクタ(lewismc経由snagel)に反対するよう強羅オブジェクトビルダーが使用されていることを確認
公開されたJavadocのNutchの-1590 [SECURITY]フレームインジェクションの脆弱性(jnioche)
HTTPレスポンスヘッダが転送エンコードが含まれている場合はNutchは、1736ページの取得できません:チャンク(YSC経由jnioche)
現在のノードを返すためにNutchの-1782 NodeWalker(マルクス)
Nutchの-1781の更新強羅 - * - 強羅0.4(lewismc)を反映するためにmapping.xmlとgora.proeprties
Nutchの-1768 ElasticSearch 1.1.0(jnioche)へのアップグレード
Nutchのは、1634 readdb -statsは二度の結果を示している(kaveh minooie jnioche経由)
Nutchの-1780 TTLとgc_grace_seconds属性は強羅 - カサンドラ-mapping.xmlファイルから欠落している(kaveh minooie lewismc経由)
Nutchの-1676は、プロトコルのhttp(jnioche、マルクス)に基本的なSSLサポートを追加します。
Nutchの-1674を使用しbatchIdフィルタスキャンを有効にする(GORA-119)フェッチするために、解析、更新、インデックス(ティエングエンManhとjnioche経由Alparslan AVCI)
Nutchの-1714は強羅0.4(jnioche経由Alparslan AVCI)へのアップグレード
プロトコルごとのNutch-1752キャッシュのrobots.txtルール:ホスト:ポート(snagel)
プロトコルのHTTPClientでNutchの-1613タイムアウト同じでホスト&GTをクロール; 2つのスレッド(brian44経由jnioche)
Nutchの-1182ハングスレッドのログを記録フェッチャ(snagel)
Nutchの-1618(タラート)の取得のための投機的実行をオフにします
Nutchの-1657 ORIGINAL_CHAR_ENCODINGとHTMLParserに設定されたことはありませんCHAR_ENCODING_FOR_CONVERSION(タラート)
Nutchの-1725 CleaningJobの減速は、削除されたドキュメントをコミットしません。 (タラート経由ilhamikalkan)
Nutchの-1728インデクサ-のSolrプラグインはSolrの(タラート経由ilhamikalkan)からドキュメントを削除されていません
Nutchの-1753のEclipse 2.xのためのdependecy問題(タラート)
Nutchの-1720 HttpBase.javaで重複行(ウォルターティーツェjnioche経由)
?"リンク先が&QUOTで始まる場合Nutchの-797のURLが正しく構成されていません。 (ダグ・クック、ロバートHohman、Stondet、AB snagel経由)
Nutchの-1759クローラコモンズ0.4(jnioche)へのアップグレード
Nutchの-1700のsrc /プラグイン/ creativecommons / build.xmlの(lewismc)で非推奨のコードを削除
ビンディレクトリ内から開始されていない場合はNutchの-1761クロールスクリプトは、ジョブファイルの検索に失敗(デビッド・ホスキング、jnioche)
Nutchの-1603 ZIPパーサが切り捨てPDFファイル文句(lewismc経由snagel)
アウトリンク表示するNutchの-1743 parsechecker(snagel)
(lewismc経由Fjodor Vershinin)NutchServerの解析Nutchの-1732ベターCMDライン
Nutchの-1751空のアンカーべきではありませんインデックス(Sertac TURKEL lewismc経由)
HTML5の文字セットの定義(snagel)をサポートするNutchの-1733解析-HTML
Nutchの-1727のTLDのための設定可能な長さ(lewismc経由Sertac TURKEL)
Nutchの-1738はGeneratorJobでバッチごとに生成されたURLの数を公開(ewismc経由タラートUYARER)
indexcheckerフィールドをダイジェスト追加するNutchの-1671(snagel、陸豊市)
適応フェッチスケジュールクラスのNutchの-1645 JUnitのテストケース(ヤシンKilinc、陸豊、snagel経由Sertac URKEL)
Nutchの-1478解析 - メタタグとNutchの2.xのシリーズのインデックス・メタデータプラグイン(lewismc経由キラン、グエン・ティエン無水、タラートUYARER、ヴァンゲリスKarvounis)
Nutchの-1729ティカ1.5(jnioche)へのアップグレード
Nutchの-1721は、共通0.3(tejasp)をクローラへのアップグレード
URLが逆にされていないされていないため、Nutchの-1719 DomainStatisticsは2.xで失敗する(ゲルハルト・ゴッセンlewismc経由)
Nutchの-1253不和合性猫とXercesのバージョン(snagel、lewismc、タラートUYARER)
Nutchの-1715 RobotRulesParserはロボット名(tejasp)に '*'追加追加します
Nutchの-356プラグインのリポジトリキャッシュはメモリリークにつながることができます(エンリコTriolo、Dogacanギュネイ経由マルクス)
プロトコルHTTPのNutchの-1164ライトJUnitテスト(tejasp経由Sertac TURKEL)
log4j.propertiesにNutchの-1710の追加強羅パッケージのログ(lewismc)
Nutchの-1655弾性検索のためのインデクサープラグイン(lewismc経由タラートUYARER)
Nutchの-1699ティカパーサ - 画像解析バグ(メフメットZahid Yuzuguldu、lewismc経由snagel)
(lewismc経由タラートUYARER)を2.xへのNutch-1568ポート、プラグイン可能なインデックス作成アーキテクチャ
Nutchの-1672インリンクはDbUpdateReducerに二回追加される(ティエングエンManh lewismc経由)
Nutchの-1667 updatedbを常にbatchId(lewismc経由ティエングエンManh)を無視
Nutchの-1695 NutchDocument.toString()(マーカス経由lewismc)
Nutchの-1696(強羅)スナップショット依存関係(lewismc)の使用を有効に
URLUtil.java、のToUnicode法ではNutchの-1681は正常に動作しません(
コメントが見つかりません