<強い>はApache Luceneののもダウンしているサーバーのリソースの消費を維持し、高速&高精度の結果を生成しながら、フルテキスト検索のサポートを必要とするアプリケーションに適しています。
のLuceneは広く、他の多くの検索ツールのコアであること、周りの最高の検索エンジンの一つとして考えられている、最も有名な幸福のはApache Solrのの。
のLuceneはJavaで書かれているとApache財団がリリースされて以来、それは他の多くの言語に移植されており、様々なバインディングとラッパーは、サードパーティが開発したソフトウェアとして存在します。
この<強い>このリリースではの新機能:
- すべてのファイルアクセスは、現在使用してより優れたエラー処理の面ではLuceneに強い指標の安全性を与えるJavaのNIO.2 APIと安全なコミットます。
- すべてのLuceneセグメントは現在、インデックスファイルの正確な複製を支援するために、セグメントごとおよびコミット一意のIDを格納します。
- はマージ中に、IndexWriterは今常にマージする前に破損の着信セグメントをチェックします。これは5.0.0へのアップグレードに、そのマージは長年の古い4.xのインデックスに潜在腐敗を暴くこと、を意味することができます。
- すべてのLuceneセグメントは現在、インデックスファイルの正確な複製を支援するために、セグメントごとおよびコミット一意のIDを格納します。
- はマージ中に、IndexWriterは今常にマージする前に破損の着信セグメントをチェックします。これは5.0.0へのアップグレードに、そのマージは長年の古い4.xのインデックスに潜在腐敗を暴くこと、を意味することができます。
- すべてのLuceneセグメントは現在、インデックスファイルの正確な複製を支援するために、セグメントごとおよびコミット一意のIDを格納します。
- はマージ中に、IndexWriterは今常にマージする前に破損の着信セグメントをチェックします。これは5.0.0へのアップグレードに、そのマージは長年の古い4.xのインデックスに潜在腐敗を暴くこと、を意味することができます。
すべてのファイル
こののバージョン5.2.1 / 4.10.4 / 3.6.2のの新機能でありますアクセスは現在、より良いエラー処理と安全なコミットの面ではLuceneに強い指標の安全性を与えるJavaのNIO.2 APIを使用します。
すべてのファイル
こののバージョン5.1.0 / 4.10.4 / 3.6.2のの新機能でありますアクセスは現在、より良いエラー処理と安全なコミットの面ではLuceneに強い指標の安全性を与えるJavaのNIO.2 APIを使用します。
<強い>何である新しいのバージョン5.0.0 / 4.10.3 / 3.6.2ます。
- 新しい規約.getMin /マックス・メソッドは、フィールドごとに最低と最高の用語を取得します。
- 新規IDVersionPostingsFormat、
DOC値フィールドのセットの - アトミック更新ます。
- ドキュメント値のための多数の最適化、検索時のパフォーマンスます。
- 新規(デフォルト)Lucene49NormsFormat
- 複数の値を持つ数値フィールドの効率的な処理のための新しいSORTED_NUMERIC docvalues型ます。
- インデクサーが容易に再利用するために前のトークンのストリームを渡します。
- MoreLikeThisは、フィールドごとに複数の値を受け入れるます。
- 自分のRAMの使用量を推定するすべてのクラスは、新しい説明責任インタフェースを実装します。
- Luceneのファイルは、現在完全に簡略化されたIOのAPIを求めて拒否し、すべてのプラットフォーム上で(ファイル)のOutputStreamにより書かれています。
- MMapDirectory新しいマップを作成することができないとき紛らわしいエラーメッセージを改善します。
IDごと単調に増加するバージョンを関連付けるID検索用に最適化されます。
より良いような非常に短いフィールドなど、特定の場合を圧縮するます。
<強い>バージョン4.8.0のの新機能は次のとおりです。
- Luceneには、新しいRescorer / QueryRescorer APIが実行しなければなりません初回通過ヒットコレクション後に、より高価なスコアリング機能を使用して第2のパスリスコアリングまたは検索結果のリランキングます。
- はソート順を表現するためにLuceneのソートクラスを使用する(SortingMergePolicyとEarlyTerminatingCollectorを使用して)衝撃ソートされた転記を単純化します。
- バルク得点と通常の反復子ベースのスコアリングを分離したので、いくつかのクエリをより効果的にバルク採点を行うことができます。
- は、索引付け時に用語をハッシュするMurmurHash3に切り替えます。
- IndexWriterは現在バイナリドキュメント値フィールドの更新をサポートしています。
- HunspellStemFilterは今より少ないRAMを100倍する10を使用しています。また、エラーなしですべての既知のOpenOfficeの辞書をロードします。
- はLuceneには今も、コミットのディレクトリのメタデータをfsyncsます。
- Luceneには現在、ボンネットの下のJava 7のファイルシステム機能を使用しています
- はNativeFSLockFactoryに深刻なバグが複数IndexWritersが同じロックを取得する可能性があり、修正されました。ロックファイルは、もはやロックが保持されていない場合でも、インデックスディレクトリから削除されていません。
<李> AnalyzingInfixSuggesterは現在、ほぼリアルタイムオートサジェストをサポートしています。
オペレーティングシステムやファイルシステムがそれをする(Linux、MacOSXのが動作することが知られている)ことができた場合に
インデックスファイルは、読者がまだ開いている場合でも、Windows上で削除することができるようです。
<強い>バージョン4.7.0のの新機能:
- 文字列(SortField.STRING)でソートすると、あなたが今欠けている値は、最初の(デフォルト)、または最後にソートするかどうかを指定できます。
- ファイルシステムのNRTをサポートします。
- を追加LongBitSet(そうでなければFixedBitSetを使用します)。
- クルド人のために追加アナライザます。
- を追加しましたペイロードFileDictionary(提案)へのサポートとは、複数の構成にする。
- はAnalyzingInfixSuggesterのようですが、低い位置にトークンをマッチした提案を向上させ、新しいBlendedInfixSuggesterを、追加しました。
- 追加SimpleQueryParser:人間が入力したクエリのパーサます。
- PostingsHighlighterに追加しましたmultitermquery(ワイルドカード、プレフィックスなど)ます。
最後のクローズ時に削除していないか、参照セマンティクスながら削除することはできません。
以上2.1Bビットを管理するための
<強い>はどのバージョン4.6.0のの新しいます。
- なしNumericDocValuesフィールドの更新のためのサポートが追加されました(再IndexWriter.updateNumericDocValue(用語、文字列、ロング)を介して)ドキュメントのインデックスを作成ます。
- 新しいFreeTextSuggesterは&QUOTのために有用な単純なnグラム言語モデルを使用して、次の単語を予測することができます。提案ます。
- 新しい式モジュールがカスタマイズされたスクリプトに似た構文でランク付けすることができます。
- 新しいDirectDocValuesFormatは圧縮されていないJavaのネイティブ配列としてヒープ内のすべてのドキュメントの値を保持することができます。
- Term.hasFreqsは今決定することができます。
- 用語頻度ます。
ロングテール&QUOT;
指定されたフィールドが当たり-docのインデックス付けた場合に
<強い>バージョン4.5.0のの新機能:
- 新しい特に優れているインメモリDocIdSet実装小さなセットのFixedBitSetより:WAH8DocIdSet、PFORDeltaDocIdSetとEliasFanoDocIdSetます。
- CachingWrapperFilterは今、最悪の場合にはFixedBitSetと同じメモリ使用量がありますが、小さなセットに小さく高速で、デフォルトでWAH8DocIdSetでフィルタをキャッシュします。
- TokenStreamsは今)(最終的には位置の増分を設定するので、後続の穴を処理することができます。
- IndexWriterはもはや与えられたIndexWriterConfigのクローンなかっます。
- 様々なバグ修正と最適化ます。
4.4リリース以降
<強い>バージョン4.4.0のの新機能:新しいレプリケータモジュール
- :サーバとの間でインデックスのリビジョンを複製し、クライアントます。
- 新しいAnalyzingInfixSuggesterは:提案の任意のトークンとの一致に基づいて提案を発見し、ただ純粋な前方一致に基づいていない
- 新しいPatternCaptureGroupTokenFilter:複数のトークン、1つ以上のJavaの正規表現の各キャプチャグループのための1つを放出します。
- 新しいLuceneのファセットモジュールます。
このをバージョン4.3.0にの新機能は次のとおりです。
- 新しいSearcherTaxonomyManagerは、ほぼリアルタイムでの再オープンを管理IndexSearcherとTaxonomyReader(ファセット用)の両方ます。
- は、ファセットが独立した分類インデックスなし、SortedSetDocValuesFieldを使用してカウント計算するために、ファセット・モジュールに新しいファセットメソッドを追加しました。
- 大幅なパフォーマンスの改善ます。
- 様々なバグ修正と最適化ます。
最大4000%高速クエリの結果をスキップするminShouldMatch BooleanQueryための
4.2.1のリリース以降の
<強い>バージョン4.1.0のの新機能:ファイルを書き込むときます。
- のLuceneはもはや求めて(すべてのフィールドが)追加専用の方法で書かれています。これは、追加専用のストリーム、HDFSなど。 でデフォルトで動作することを意味します
- 新規実装を提案する:(Luceneのアナライザから計算)基本となるフォームを提案するために使用さAnalyzingSuggesterは、さらに入力の不正確なマッチングを可能に戻されたテキストとFuzzySuggester、から分離されます。 。
- ニアリアルタイムサポートは、ファセット・モジュールに追加されました。
- 新しい蛍光ペン(postingshighlighter)がハイライトモジュールに追加します。
- フィルタクエリ実行の柔軟性のためのFilteredQueryに追加FilterStrategyます。
- 追加CommonTermsQueryは非常に高頻度の用語を使用してクエリをスピードアップします。ターム周波数を効率的にクエリ時に検出された - 何のインデックス時間の準備は必要ありません。 。
- 4.0のリリース以降、いくつかのバグ修正と最適化をます。
- ベクトルなどコーデックのAPIを介してプラグ対応です。あなたが提供されている実装から選択するか、あなたのニーズを満たすために、独自のコーデックでインデックスフォーマットをカスタマイズすることができます。
- 実質的に高速なパフォーマンス検索時にフィルタを使用します。
- ファイルシステムベースのディレクトリをマージしたスレッドを検索する間に、IOの競合を減らすために、マージ・スレッドのIO(MB /秒)制限を評価することができます。
- 新しいスペルチェッカー、DirectSpellCheckerは、可能な修正を見つけます。
- ます。
- TypeTokenFilterは自分TypeAttributeに基づいてトークンをフィルタリングします。
- 固定オフセットバグ、トークナイザとTokenFiltersます。
- を追加しました表音エンコーダ:Metaphoneの、のSoundex、Caverphone、Beider・モース、など 。
- CJKBigramFilterとCJKWidthFilterはCJKTokenizerを置き換えます。
- Kuromoji形態素解析は、化合物の単語とそのセグメンテーションの両方を生産、日本語のテキストをトークン化します。
- 静的インデックス剪定(カーメルプルーニング)は、低内の文書用語頻度で投稿を削除します。
- QueryParserは現在、範囲クエリの開放端として '*'解釈します。
- FieldValueFilterは、指定したフィールドが欠落してドキュメントを除外します。
- CheckIndexとIndexUpgraderは、新しい-dir-implにコマンドラインオプションで使用する特定のFSDirectory実装を指定することができます。
- FSTSは、現在、特定の例では(出力によって)逆引きを行うことができ、それらのサイズを減少させるために詰めることができます。 FSTで開始ノードから上位N個の最短経路を取得するメソッドが用意されました。
- 新しいWFSTCompletionLookupの提案者は、提案のためのきめの細かい順位をサポートしています。
- FSTベースsuggestersは現在、オフライン(ディスクベース)ソートの代わりに、メモリー内ソートを使用します。
- ToChildBlockJoinQueryは反対方向(ダウン子ドキュメントの親)に参加します。
- 新しい問合せ時間参加は、インデックスタイムジョインよりも柔軟な(あまりパフォーマンス)でます。
- 追加HTMLStripCharFilterます。
保存された用語、ポスティングリスト、のインデックスフォーマットは、
<強い>新しいのバージョン4.0-αとは何ですかフィールド、用語ます。
<李> FuzzyQueryは、過去のリリースに比べて100〜200倍速くなります。
別のインデックスを必要とせずに、直接メインの検索インデックスに対する
これは、Java 5のとJava 6に加えてます。
<強い>バージョン3.6.0のの新機能でありますリリースでは完全なJava 7のサポート(最小のJDK 7u1必要)を持っています。
ハイライト中に例外が発生する可能性がCharFilters数の
提案を事前ソートするときに
HTMLマークアップを除去するために
<強い>バージョン3.5.0の新のです何ます。
- を追加しました非常に実質的(3-5X)RAM減少はIndexReaderを開くに用語のインデックスを保持するために必要ます。
- 追加IndexSearcher.searchAfterます。
- 追加SearcherManager複数の検索スレッド間で共有し、再オープンIndexSearchersを管理します。もはや参照されていない場合は、その基盤となるIndexReaderインスタンスを安全に閉鎖されます。
- 追加SearcherLifetimeManagerます。
- この方法の使用を阻止するためにforceMergeにIndexWriter.optimizeを改名ます。
深いページングユースケースをサポートするために、指定されたScoreDoc(前ページの例:最後の原稿)の後に結果を返します。
安全に複数の要求にわたって、インデックス(例えば、ページング/ドリルダウン)の一貫性のあるビューを提供します。
それはもう恐ろしく高価であり、まれに正当化されるので、
この の新機能バージョン3.3.0でます。
- スペルチェッカーモジュールは今示唆/オートコンプリートを含みJaspell、三元トライ、および有限状態 :3つの実装と機能、
- 両方&QUOTため、複数の破片からの結果をマージするためのサポート;ノーマル&QUOT;検索結果(TopDocs.merge)と同様にグループ化モジュール(SearchGroup.merge、TopGroups.merge)を使用してグループ化された結果ます。
- KStem、英語にはあまり積極的なステマの最適化された実装ます。
- ブロックドキュメントのインデックス付けに基づいて、シングルパスグループ化実装ます。
- MMapDirectoryの改善(今も64ビットLinux上でFSDirectory.openで返されるデフォルトの実装)ます。
- NRTManagerは、アプリケーションは変更が検索要求には表示されなければならないのインデックス作成を制御することができ、複数の検索スレッドをほぼリアルタイム検索の取り扱いが容易になります。
- TwoPhaseCommitToolは、マルチリソースの二段階的実行を容易IndexWriterを含め、コミットます。
- デフォルトポリシーをマージ、TieredMergePolicyは、それが欠失を有するセグメントをターゲットとし、デフォルトでは、今まで以上に積極的な方法を積極的に制御するための新しい方法(セット/ getReclaimDeletesWeight)を持っています。
- PKIndexSplitterツールは、中点項によってインデックスを分割します。
<強い>バージョン3.2.0の新のです何ます。
- 新しいグループ化モジュール、Luceneの下に/ contrib /グループ化は、単一値のインデックス付きフィールドでグループ化する検索結果を有効にします。
- 新しいIndexUpgraderツールは、完全に現在の形式に古いインデックスを変換します。
- 新しいDirectoryの実装、NRTCachingDirectoryは、高速NRTを持つアプリケーションが金利を再度開くためのI / O負荷を軽減するために、RAMに小さなセグメントをキャッシュします。
- 新しいコレクターの実装、CachingCollectorは、(必要に応じて、文書IDとスコア)検索ヒットを収集し、それらを再生することができます。これは、結果を生成するために2つ以上のパスを必要とコレクターのに便利です。
- インデックスIndexWriterの新しいaddDocumentsまたはupdateDocumentsメソッドを使用して、文書ブロック。これらの実験的なAPIは、文書のブロックは永遠に興味深い未来を有効にすると、グループ化などの機能と結合し、インデックスに連続したままであることを確認します。
- 新しいデフォルトのマージポリシー、TieredMergePolicy、ます。
- NumericFieldが正しく返されます。
非連続セグメントをマージすることができることに、より効率的である
あなたは(以前は、文字列を変換した数値で、正常に戻っフィールドを受け取っ)保存されたドキュメントを読み込むとき、
<強い>どのバージョン3.1.0のの新規でます。
- ConstantScoreQueryになりまし直接クエリをラップすることができます。。 LI>
- IndexWriterが新しい個別のビルダーAPI、IndexWriterConfigで構成されています。あなたは今setMaxThreadStatesを呼び出すことによって、IndexWriterの先に固定雌ねじ制限を制御することができます。
- IndexWriter.getReaderはIndexReader.open(IndexWriter)に置き換えられています。また、あなたは今、あなたはNRTリーダーを開いたときに削除が解決するかどうかを指定することができます。
- MultiSearcherは推奨されません。 ParallelMultiSearcherはIndexSearcherに直接吸収された。
- は64ビットのWindowsとSolarisのJVM上で、MMapDirectoryは今(FSDirectory.openによって返された)デフォルトの実装です。 JVMがサポートしている場合MMapDirectoryもマッピング解除ができます。
- 新しいTotalHitCountCollectorはちょうどヒットの合計数をカウントします。
- ReaderFinishedListener APIは、セグメントが終了するとエントリを削除する場合に外部キャッシュを有効にします。
<強い>バージョン3.0.1のの新機能は次のとおりです。
- FuzzyTermEnumで不要な同期を削除します。 。
- は、パフォーマンス向上のために用語のソート順で行います。
- 間違って、同じ巨大な用語の警告保管しないでくださいます。
- 唯一のペイロードが存在する場合に最小/ MaxPayloadFunctionは0を返す修正ます。
- クエリすべてゼロブースト条項からなる(例えば、テキスト:FOO ^ 0)が誤ってソートされ、無効なdocidsを生成します。 。
- FuzzyQueryから保護された内部クラスScoreTerm削除しました。このクラスのコンパレータは、互換性のない方法で変更する必要がありましたので、変更が必要でした。クラスは、公開であることを意図していませんでした。
削除された用語を解決すると
IndexWriter.infoStreamがオンのときに
<強い>バージョン2.9.2のの新機能は次のとおりです。
- BooleanQueryはそのハッシュコードでdisableCoordを無視し、メソッドに等しいましたBooleanQueriesをキャッシュする場合、悪いことが起こることを引き起こすます。
- 間違って、同じ巨大な用語の警告保管しないでくださいます。
- 高インデクシングレートでは、NRTリーダーが一時的に削除を失う可能性があります。
IndexWriter.infoStreamがオンのときに
<強い>バージョン3.0.0のの新機能は次のとおりです。
- SegmentReaderクラスの実装を設定するためのシステムプロパティを削除しました。
- IndexCommitへIndexCommitPointからSnapshotDeletionPolicy番号のスナップショット()の変更戻り値の型。このメソッドを使用するコードが動作するためにはLucene 3.0に対して再コンパイルする必要があります。以前に非推奨IndexCommitPointも削除されます。
- すべての基本的な属性のトークンのインスタンスを作成するコンビニエンスAttributeFactoryを提供します。
- NumericRangeTermEnumで再帰を削除します。
- FuzzyQueryで最適化レーベンシュタイン距離計算ます。
コメントが見つかりません