。
シャーロック·ホームズは、テキスト·データの収集およびインデックス作成のためのシステム(テキストファイル、Webページなど)、ローカルおよびネットワーク上の
この機能、ユニバーサル検索エンジンです
は、HTTPを介して、またはローカル·ファイルからファイルを収集します。
(例えば、MS WordやPostScriptのような)外部パーサを使用して、テキストファイル、HTML、PDF、および他のいくつかのフォーマットを解析します。
システム全体は、モジュール化されているので、ちょうど問題の右モジュール(よく、通常、それを書く)をプラグインされている独自のデータソースやパーサーを追加します。
混合文字セット環境ではうまく動作します。
(些細な変更で)同じファイルを複数のURLを持つ単一のドキュメントの複数の出現を考慮します。
すべては高度な設定が可能です。あなたは、文書が処理されているに応じて構成変数を微調整することを可能にする特別な言語でフィルタリングルールを記述することができます。
単語、フレーズ、および論理式の検索。ファイル名とリンクテキストでの検索。
近接検索と通常の検索の近接重み付け。
言語の認識、ステマとsynonymic辞書を簡単に統合。
彼のクエリがスペルミスしている可能性のあるユーザをほのめかし索引付けされたデータで観察された単語の出現頻度に基づいて、スペルチェック。
検索結果には、各文書のコンテキストが含まれています。
通常のPCのハードウェア上のドキュメントの数千万人によくスケールします。
ユーザインタフェース(フロントエンド)は完全にそれが簡単に変更することも、既存のアプリケーションに検索エンジンを埋め込むすること、システムの残りの部分から分離されています。
ダウンロードされたファイルとインデックスは、スペースを節約するために圧縮されます。
コメントが見つかりません