ASPseekは、インターネット検索エンジンソフトウェアのSWsoftによって開発され、GNU GPLの下でフリーソフトウェアとしてライセンスされています。
ASPseekはインデクシングロボット、検索デーモン、およびCGIの検索フロントエンドで構成されています。これは、数百万のURLなどを指標として多くのことができ、単語やフレーズ、ワイルドカードを使用するために検索して、ブール検索を行います。検索結果には、一定の期間、サイトまたはWebスペース(サイトの集合)に限定し、関連性(ページランクが使用されている)、または日付でソートすることができます。
ASPseekは、複数のサイト(スレッド·インデックス、非同期DNS検索、サイトによって結果をグループ化し、ウェブスペース)のために最適化されているが、同様に1サイトを検索するために使用することができます。 ASPseekが原因Unicodeのストレージモードに(中国語のようなマルチバイト符号化方式を含む)一度に複数の言語/エンコーディングを扱うことができます。その他の機能は、検索結果、抜粋、およびハイライトのクエリ単語をストップワードとispellをサポート、文字セットと言語の推測、HTMLテンプレートが含まれています。
ASPseekはSTLライブラリを使用してC ++で書かれており、SQLデータベースとストレージのためのバイナリファイルのミックスを使用しています。
ここで、「ASPseek」のある主要な機能は次のとおりです。
文書の数百万を介してインデックスと検索する能力
·ASPseekを使用して、データベースを構築することができ、多くのサイトを検索し、各クエリの結果では、索引付けされたドキュメントの数百万を持っている場合であっても高速に返されます。もちろん、これはハードウェアに依存するため、「古き良き」のi486マシンが.COMドメイン内のすべてのサイトを扱うことを期待しないでください。すべてはあなたが、専用のハードウェアを購入する前に、独自のテストを行うCPU(複数)、メモリ、ディスク速度などに依存します。
·ASPseekが大量のために最適化されているという事実は、文書の数百含まれて自分のサイトを検索し、それを使用してからあなたを停止しないでください - それはそこにも動作します。
結果の非常に良好な関連性
·検索エンジンの目的は何を望んでユーザーを見つけることです。そこに検索クエリの結果として発見されたURLの数千にすることができますが、すべての無関係であることができるので、ユーザーは不満になります。
·ASPseekでの出力結果は、関連性(またはランク)でソートするが、ランクの計算は簡単な作業ではありませんされています。開発者は、優れた検索速度を維持しながら、ASPseekエンジンに最大と最新の技術を組み込むために最善を試してみました。
ispellをサポート
·ASPseekはispellのサポートで使用する場合は、searchdは(1)必要に応じて指定したすべての単語のすべてのフォームを見つけることができます(例:作成 - >作成したり、作成または作成します)。だから、それはあなたが別の形態のすべてのワードを検索することができます。
ユニコード格納モード
·ASPseekは、このように多言語検索エンジンを実装することが可能になって、Unicodeで文書に関する情報を格納することができます。だから、あなたは英語の文書、ロシア、さらには中国、1データベース内のすべてのインデックスと検索することができます。
HTTP、HTTPS、HTTPプロキシ、FTP(プロキシ経由)プロトコル
ASPseekがウェブ検索エンジンであるので·、インデックスサイトにHTTPプロトコルを使用します。 ASPseekも安全なHTTPSをサポートしています://プロトコル。 FTPプロトコルは、直接サポートされていませんが、プロキシ経由(イカのような)プロキシとインデックスのFTPサイトを使用することができます。
·ASPseekは、HTTPの「基本的な承認」機能あなたは、インデックスのパスワードで保護された領域(イントラネット内の例えば個人情報)ことができるように対応しています。
テキスト/ htmlとtext / plainのドキュメントタイプのサポート
·ASPseekは、HTMLで書かれた文書、プレーンテキスト文書を理解することができます。これらは、インターネットで最も人気のあるフォーマットです。
·このような等PDF、RTF、などの他の形式は、形式はHTMLまたはテキスト形式にすることを変換することができる任意の外部プログラム/スクリプトの助けを借りて支持することができます。
マルチスレッド設計、非同期DNSリゾルバなど
·ASPseek 1つのプロセスが並行して実行されている多くのスレッドを持っていることを意味し、POSIXスレッドを使用しています。だから、多くのサイトからインデックスダウンロード文書、および検索デーモンプロセス多くの検索クエリを同時に。これはASPseekはSMP(マルチプロセッサ)システムでうまくスケールすることができます、しかし、1つのスレッドの場合、ほとんどの時間は、ネットワークからのデータを待機に費やされるためにも、索引付けの速度が向上するだけでなく。
·たくさんのダウン遅いインデックス処理はDNSルックアップ(サーバ名を使用してIPアドレスを決定するプロセス)であることを一つ。遅延を回避するために、非同期の検索(ルックアップは別の専用のプロセスによって行われる)と、IPアドレスキャッシュが実装されています。
ストップワード
·ストップワードは、それ自体では意味を持たない言葉です。例:、、この時、あるされています。での検索は無用であるので、そのような言葉は、検索クエリから除外されます。ストップワードはまた、インデックス作成時にデータベースから除外されるので、データベースは小さく、速くなります。
·ASPseekには「組み込み」のストップワードはありませんが、それらはファイルからの起動時にロードされます。異なる言語のための多くのストップワードファイルASPseekが付属しています。
文字セットguesse
·一部破損または誤って設定サーバーは、クライアントに彼らがコンテンツを提供する文字セットを教えていません。あなたはこのようなサーバーのインデックスを作成、または(FTPプロトコルは文字セットについて何も知らないん)インデックスftpサーバにASPseekを使用している場合は、文字セットの推測は、それに対処するために使用することができます。文字セットの推測は正しい文字セットを決定するために(langmapsと呼ばれる)単語頻度表を使用しています。
ロボット排除標準(robots.txtの)サポート
·ASPseekは、完全にこの標準をサポートしています。それは、自分のサイトのいくつかのディレクトリのインデックスを作成スキップするロボット(例えば、ASPseekのインデックス(1))を伝えるためのWebサイトの作成者を対象としています。
·詳細についてはhttp://www.robotstxt.org/wc/robots.htmlを参照してください。
ネットワーク帯域幅の使用量とWebサーバーの負荷を制御するための設定
·あなたは正確にインデックス(1)が使用するネットワーク帯域幅を制御することができます。正確に、あなたは、与えられた時間帯のインデックス(1)で使用される(バイト/秒で表される)の帯域幅を制限することができます。たとえば、あなたがあなたのオフィスの人々が遅いインターネットは発生しませんので、業務時間中の帯域幅を制限することができます。
それはオーバーロードし、インデックス(1)を実行しながら、その膝に降りれないように·また、同じWebサーバーに2つのクエリ間の最小時間を設定することができます。
リアルタイム非同期インデクシング
·いくつかの検索エンジンは、検索がデータベース更新の時間停止する必要があることが必要です。あなたはノンストップを検索することができますのでASPseekは、それを必要としません。
·言ってもっと、「リアルタイム」のインデックス作成と呼ばれるインデックス作成の特別なモードがあります。あなたは、ドキュメントの数が少ないためにそれを使用することができ、そのような文書がダウンロードされ、処理される限り、変更が検索インターフェースですぐに表示されます。あなたはなどのオンラインニュースなど急速に変化するコンテンツを含むページの検索エンジンを構築している場合、この機能は大きな助けです
·「リアルタイム」のデータベース内の文書の数が限られている注意してください。それは(あなたの走行距離は異なる場合があります)私たちのハードウェア上で約1000だ、とあなたは「リアルタイム」のデータベースを持っている複数の文書、遅いは、(とそれだけで)データベースに索引付けの速度になります。これはしかし、検索速度には影響しません。
·「リアルタイム」のデータベースからのドキュメントは、通常の方法で(1)のインデックスを実行した後、通常のデータベースに移動します。
関連度または日付によって結果をソートします
·検索エンジンは、通常、最初に最も関連性の高い結果を返します。あなたは、最新のページを探しているなら、あなたはとても最近変更(または作成)ページが最初に表示されます、最終更新日付で結果をソートするASPseekを伝えることができます。
抜粋、クエリ単語がハイライト
言葉だけの文書が何であるかについてのアイデアを与えるために、強調表示された検索で·抜粋が見つかりました。文書の一部です。あなたが表示抜粋とその長さの数をカスタマイズすることができます。あなたが抜粋を無効にする場合は、文書の先頭が表示されます。
·すべての見つかった文書は、「キャッシュ」リンクを伴います。ユーザーは、それが(それは時々起こる)オリジナルサイトから削除された場合でも、(オプション)で文書全体を参照するために検索した単語をハイライト表示できるようにASPseekは、処理されたすべての文書のローカル圧縮コピーを保持します。
サイトによって結果をグループ化
·一つのサイトからの結果は、一緒にグループ化することができます。サイトによってグループ化することにある場合は、2つだけの結果は、デフォルトでは、同じサイトから表示され、ユーザーは、リンク "から...もっと結果を「次のことで、同じサイトから他のページを見ることができます。
クローン
·クローンは、異なる場所で同一の文書です。これらが検出され、一緒にグループ化するので、ユーザは、同一の文書へのURLの完全なページが表示されませんされています。
·クローンの検出は、通常、1つのサイト(クローンとしてカウントされていない別のサイトからのように同一の文書)によって制限されますが、--disable-クローン·バイ·サイトオプションでASPseekを再コンパイルすることで、これを変更することができます。
スペースとサブセット
·スペースは、サイトの集合です。あなたには、いくつかの領域に狭め検索を提供したいのであれば、あなたはスペースを作成し、その空間内で検索することができます。全体だけ部位(例えばhttp://www.mysite.com/)が空間に含まれることを許可されています。
·サブセットは、検索を制限するために使用することができます。あなたは、サブセットを作成し、その中に(http://www.mysite.com/mydir/%など)URLマスクを配置し、その後のみ与えられたサブセットに検索範囲を制限することができます。
·あなたは、いくつかのサブセットまたはスペースだけではなく、一つに検索範囲を制限することができます。
簡単にカスタマイズ検索結果のHTMLテンプレート
·あなたの検索ページをカスタマイズすることができますので、次のようになりますし、シームレスにあなたのサイトの残りの部分と統合します。これは、検索テンプレート·ファイルの簡単な編集によって行われます。
インストール
GZIP -dc aspseek-1.2.10.tar.gz |タールXF -
CDのaspseek-1.2.10。/設定
作ります
SU
カテゴリから探す
人気のソフトウェア
-
KTurtle 2 Jun 15
-
Puppy Linux "Slacko" 28 Apr 17
-
Sophos UTM 17 Feb 15
-
W-Packager 20 Feb 15
-
Lubuntu 16 Aug 18
-
LibreOffice 20 Jan 18
-
Tiny Core Linux 2 Sep 17
ASPseek
開発者の他のソフトウェア SWsoft
へのコメント ASPseek
カテゴリから探す
人気のソフトウェア
-
Zorin OS Ultimate 16 Aug 18
-
GnackTrack 12 May 15
-
PSPP 3 Jun 15
-
K3b 17 Aug 18
-
AirSnort 3 Jun 15
-
Super Grub2 Disk 20 Jan 18
-
Solus 2 Sep 17
コメントが見つかりません