サーチ·クローラー(スパイダー)は、さまざまな情報については、その鉱山のWebページを書面で使用することができます。
PHPCrawlは、それがフェッチするように設定された情報を取得し、さらに処理するために、より強力なアプリケーションに渡します。
の特長の:ます。
- フィルタ用URLおよびContent-Typeのデータ
- クッキーを処理する方法を定義します。
- のrobots.txtファイルを処理する方法を定義します。
- はさまざまな方法でその活性を制限します。
- マルチ処理モードます。
のこのリリースのの新機能:
- 修正されたバグ:LI>
部分的にURLエンコードされており、部分的に再構築/正しくエンコードされませ - リンクします。
- を削除不要なデバッグのvar_dump()
- TLS / SSLでのサーバー名表示が正しく動作するようになりました。
- はウェブサイトをスパイダーするために使用する複数のプロセスを使用する機能を追加しました。メソッド&QUOT、goMultiProcessed()&QUOT。追加します。
- 新規オーバーライド可能なメソッド&QUOT、initChildProcess()&QUOT。マルチプロセスモードでクローラを使用する場合は、子プロセスを開始するために追加します。
- の代替、非常に大規模なウェブサイトをスパイダーすることが可能となるURLの内部のSQLiteキャッシング·メカニズムをImplementetます。
- メソッド&QUOT、setUrlCacheType()&QUOT。追加します。
- 新しいメソッドsetWorkingDirectory()を手動でクローラ一時作業ディレクトリの場所を定義するために追加しました。その方法&QUOT、setTmpFile()&QUOT。非推奨とマーク(もはや機能はありません)されます。
- Newメソッド&QUOT、addContentTypeReceiveRule()&QUOT。古い方法&QUOTを置き換え、addReceiveContentType()"ます。
- 機能&QUOT、addReceiveContentType()&QUOT。まだ存在していますが、非推奨としてマークされていたします。
PHPCrawlerRobotsTxtParser.class.phpから
<李は>&QUOT、ベースHREF&QUOT、ウェブサイトで - タグを再度正しく解釈を取得します。。
コードは完全にPHP5-OO-に移植され、リファクタリングされました。
のバージョン0.80ベータ版のの新機能であるコードとコードの多くが書き直されました。
の要件の
- PHP 5以上します。
- OpenSSLサポートを有効にしてPHPます。
コメントが見つかりません