スクラッピPythonで100%に書き込まれ、ページモニタリング、ウェブ検索エンジンに、さらに符号テストのために、単純なデータ・マイニングのために利用することができます。
Scrapyは言葉の本当の意味での検索エンジンではありませんが、(インデックス付け部品なしで)1のような役割を果たします。それにもかかわらずScrapyは、上の検索エンジンのロジックを構築するための強力なツールとして使用できます。
このフレームワークの真の力はScrapyが上の汎用または専用の検索スパイダー(クローラ)を構築するためのシステムであること、そのコアの汎用性に依存しています。
これはドキュメントの上に簡単に見し、利用可能なチュートリアルで、非技術的なユーザーには非常に複雑に聞こえるかもしれないが、それはScrapyはこのうち、すべてのハードワークを取るだけに全体のプロセスを減らすことに成功した方法を確認するために非常に簡単です(簡単に、小さいクローラーに)数行のコード
このリリースの新機能:
このUNQUOTE要求パスFTPClientに渡す前に、それがすでにパスをエスケープします。
MANIFEST.inでソース配布へ/テストを含めます。
このバージョン1.0.1の新機能です:
このUNQUOTE要求パスFTPClientに渡す前に、それがすでにパスをエスケープします。
MANIFEST.inでソース配布へ/テストを含めます。
このバージョン0.24.6の新機能です:
このテンプレートにUTF8エンコードヘッダを追加
Telnetコンソールは、デフォルトで127.0.0.1に結合します
更新のdebian / Ubuntuの指示をインストール
lxmlのXPathの評価でスマート文字列を無効にします
HTTPキャッシュミドルウェアのデフォルトとして、ファイルシステムベースのキャッシュを復元します。
Scrapyシェルで現在のクローラを公開
CSVやXMLの輸出業者を比較するテストスイートを改善
新しいオフサイト/濾過し、オフサイト/ドメインの統計
CrawlSpiderで発電機としてサポートprocess_links
このバージョン0.24.5の新機能です:
このテンプレートにUTF8エンコードヘッダを追加
Telnetコンソールは、デフォルトで127.0.0.1に結合します
更新のdebian / Ubuntuの指示をインストール
lxmlのXPathの評価でスマート文字列を無効にします
HTTPキャッシュミドルウェアのデフォルトとして、ファイルシステムベースのキャッシュを復元します。
Scrapyシェルで現在のクローラを公開
CSVやXMLの輸出業者を比較するテストスイートを改善
新しいオフサイト/濾過し、オフサイト/ドメインの統計
CrawlSpiderで発電機としてサポートprocess_links
このバージョン0.22.0の新機能です:
このscrapy.spider.Spiderにscrapy.spider.BaseSpiderの名前を変更します
INFOレベルに設定し、ミドルウェアの起動情報を促進
get_func_args UTILでサポートパーシャル
TOX経由indiviualテストを実行できるように
リンク抽出によって無視アップデートの拡張機能
セレクタは、デフォルトではEXSLT名前空間を登録します
名前を変更するセレクタに似たアイテムローダーを統一
RFPDupeFilterクラスを簡単にサブクラス化してください
テストカバレッジと今後のPythonの3のサポートを改善
このバージョン0.20.1の新機能です:
このinclude_package_dataは、公開されたソースからの車輪を構築するために必要とされます。
このバージョン0.18.4の新機能です:
このは、シェルコマンドで要求を交換AlreadyCalledErrorを修正しました。
固定start_requestsのlazynessと早期ハング。
このバージョン0.18.1の新機能です。桜が追加した
この削除された余分なインポートして、変更を選びました。
ツイスト事前11.0.0の下でテストをクロール修正しました。
py26は長さゼロのフィールド{}の書式を設定することはできません。
結合していない応答にテストPotentiaDataLossエラー。
良い応答としてコンテンツ長または転送エンコードせずに応答を扱います。
http11ハンドラが有効でない場合ResponseFailed含まないんなし。
この要件:
このPythonの2.7またはそれ以上
2.5.0以上ツイスト
libxml2の2.6.28以上
pyOpenSSL
コメントが見つかりません