美しいスーププロジェクトは、スクリーン·スクレイピングのような迅速なターンアラウンドプロジェクトのために設計されたPythonのHTML / XMLパーサーです。三つの特徴は、それが強力に:
あなたはそれを悪いマークアップを与えれば美しいスープは、チョークはありません。それはあなたの元の文書とほぼ同じくらい意味がある解析木を生成する。これはあなたが必要とするデータを収集し、逃げるには十分通常は良いです。
ドキュメントを解剖し、必要なものを抽出するためのツールキット:美しいスープは、ナビゲート検索、解析木を修正するためのいくつかの簡単な方法やPython的イディオムを提供しています。あなたは、各アプリケーションのカスタム·パーサーを作成する必要はありません。
美しいスープは、自動的にUTF-8にUnicodeと送信文書に入ってくる文書を変換します。あなたは、ドキュメントがエンコーディングが指定されていない場合を除き、エンコーディングについて考える必要はありませんし、美しいスープは1を自動検出することはできません。次に、あなただけのオリジナルのエンコーディングを指定する必要があります。
美しいスープは、あなたがそれを与える何かを解析し、あなたのためにツリートラバーサルのものを行います。あなたは、「すべてのリンクを検索する」ということを教え、または「クラスのExternalLinkのすべてのリンクを検索する」、またはfoo.com」、または「その持って大胆なテキストを見出し、テーブルの検索」とは、そのURLが一致すべてのリンクを検索する」、それから与えることができます私にそのテキスト。」
一度悪い設計されたウェブサイトの中に閉じ込められた貴重なデータは、あなたの手の届くところになりました。営業時間は、美しいスープでのみ分かかるかかっていたプロジェクト
の要件の:ます。
- のPythonます。
コメントが見つかりません