Jericho HTML Parser

ソフトウェアのスクリーンショット:
Jericho HTML Parser
ソフトウェアの詳細:
バージョン: 3.4
日付のアップロード: 10 Dec 15
開発者: Martin Jericho
ライセンス: 無料
人気: 105

Rating: 4.5/5 (Total Votes: 2)

逐語的に認識されないか、または無効なHTMLを再生しながら

これは、サーバー側とクライアント側のタグを編集することができます。

これはまた、高レベルのHTMLフォームの操作機能を提供します。

この機能:ます。

の残りの部分の解析を妨害しない不正な形式のHTMLの存在使用&QUOTためのライブラリに最適です文書、;現実世界"他のパーサをチョークHTML。
ASP、JSP、PSP、PHPとメイソンサーバーのタグを明示的にパーサによって認識されています。これは通常のHTMLはまだ動的要素の属性を設定するときに、たとえば一般的であるその中のサーバーのタグが存在する場合でも、適切に解析されていることを意味します。
イベントイテレータを使用して、大容量のファイルのメモリ効率的な処理が可能StreamedSourceクラスを使用して、新しいストリームベースの解析オプション、。これは本質的にHTMLと非検証XMLだけでなく、他のストリーミングパーサーでは使用できないいくつかの他の機能を処理する能力を持つスタックス代替手段です。
その標準的な形式では、イベントやツリーベースのパーサーでもないのではなく、単純なテキスト検索、効率的なタグの認識とタグ位置キャッシュの組み合わせを使用しています。全体のソース文書のテキストは、第1のメモリにロードされ、その後、唯一の関連セグメントは、各検索操作の関連する文字を探しました。
文書のほんのセクションでは、解析または変更する必要がある場合は、DOMなどのツリーベースのパーサーと比較すると、メモリおよびリソース要件がはるかに良いことができます。正しくないか、不正な形式のHTMLは簡単に上から下にドキュメント内のすべてのノードを識別する必要があり、ツリーベースのパーサーとは異なり、無視することができます。
そのようなSAXなどのイベントベースのパーサーと比較すると、インターフェイスは非常に高いレベルで、より直感的であり、必要に応じてドキュメントの要素階層のツリー表現を容易に作成されています。
すべての解析されたセグメントのソースドキュメント内の開始位置と終了位置は、ツリーから文書全体を再構築することなく、文書の唯一の選択されたセグメントの変更を可能にすること、アクセスすることができます。
ソースドキュメントの各位置の行と列の数は、簡単にアクセスできます。
またはデータ表示モード読み取り専用に抽出し、初期値の人口、および変換を含むHTMLフォームコントロールの解析と操作のための単純だが包括的なインタフェースを提供します。フォームコントロールの分析は、フォームから受信したデータが格納され、適切な方法で提示することが可能になります。
内蔵機能などのApache Luceneのなどのテキスト検索エンジンに供給するための適切なHTMLマークアップからすべてのテキストを抽出します。
組み込み機能の簡単なテキストフ​​ォーマットでHTMLマークアップをレンダリングします。
内蔵機能は、ドキュメント要素の階層内の深さに応じて要素をインデントHTMLソースコードをフォーマットします。 (オンラインデモンストレーションについては、ここをクリックしてください)
内蔵コンパクトHTMLソースコードの機能をすべての不要な空白を削除することによって。
カスタムタグの種類を簡単に定義され、パーサによる認識のために登録することができます。

このリリースで新しい何が:

この追加ソース(ファイル)コンストラクタ。
OutputDocument.getSegment()メソッドが追加されました。
追加OutputDocument.remove(int型、int型の終了を開始)する方法。
Renderer.setHRLineLength()メソッドが追加されました。
RenderToText.jspのWebアプリケーションのサンプルが追加されました。
Segment.getRowColumnVector()メソッドが追加されました。
エンコーディング検出は現在、予備エンコーディングの互換性のないコード単位のサイズを持っているメタタグに指定された共通のエンコーディングを無視します。

このバグの修正:

このバージョン3.1の新機能です。
Segment.getAllStartTagsの無限ループ()
Segment.getAllElementsの無限ループ()
Segment.getFirst *メソッドは、境界セグメント外のセグメントを返しました。
Segment.getAllElements方法は、いくつかの状況で、すべての囲まれている要素を返しませんでした。
Segment.getAllElements方法で修正されたドキュメントのエラー。
StreamedSourceクラスを追加しました。
既存のプログラムの動作に影響を与える可能性の変更:
インタフェースするクラスからParseTextを変更しました。
Segment.getNodeIterator()が別々のノードとして文字参照を返します。
属性値の正規表現に基づいてタグの検索方法が追加されました。
HTMLクラス属性に基づいてタグの検索方法が追加されました。
以前のバージョンのものにSegment.getNodeIterator()機能を復元するために一時的に静的Source.LegacyNodeIteratorCompatabilityModeプロパティが追加されました。
ParseTextで削除のchar []は、ベースの検索方法。
CharacterReference.appendCharTo(追加可)メソッドが追加されました。
追加OutputDocument(セグメント)コンストラクタ。
StreamedSourceCopyサンプルプログラムが追加されました。

同じようなソフトウェア

django-html5
django-html5

6 Jun 15

store
store

4 Jun 15

Goutte
Goutte

10 Dec 15

Box.js
Box.js

6 Jun 15

開発者の他のソフトウェア Martin Jericho

へのコメント Jericho HTML Parser

コメントが見つかりません
コメントを追加
画像をオンにする!