WebGraphはウェブグラフを研究するためのフレームワークです。 WebGraphは、近代的な圧縮技術を利用し、非常に大規模なグラフを管理するための簡単な方法を提供します。より正確には、現在構成されている。
1フラットコードのセットは、ウェブグラフ(または、特定の指数の範囲でべき乗則分布一般に、整数値)を格納するために特に適しているコードと呼ばれる。これらのコードはうまく機能しているという事実は、簡単に実験的にテストすることができますが、我々はまた、詳細な数学的分析を提供してみてください。
ギャップの圧縮とreferentiation(ラ·リンク)を利用したWebグラフを圧縮するため2.アルゴリズム、高圧縮比を提供するintervalisationとコード:例えば、なWebBaseグラフ(2001クロール)はリンクあたり3.08ビットに圧縮され、スナップショットをのUbiCrawlerによって収集.ukのドメインの約1850万のページがリンクあたり2.22ビットに圧縮されている(転置グラフの対応する図は、リンクあたり2.89ビットと、リンクあたり1.98ビットである)。アルゴリズムは、アクセス速度と圧縮比との間の異なるトレードオフを提供するいくつかのパラメータによって制御される。
実際には、それを解凍することが実際に必要になるまで減圧を遅らせる遅延技術を使用せずに圧縮されたグラフにアクセスするための3アルゴリズム。
4.パッケージit.unimi.dsi.webgraphに含まれているJavaで上記のアルゴリズムの完全な、文書化された実装、。明確に定義されたAPIのほかに、パッケージには、そのように様々な設定を試して、グラフを変更(例えば、トランスポーズ)または再圧縮することを可能とするいくつかのクラスが含まれています。パッケージには、ビットレベルのI / O用MG4J上で、すぐに使用できる、効率的なアルゴリズムのためのCOLT分布に、ラインコマンド構文解析のためのGNUのgetoptで、タイプ固有の、高性能なコレクションフレームワークのためにfastutilに依存しています。
5.データは、非常に大きなグラフ(例えば、リンクの億ドル)のために設定されます。これらはどちら(のようなWebBaseなど)公共の情報源から収集、またはUbiCrawlerにより製造される。
最後に、WebGraphであなたも、RAMがわずか256バイトを搭載したPC上で、非常に大規模なウェブグラフにアクセスし、分析することができます。 WebGraphを使用すると、いくつかのjarファイルをインストールし、データセットをダウンロードするのと同じくらい簡単です。これは、ページランク、ウェブグラフ、など非常に簡単のグラフのプロパティの分布などの現象を研究します。
のこのリリースではの新機能:ます。
- このバージョンはHyperANFにいくつかの改善、およびいくつかのバグ修正が追加されます。
- WebGraphは現在、Mavenの中央で見つけることができます。
のバージョン2.4.5にの新機能:新しい、
- このバージョンはHyperANFの実装が含まれています高度にスケーラブルなグラフの近傍関数を計算するためのアルゴリズム、および平均最短経路と近傍関数から他の導出されたデータを計算する方法がします。
- また、統計データの富は今圧縮時に計算されます。
のバージョン2.4.4の新機能のあるもの:ます。
- 一部の古いオプションが削除されました。李>
- プロパティファイルは、現在有効な統計情報が豊富に含まれています。
- は、ランダムアクセス速度が改善されています。
のバージョン2.4.3でのの新機能:
- 固定ArrayListMutableGraph.addNodes()(エリックのおかげでこのバグを見つけ、固定するLumer)します。
- アスキーグラフの出力をシフトする新しいオプションがします。
- RemappedImmutableGraph.successorArray(x)は、このように並列異なるリストでスキャンするために使用不可能に継承された後継者(x)のメソッドを作る、すべての呼び出しで同じ配列を提供していた。 (今ではなく、配列のコピーを返します)を修正します。
- 新規ランダム変換します。
ランダムにグラフを置換
のあるどのバージョン2.4.2のの新しい:
- 新しい"&作曲QUOT。構築物は、(アーク標識)のグラフを構成することを可能にします。
コメントが見つかりません