DataFuはLinkedInので開発され、完全にJavaで書かれています。
DataFuを扱うための関数/ライブラリが含まれます:
- 統計
- 推定
- サンプリング
- セッション
- リンク解析
- Set操作
- バッグ
DataFuは、データマイニングやHadoopのか豚のデータベースの最上部に取り組んで統計的なアプリケーションに最適です。
これらの機能は、開発者がそうするために大規模なシステム要件に対処することなく、Hadoopのか、豚、データベース内に格納されているすべてのデータをフルに活用することができます。
この新機能このリリースで:交換と単純無作為抽出のためのUDFの
このペア。
少数のJARの依存関係が必要なので、より多くの依存関係は今DataFuでパッケージング。
セット差分を計算するSetDifference UDF(例えば、A-BまたはA-B-C)。
このバージョン1.2.0の新機能です:
この交換と単純無作為抽出のためのUDFのペア。
少数のJARの依存関係が必要なので、より多くの依存関係は今DataFuでパッケージング。
セット差分を計算するSetDifference UDF(例えば、A-BまたはA-B-C)。
このバージョン1.1.0の新機能です:
この追加されたSHAハッシュUDF。
InUDFとAssertUDFは豚0.12互換性のために追加されました。これらは、Inとアサートと同じです。
スケーラブルな単純無作為抽出アルゴリズムを実装SimpleRandomSample、。
コメントが見つかりません