スパークは、データ分析および操作プログラムの処理速度を向上させるために設計されました。
これは、JavaとScalaで書かれており、それらが主流でも非データ処理アプリケーションにその有用じゃない主な理由は、他のシステムにはない機能を提供しました。
このリリースの新機能:
コアAPIは現在、高価なをスピードアップするためにマルチレベルの集約ツリーをサポートしている操作を削減します。
改善されたエラー·レポートは、特定の落とし穴の操作に追加されました。
スパークの桟橋依存性は、現在のユーザプログラムとの競合を避けるために遮光されます。
スパークは現在、いくつかの通信エンドポイントのSSL暗号化をサポートしています。
リアルタイムGCメトリクスとレコード数は、UIに追加されました。
このバージョン1.3.0の新機能:
このコアAPIは現在、高価な削減の操作をスピードアップするためにマルチレベルの集約ツリーをサポートしています。
改善されたエラー·レポートは、特定の落とし穴の操作に追加されました。
スパークの桟橋依存性は、現在のユーザプログラムとの競合を避けるために遮光されます。
スパークは現在、いくつかの通信エンドポイントのSSL暗号化をサポートしています。
リアルタイムGCメトリクスとレコード数は、UIに追加されました。
このバージョン1.2.1の新機能:
このPySparkのソート演算子は今大規模なデータセットのための外部こぼれをサポートしています。
PySparkは現在、2GBを超える放送変数をサポートし、ソート中に外部こぼれを行います。
スパークは、完全なジョブとしてSparkのUIのジョブレベルの進行状況ページ、進捗報告のための安定したAPI、および出力メトリックの動的更新を追加します。
火花が今、画像や他のバイナリ形式のバイナリファイルの読み込みをサポートしています。
このバージョン1.0.0の新機能は次のとおりです。
このリリースでは、ユーザーは、既存のスパークワークフローにSQLクエリを統合できる新しいSQLパッケージ(スパークSQL)を導入、スパークの標準ライブラリを拡張します。
MLlib、スパークの機械学習ライブラリは、スパース·ベクトルのサポートと、いくつかの新しいアルゴリズムで展開されています。
このバージョン0.9.1の新機能である外部こぼれるでます。
固定ハッシュ衝突のバグ
他のロギングバックエンドに依存するユーザーのためのスパークのlog4jのを修正し競合
固定Graphxビルドのmavenで火花アセンブリジャーから欠落します
アッカのフレームサイズを超えた出力状態をマップによる固定サイレント障害
ASMで除去スパークの不要な直接の依存関係
LGPLライセンスの競合に起因するデフォルトのビルドから削除メトリック神経節
火花アセンブリジャーを含まないディストリビューションのtarballでバグを修正しました
このバージョン0.8.0の新機能です:
この開発はインキュベーター·プロジェクトとしてApache Sowftware財団に移動しました。
このバージョン0.7.3の新機能です:
このPythonのパフォーマンス:PythonのVMを産卵のSparkのメカニズムは、JVMが大きなヒープサイズを有する場合にスピードアップ、より速くそうするように改善されましたPythonのAPI。
Mesos修正:Mesosでタスクの結果をデシリアライズするときにジョブに追加JARは今クラスパスになります。
エラー報告:非直列化可能な例外と過度に大きいタスクの結果のためのより良いエラー報告。
例:updateStateByKeyを持つステートフルストリーム処理の例を追加しました。
ビルドしない:スパークストリーミングは、もはやそれが中国で構築できるようにする必要がありTwitter4Jはレポに依存します。
foldByKeyにおけるバグ修正、ストリーミング数、統計方法、ドキュメント、およびWeb UI。
このバージョン0.7.2の新機能です:
このScalaのバージョン2.9.3にアップデート。
パフォーマンスの修正と、設定記憶レベルを含むベーグルにいくつかの改善、。
新しいAPIメソッド:subtractByKey、foldByKey、mapWith、filterWith、foreachPartition、その他。
各計算ステージの情報を収集するために、インターフェイス、SparkListenerの報告新しいメトリック:タスクの長さは、等、シャッフルバイト
K-手段およびコンピューティング·パイなどのJava APIを使用して、いくつかの新しい例。
このバージョンは何0.7.0で追加されます。
0.7スパークするPySparkというPython APIが追加されます。
Sparkのジョブは、プログラム内の各分散データセット(RDD)のメモリ使用量を監視するためのWebダッシュボードを起動します。
火花は今SBT以外にMavenを使用して構築することができます。
このバージョン0.6.1の新機能である。労働者がクラスタから切断する可能性があります。
固定過度に攻撃的なメッセージのタイムアウト。
HDFSの局所性に影響を与える、スケジューラにホスト名を公開していませんでしたスタンドアロン配備モードの不具合を修正しました。
非常に小さなシャッフルをスピードアップすることができ、シャッフルで改善された接続の再利用、。
ブロック管理におけるいくつかの潜在的なデッドロックを修正しました。
Mesosから失敗したホストのIDを取得するバグを修正しました。
スポットインスタンスのより良いハンドリングのようないくつかのEC2スクリプトの改善、。
スパークは、カスタマイズ可能に結合することをローカルIPアドレスを作りました。
Hadoopの2ディストリビューションをサポートします。
DebianのディストリビューションでのScalaの位置を特定するためのサポート。
このバージョン0.6.0の新機能です:
この簡単な展開。
スパークのドキュメントは、新しいクイックスタートガイド、追加のデプロイメントの手順、設定ガイド、チューニング·ガイド、および改善Scaladoc APIドキュメントで拡張されています。
非同期のJava NIOを使用して、新しい通信マネージャは、ジョブは多くのタスクを持っているときにシャッフル操作は大量のデータを送信する場合は特に、高速に実行するか、またはすることができます。
新しいストレージ·マネージャーは、(例えばなど、ディスク上に、デシリアライズ、メモリ内のデータセットを保持するかどうか、あるいはノード間で複製された)ごとのデータセットのストレージ·レベルの設定をサポートしています。
強化されたデバッグ。
コメントが見つかりません