Apacheのスパークは、データ分析および操作プログラムの処理速度を向上させるために設計された。
これは、彼らが主流でも非データ処理アプリケーションにその有用じゃない主な理由は、JavaとScalaで書かれており、他のシステムにはない機能を提供しました。
スパークは、最初にカリフォルニア大学バークレー校AMPラボで作成され、それ以降は、Apache Software Foundationに寄贈されました。
このリリースで新しい何が:ます。
ユニファイド・メモリの管理 - 代わりに地域の排他的な部門の実行およびキャッシング用の共有メモリ。
寄木パフォーマンス - フラットスキーマを使用しているとき寄木スキャンのパフォーマンスを向上させます。
個別の集計を有するクエリのための改良されたクエリプランナ - 個別の列が高いカーディナリティを持っているときに明確な集計のクエリ・プランは、より堅牢です。
適応型クエリの実行 - 自動的に結合と集計のために減速の数を選択するための初期サポート。
データソースAPIで二重のフィルターを回避 - フィルタプッシュダウンとデータソースを実装する場合、開発者はプッシュダウンフィルタを対象にした二重避けるために、スパークSQLを伝えることができます。
今SortMergeJoinを使用しての代わりにcartisian積を計算する実行されます(;; =&#のSpark Proの&#のx3c) - ジョイン高速ヌルセーフはヌルセーフ平等を使用して結合します。
インメモリ柱状キャッシュパフォーマンス - データフレームまたはSQLの複合型が含まれているデータをキャッシュする際に重要な(14Xまで)スピードアップ。
GCのオーバーヘッドを回避するために、オフ・ヒープメモリを使用して発生するクエリの実行を設定するためのサポートを - オフヒープメモリの使用SQL実行
このバージョン1.5.2の新機能:
このコアAPIは現在、高価な削減の操作をスピードアップするためにマルチレベルの集約ツリーをサポートしています。
改善されたエラー報告は、特定の落とし穴操作のために追加されました。
スパークの桟橋の依存関係は、現在のユーザープログラムとの競合を避けるために網掛けされています。
スパークは現在、いくつかの通信エンドポイントのSSL暗号化をサポートしています。
リアルタイムGC指標とレコード数はUIに追加されました。
このバージョン1.4.0の新機能:
このコアAPIは現在、高価な削減の操作をスピードアップするためにマルチレベルの集約ツリーをサポートしています。
改善されたエラー報告は、特定の落とし穴操作のために追加されました。
スパークの桟橋の依存関係は、現在のユーザープログラムとの競合を避けるために網掛けされています。
スパークは現在、いくつかの通信エンドポイントのSSL暗号化をサポートしています。
リアルタイムGC指標とレコード数はUIに追加されました。
このバージョン1.2.0の新機能:
このPySparkのソート演算子は今、大規模なデータセットのための外部こぼれをサポートしています。
PySparkは現在、2GBを超える放送変数をサポートし、ソート中に外部こぼれを実行します。
スパークは、完全なジョブとしてSparkのUIのジョブレベルの進行状況ページ、進捗報告のための安定したAPI、および出力メトリックの動的更新を追加します。
スパークは現在、画像やその他のバイナリ形式のバイナリファイルを読み込みをサポートしています。
このバージョン1.0.0の新機能は次のとおりです。
このリリースでは、ユーザーは、既存のスパークワークフローにSQLクエリを統合できる新しいSQLパッケージ(スパークSQL)を導入、スパークの標準ライブラリを拡張します。
MLlib、スパークの機械学習ライブラリは、スパース・ベクトルのサポートと、いくつかの新しいアルゴリズムで展開されています。
このバージョン0.9.1の新機能である:外部こぼれでます。
固定ハッシュ衝突のバグ
他のロギングバックエンドに依存するユーザーのためのスパークのlog4jのを修正し競合
固定Graphxビルドのmavenで火花アセンブリジャーから欠落します
アッカのフレームサイズを超えた出力状態をマップによる固定サイレント障害
ASMで除去スパークの不要な直接の依存関係
LGPLライセンスの競合に起因するデフォルトのビルドから削除されたメトリック神経節
火花アセンブリジャーを含まないディストリビューションのtarballでバグを修正しました
このバージョン0.8.0の新機能です:
この開発はインキュベーター・プロジェクトとしてApache Sowftware財団に移動しました。
このバージョン0.7.3の新機能です:
このPythonのパフォーマンス:PythonのVMを産卵のSparkのメカニズムは、JVMが大きなヒープサイズを持っているときにスピードアップ、より速くそうするように改善されましたPythonのAPI。
Mesos修正:Mesosでタスクの結果をデシリアライズするとき、あなたのジョブに追加JARは今クラスパスになります。
エラー報告:シリアライズ不可能な例外や過度に大きいタスクの結果のためのより良いエラー報告。
例:updateStateByKeyを持つステートフルストリーム処理の例を追加しました。
ビルドしていない:スパークストリーミングは、もはやそれが中国で構築できるようにすべきであるTwitter4Jはレポに依存します。
foldByKeyでのバグ修正、ストリーミングカウント、統計方法、ドキュメント、およびWeb UI。
このバージョン0.7.2の新機能です:
このScalaのバージョンが2.9.3に更新されています。
パフォーマンスの修正および構成の記憶レベルを含むベーグルにいくつかの改良、。
新しいAPIメソッド:subtractByKey、foldByKey、mapWith、filterWith、foreachPartition、その他。
各計算ステージに関する情報を収集するために、インタフェース、SparkListenerを報告する新しいメトリック:タスクの長さは、など、シャッフルバイト
K-手段とコンピューティング・パイなどのJava APIを使用して、いくつかの新しい例。
このバージョンは何0.7.0で新しく追加されます。
0.7スパークするPySparkというPython APIが追加されます。
スパークジョブは現在、プログラム内の各分散型データセット(RDD)のメモリ使用量を監視するためのWebダッシュボードを起動します。
スパークは現在、SBTに加えて、Mavenを使用して構築することができます。
このバージョン0.6.1の新機能である:労働者がクラスタから切断する可能性があります。
固定過度に攻撃的なメッセージのタイムアウト。
HDFSの局所性に影響を与える、スケジューラにホスト名を公開していませんでしたスタンドアロン配備モードの不具合を修正しました。
大幅に小型のシャッフルをスピードアップすることができシャッフルで改善された接続の再利用、。
ブロックマネージャでいくつかの潜在的なデッドロックを修正しました。
Mesosから失敗したホストのIDを取得するバグを修正しました。
スポットインスタンスの優れたハンドリングのようないくつかのEC2スクリプトの改善、。
スパークは、カスタマイズ可能に結合することをローカルIPアドレスを作りました。
Hadoopの2ディストリビューションをサポートします。
DebianディストリビューションにはScalaの位置を特定するためのサポート。
このバージョン0.6.0の新機能です:
この簡単な展開。
スパークのドキュメントは、新しいクイックスタートガイド、追加のデプロイメントの手順、設定ガイド、チューニング・ガイド、および改善されたScaladoc APIドキュメントで拡張されました。
非同期のJava NIOを使用して、新しい通信マネージャは、ジョブが多くのタスクを持っているときにシャッフル操作は大量のデータを送信する場合は特に、高速に実行するか、またはことができます。
新しいストレージ・マネージャは(など、ディスク上に、非直列化、あるいはノード間で複製され、メモリ内のデータセットを保持するかどうか例えば)ごとのデータセットのストレージ・レベルの設定をサポートしています。
強化されたデバッグ。
コメントが見つかりません