これは基本的にCythonで書かれたMapReduceのためのPythonライブラリです
この特長:ます。
同様のインタフェースのHadoop APIとして(のPython / Javaインタフェースとの間のデザインパターン利用可能)
ダンボとの一般的な互換性は、ユーザーが前後に切り替えることができるようにします
Pythonや管理者のアクセス権を持たないのHadoopクラスタ上で使用可能
高速変換と処理
小滞在し、十分に文書化
何が起こっていると透明で
複雑なの.so年代、ctypesの、および拡張子を持つプログラムを処理
ハック·能力に記述されたコード
単純なHDFSアクセス(例えば、リーディング、ライティング、LS)
サポート(とではない複製)大きいのHadoopエコシステム(例えば、Oozie、whirr)
自動ジョブ並列hadoopyフロープロジェクトで使用可能な「オートoozie」(枝のうち維持)
launch_localで修飾されていないのMapReduceジョブのローカル実行
のpythonからHDFSに直接TypedBytesの/書き込みシーケンスファイルを読む(readtb、writetb)
(両方がタスクの標準エラー出力で利用可能である、「パイプがホッピング」技術を使用しています)の問題を引き起こすことなく、Hadoopのタスクでstdoutとstderrへの印刷を可能にします
余分なインストールやPython、または任意のPythonライブラリのないクラスタ上で動作します(このソースツリーに含まれているpyInstallerのを使用しています)
OS X上で動作します
クリティカルパスは、Cythonであります
Pythonの内部でも、ジョブを実行している内部の単純なHDFSアクセス(readtbとLS)
ユニットテストインタフェース
ステータスとカウンタ使用してレポート作成(およびprint文を!Hadoopyでそれらの怖がってする必要はありません)
林&ダイアーの本の中でデザインパターンをサポートしています
Typedbytesサポート(非常に速いです)
Oozieサポート
この要件:
このCython 0.13以上
コメントが見つかりません