mrjob

ソフトウェアのスクリーンショット:
mrjob
ソフトウェアの詳細:
バージョン: 0.4
日付のアップロード: 20 Feb 15
開発者: David Marin
ライセンス: 無料
人気: 16

Rating: 3.0/5 (Total Votes: 1)

mrjobでは、Hadoopのストリーミングジョブを作成し、実行することができますPythonモジュールです。
mrjobは完全にあなたが時間単位でのHadoopクラスタ上で時間を買うことができますAmazonのElastic MapReduceは(EMR)サービスを、サポートしています。それはまた、独自のHadoopクラスタで動作します。
のインストール:
Pythonはsetup.py installを
のAmazonでEMRを設定する
  * Amazon Webサービスのアカウントを作成します。http://aws.amazon.com/
  * Elastic MapReduceのサインアップ:http://aws.amazon.com/elasticmapreduce/
  *あなたのアクセスと秘密鍵を取得する(http://aws.amazon.com/account/に移動し、「セキュリティ資格」をクリックします)と環境変数$ AWS_ACCESS_KEY_IDを設定し、それに応じて$ AWS_SECRET_ACCESS_KEY
<強い>
それを試してみて!の
#ローカルに
Pythonのmrjob /例/ mr_word_freq_count.py README.md>カウント
EMRの#
Pythonのmrjob /例/ mr_word_freq_count.py README.md -r EMR>カウント
あなたのHadoopクラスタ上で#
Pythonのmrjob /例/ mr_word_freq_count.py README.md -rのHadoop>カウント
の高度な設定
、他のAWSの地域で実行ソースツリーをアップロード、makeを実行、およびその他の高度なmrjob機能を使用するには、mrjob.confをセットアップする必要があります。 mrjobは年のconfファイルを検索します。
&NBSP; *〜/ .mrjob
&NBSP;あなたの$ PYTHONPATH内のどこか* mrjob.conf
&NBSP; * /etc/mrjob.conf
独自のHadoopクラスタ、EMR上のジョブを実行します。

  • 、または:ます。

    の特長の詳細については、mrjob.conf.exampleを参照してくださいローカルで(テスト用)します。

  • マルチステップジョブをします。
  • (1ステップが次に送り込まマップ-減らす)書く
  • Hadoopの内側に、運用環境を複製します。
  • あなたのソースツリーをアップロードし、あなたの仕事の$ PYTHONPATHに入れてます。
  • 走らせると、他のセットアップ·スクリプトます。
  • 環境変数を設定し(例えば$ TZ)
  • 簡単に(のみEMR)のtarballからPythonパッケージをインストールします。
  • セットアップします。
  • mrjob.conf設定ファイルによって透過的に処理
  • は自動的EMRからのエラー·ログを解釈します。
  • EMR上でのHadoopジョブトラッカーへのSSHトンネルます。
  • 最小限のセットアップします。
  • EMR上で動作するように、設定$ AWS_ACCESS_KEY_IDと$ AWS_SECRET_ACCESS_KEYます。
  • あなたのHadoopクラスタ上で実行するように、設定され、$ HADOOP_HOMEます。

の要件

  • のPythonます。

同じようなソフトウェア

LAM/MPI
LAM/MPI

3 Jun 15

OSCAR Cluster
OSCAR Cluster

3 Jun 15

grayson
grayson

20 Feb 15

Openwsman
Openwsman

11 May 15

開発者の他のソフトウェア David Marin

doloop
doloop

11 May 15

へのコメント mrjob

コメントが見つかりません
コメントを追加
画像をオンにする!