mrjob

ソフトウェアのスクリーンショット:
mrjob
ソフトウェアの詳細:
バージョン: 0.4
日付のアップロード: 20 Feb 15
開発者: David Marin
ライセンス: 無料
人気: 16

Rating: 3.0/5 (Total Votes: 1)

mrjobでは、Hadoopのストリーミングジョブを作成し、実行することができますPythonモジュールです。
mrjobは完全にあなたが時間単位でのHadoopクラスタ上で時間を買うことができますAmazonのElastic MapReduceは(EMR)サービスを、サポートしています。それはまた、独自のHadoopクラスタで動作します。
のインストール:
Pythonはsetup.py installを
のAmazonでEMRを設定する
  * Amazon Webサービスのアカウントを作成します。http://aws.amazon.com/
  * Elastic MapReduceのサインアップ:http://aws.amazon.com/elasticmapreduce/
  *あなたのアクセスと秘密鍵を取得する(http://aws.amazon.com/account/に移動し、「セキュリティ資格」をクリックします)と環境変数$ AWS_ACCESS_KEY_IDを設定し、それに応じて$ AWS_SECRET_ACCESS_KEY
<強い>
それを試してみて!の
#ローカルに
Pythonのmrjob /例/ mr_word_freq_count.py README.md>カウント
EMRの#
Pythonのmrjob /例/ mr_word_freq_count.py README.md -r EMR>カウント
あなたのHadoopクラスタ上で#
Pythonのmrjob /例/ mr_word_freq_count.py README.md -rのHadoop>カウント
の高度な設定
、他のAWSの地域で実行ソースツリーをアップロード、makeを実行、およびその他の高度なmrjob機能を使用するには、mrjob.confをセットアップする必要があります。 mrjobは年のconfファイルを検索します。
&NBSP; *〜/ .mrjob
&NBSP;あなたの$ PYTHONPATH内のどこか* mrjob.conf
&NBSP; * /etc/mrjob.conf
独自のHadoopクラスタ、EMR上のジョブを実行します。

  • 、または:ます。

    の特長の詳細については、mrjob.conf.exampleを参照してくださいローカルで(テスト用)します。

  • マルチステップジョブをします。
  • (1ステップが次に送り込まマップ-減らす)書く
  • Hadoopの内側に、運用環境を複製します。
  • あなたのソースツリーをアップロードし、あなたの仕事の$ PYTHONPATHに入れてます。
  • 走らせると、他のセットアップ·スクリプトます。
  • 環境変数を設定し(例えば$ TZ)
  • 簡単に(のみEMR)のtarballからPythonパッケージをインストールします。
  • セットアップします。
  • mrjob.conf設定ファイルによって透過的に処理
  • は自動的EMRからのエラー·ログを解釈します。
  • EMR上でのHadoopジョブトラッカーへのSSHトンネルます。
  • 最小限のセットアップします。
  • EMR上で動作するように、設定$ AWS_ACCESS_KEY_IDと$ AWS_SECRET_ACCESS_KEYます。
  • あなたのHadoopクラスタ上で実行するように、設定され、$ HADOOP_HOMEます。

の要件

  • のPythonます。

同じようなソフトウェア

JPPF
JPPF

11 Apr 16

MPICH
MPICH

11 May 15

Spread
Spread

20 Feb 15

Pyro
Pyro

14 Apr 15

開発者の他のソフトウェア David Marin

doloop
doloop

11 May 15

へのコメント mrjob

コメントが見つかりません
コメントを追加
画像をオンにする!