mrjobでは、Hadoopのストリーミングジョブを作成し、実行することができますPythonモジュールです。
mrjobは完全にあなたが時間単位でのHadoopクラスタ上で時間を買うことができますAmazonのElastic MapReduceは(EMR)サービスを、サポートしています。それはまた、独自のHadoopクラスタで動作します。
のインストール:の
Pythonはsetup.py installを
ののAmazonでEMRを設定する
  * Amazon Webサービスのアカウントを作成します。http://aws.amazon.com/
  * Elastic MapReduceのサインアップ:http://aws.amazon.com/elasticmapreduce/
  *あなたのアクセスと秘密鍵を取得する(http://aws.amazon.com/account/に移動し、「セキュリティ資格」をクリックします)と環境変数$ AWS_ACCESS_KEY_IDを設定し、それに応じて$ AWS_SECRET_ACCESS_KEY
<強い>
それを試してみて!の
#ローカルに
Pythonのmrjob /例/ mr_word_freq_count.py README.md>カウント
EMRの#
Pythonのmrjob /例/ mr_word_freq_count.py README.md -r EMR>カウント
あなたのHadoopクラスタ上で#
Pythonのmrjob /例/ mr_word_freq_count.py README.md -rのHadoop>カウント
の高度な設定の
、他のAWSの地域で実行ソースツリーをアップロード、makeを実行、およびその他の高度なmrjob機能を使用するには、mrjob.confをセットアップする必要があります。 mrjobは年のconfファイルを検索します。
&NBSP; *〜/ .mrjob
&NBSP;あなたの$ PYTHONPATH内のどこか* mrjob.conf
&NBSP; * /etc/mrjob.conf
独自のHadoopクラスタ、EMR上のジョブを実行します。
- 、または:ます。
の特長の詳細については、mrjob.conf.exampleを参照してくださいローカルで(テスト用)します。
- マルチステップジョブをします。 (1ステップが次に送り込まマップ-減らす)書く
- Hadoopの内側に、運用環境を複製します。
- あなたのソースツリーをアップロードし、あなたの仕事の$ PYTHONPATHに入れてます。
- 走らせると、他のセットアップ·スクリプトます。
- 環境変数を設定し(例えば$ TZ)
- 簡単に(のみEMR)のtarballからPythonパッケージをインストールします。
- セットアップします。 mrjob.conf設定ファイルによって透過的に処理
- は自動的EMRからのエラー·ログを解釈します。
- EMR上でのHadoopジョブトラッカーへのSSHトンネルます。
- 最小限のセットアップします。
- EMR上で動作するように、設定$ AWS_ACCESS_KEY_IDと$ AWS_SECRET_ACCESS_KEYます。
- あなたのHadoopクラスタ上で実行するように、設定され、$ HADOOP_HOMEます。
の要件の
- のPythonます。
コメントが見つかりません