2012-09-24 9 views
6

मैं अपने लैपटॉप पर पाइथन mrjob मॉड्यूल (अमेज़ॅन लोचदार कंप्यूट क्लाउड या किसी भी बड़े क्लस्टर पर नहीं) के माध्यम से मैप्रिडस नौकरी चलाने के लिए एक बाहरी स्क्रिप्ट लिख रहा हूं।पाइथन से धावक के लिए इनपुट फ़ाइल निर्दिष्ट कैसे करता है?

मैंने mrjob documentation से पढ़ा है कि मुझेका उपयोग एक अलग पायथन लिपि से मैप्रिडस नौकरी चलाने के लिए करना चाहिए।

mr_job = MRYourJob(args=['-r', 'emr']) 
with mr_job.make_runner() as runner: 
    ... 

हालांकि, मैं किस इनपुट फ़ाइल का उपयोग करने के लिए निर्दिष्ट करूं? मैं उसी निर्देशिका में एक फ़ाइल "datalines.txt" का उपयोग करना चाहता हूं जैसे मैप्रिडस स्क्रिप्ट और अन्य पायथन स्क्रिप्ट जो मानचित्र को कम करती है। इसके अलावा, मैं आउटपुट कैसे निर्दिष्ट करूं?

मुझे mrjob दस्तावेज़ में कोई फ़ंक्शन नहीं मिला जो मुझे इन पैरामीटर को निर्दिष्ट करने की अनुमति देता है।

उत्तर

5

Getting started guide पता चलता है कि इनपुट stdin या कमांड लाइन में आपूर्ति की फ़ाइलों से पढ़ने जाता है:

mr_job = MRYourJob(args=["datalines.txt"]) 
संबंधित मुद्दे