अब अमेज़न अपने आप में एक आवरण distcp से अधिक लागू किया, अर्थात् है।
S3DistCp DistCp कि अमेजन वेब सेवाओ (एडब्ल्यूएस) के साथ काम करने के लिए अनुकूलित किया गया है, विशेष रूप से अमेज़न सरल संग्रहण सेवा (अमेज़न S3) का एक विस्तार है। आप इसे नौकरी प्रवाह में एक कदम के रूप में जोड़कर S3DistCp का उपयोग करते हैं। S3DistCp का उपयोग करके आप कुशलता से जहां यह अपने अमेज़न लचीला MapReduce (अमेज़न ईएमआर) काम के प्रवाह में बाद के चरणों से संसाधित किया जा सकता HDFS में अमेज़न S3 से डेटा की बड़ी मात्रा कॉपी कर सकते हैं। तुम भी अमेज़न S3 बाल्टी के बीच या HDFS से अमेज़न को S3 डेटा की प्रतिलिपि S3DistCp उपयोग कर सकते हैं
उदाहरण की प्रतिलिपि अमेज़न S3 से लॉग फ़ाइलें
HDFS को यह निम्न उदाहरण दिखाता है लोग इन फ़ाइलों की प्रतिलिपि करने के लिए कैसे एक अमेज़ॅन एस 3 बाल्टी में एचडीएफएस में संग्रहीत। इस उदाहरण में --srcPattern विकल्प का उपयोग डिमन लॉग पर कॉपी किए गए डेटा को सीमित करने के लिए किया जाता है।
elastic-mapreduce --jobflow j-3GY8JC4179IOJ --jar \
s3://us-east-1.elasticmapreduce/libs/s3distcp/1.latest/s3distcp.jar \
--args '--src,s3://myawsbucket/logs/j-3GY8JC4179IOJ/node/,\
--dest,hdfs:///output,\
--srcPattern,.*daemons.*-hadoop-.*'
अभी भी जबकि distcp का उपयोग कर HDFS को S3 चलती कुछ त्रुटि हो रही है। मेरे मामले में मैं 40 या 50% चलने के बाद बहुत बड़ी फ़ाइल (300 जीबी से अधिक) को स्थानांतरित करने की कोशिश कर रहा हूं, यह शुरूआत शुरू नहीं होता है। कोई उपाय?? – rht