hdfs

12गर्मी

4उत्तर

मैं क्लस्टर ssh का उपयोग कर से कनेक्ट हूं और मैं क्लस्टर का उपयोग कर spark-submit --master yarn myProgram.py मैं एक पाठ फ़ाइल में परिणाम सहेजना चाहते करने के लिए कार्यक्रम भेज सकते हैं और मैं उपयोग

7गर्मी

1उत्तर

डोकर-Hadoop-चिंगारी से एक्सेस करना HDFS - कार्यक्षेत्र टसेपेल्लिन

के माध्यम से मैं https://github.com/big-data-europe/docker-hadoop-spark-workbench स्थापित तब docker-compose up साथ इसे शुरू कर दिया है। मैंने the various urls mentioned in the git readme पर नेविगेट कि

10गर्मी

2उत्तर

स्पार्क आरडीडी - हमेशा राम में विभाजन है?

हम सभी जानते हैं कि स्पार्क स्मृति में गणना करता है। मैं अनुवर्ती पर उत्सुक हूँ। अगर मैं HDFS से मेरी pySpark खोल में 10 RDD बनाते हैं, तो इसका मतलब यह है कि इन सभी 10 RDD डेटा पर स्पार्क श्रमिक मेमोर

5गर्मी

1उत्तर

एचबीएएस

में तालिका को फ्लश करने के लिए कैसे करें एचबीएफएस के रूप में अंतर्निहित डेटास्टोर के साथ एचबीएस (क्लाइंट में क्लाइंट के साथ क्लाइंट में एचबीएस 1.1.2 के रूप में) का उपयोग कर रहा हूं। मैंने निम्नलिखित क

5गर्मी

3उत्तर

हाइव बाहरी तालिका को लेखन पहुंच की आवश्यकता है

मैं एचडीएफएस (टेक्स्टफाइल) पर संग्रहीत डेटासेट को विश्लेषण के लिए हाइव में लोड करने की कोशिश कर रहा हूं। मैं इस प्रकार बाहरी तालिका बनाने का उपयोग कर रहा: CREATE EXTERNAL table myTable(field1 STRING..

5गर्मी

1उत्तर

एचडीएफएस

पर मौजूद फ़ाइल में किसी अन्य टेक्स्ट के साथ टेक्स्ट को कैसे प्रतिस्थापित करें मेरे पास यूनिक्स फ़ाइल सिस्टम में file.txt है। इसकी सामग्री है नीचे: [ {abc}]}, {pqr}]} ] मैं खोल स्क्रिप्ट नीचे का उ

9गर्मी

1उत्तर

`yarn.scheduler.maximum-allocation-mb` और` yarn.nodemanager.resource.memory-mb` के बीच अंतर?

yarn.scheduler.maximum-allocation-mb और yarn.nodemanager.resource.memory-mb के बीच क्या अंतर है? मैं इन दोनों को yarn-site.xml में देखता हूं और मुझे स्पष्टीकरण here दिखाई देता है। yarn.scheduler.maxim

6गर्मी

1उत्तर

अपाचे स्पार्क एचडीएफएस

से स्ट्रीम के रूप में फ़ाइल को पढ़ा गया है, मैं अपाचे स्पार्क जावा का उपयोग करके एचडीएफएस से स्ट्रीम के रूप में फ़ाइल कैसे पढ़ सकता हूं? मैं पूरी फ़ाइल नहीं पढ़ना चाहता, मैं कुछ शर्त मिलने पर फ़ाइल पढ

6गर्मी

1उत्तर

हाइव

में एक डिलीमीटर के साथ कई पंक्तियों को कंसैट करें, मुझे '~' को डिलीमीटर के रूप में स्ट्रिंग मानों को पंक्तिबद्ध करने की आवश्यकता है। मैं निम्नलिखित डेटा है: मैं परिसीमक के रूप में के साथ 'row_id' '~'

5गर्मी

1उत्तर

अनुमति अस्वीकृत: उपयोगकर्ता = टसेपेल्लिन एडब्ल्यूएस ईएमआर क्लस्टर

मैं बनाया है pyspark संरचित स्ट्रीमिंग कार्यक्रम में% spark.pyspark दुभाषिया का उपयोग कर और टसेपेल्लिन नोटबुक में निष्पादित करने के लिए कोशिश करते हुए: %spark.pyspark query_window = windowedCounts \