hdfs

    12गर्मी

    4उत्तर

    मैं क्लस्टर ssh का उपयोग कर से कनेक्ट हूं और मैं क्लस्टर का उपयोग कर spark-submit --master yarn myProgram.py मैं एक पाठ फ़ाइल में परिणाम सहेजना चाहते करने के लिए कार्यक्रम भेज सकते हैं और मैं उपयोग

    7गर्मी

    1उत्तर

    के माध्यम से मैं https://github.com/big-data-europe/docker-hadoop-spark-workbench स्थापित तब docker-compose up साथ इसे शुरू कर दिया है। मैंने the various urls mentioned in the git readme पर नेविगेट कि

    10गर्मी

    2उत्तर

    हम सभी जानते हैं कि स्पार्क स्मृति में गणना करता है। मैं अनुवर्ती पर उत्सुक हूँ। अगर मैं HDFS से मेरी pySpark खोल में 10 RDD बनाते हैं, तो इसका मतलब यह है कि इन सभी 10 RDD डेटा पर स्पार्क श्रमिक मेमोर

    5गर्मी

    1उत्तर

    में तालिका को फ्लश करने के लिए कैसे करें एचबीएफएस के रूप में अंतर्निहित डेटास्टोर के साथ एचबीएस (क्लाइंट में क्लाइंट के साथ क्लाइंट में एचबीएस 1.1.2 के रूप में) का उपयोग कर रहा हूं। मैंने निम्नलिखित क

    5गर्मी

    3उत्तर

    मैं एचडीएफएस (टेक्स्टफाइल) पर संग्रहीत डेटासेट को विश्लेषण के लिए हाइव में लोड करने की कोशिश कर रहा हूं। मैं इस प्रकार बाहरी तालिका बनाने का उपयोग कर रहा: CREATE EXTERNAL table myTable(field1 STRING..

    5गर्मी

    1उत्तर

    पर मौजूद फ़ाइल में किसी अन्य टेक्स्ट के साथ टेक्स्ट को कैसे प्रतिस्थापित करें मेरे पास यूनिक्स फ़ाइल सिस्टम में file.txt है। इसकी सामग्री है नीचे: [ {abc}]}, {pqr}]} ] मैं खोल स्क्रिप्ट नीचे का उ

    9गर्मी

    1उत्तर

    yarn.scheduler.maximum-allocation-mb और yarn.nodemanager.resource.memory-mb के बीच क्या अंतर है? मैं इन दोनों को yarn-site.xml में देखता हूं और मुझे स्पष्टीकरण here दिखाई देता है। yarn.scheduler.maxim

    6गर्मी

    1उत्तर

    से स्ट्रीम के रूप में फ़ाइल को पढ़ा गया है, मैं अपाचे स्पार्क जावा का उपयोग करके एचडीएफएस से स्ट्रीम के रूप में फ़ाइल कैसे पढ़ सकता हूं? मैं पूरी फ़ाइल नहीं पढ़ना चाहता, मैं कुछ शर्त मिलने पर फ़ाइल पढ

    6गर्मी

    1उत्तर

    में एक डिलीमीटर के साथ कई पंक्तियों को कंसैट करें, मुझे '~' को डिलीमीटर के रूप में स्ट्रिंग मानों को पंक्तिबद्ध करने की आवश्यकता है। मैं निम्नलिखित डेटा है: मैं परिसीमक के रूप में के साथ 'row_id' '~'

    5गर्मी

    1उत्तर

    मैं बनाया है pyspark संरचित स्ट्रीमिंग कार्यक्रम में% spark.pyspark दुभाषिया का उपयोग कर और टसेपेल्लिन नोटबुक में निष्पादित करने के लिए कोशिश करते हुए: %spark.pyspark query_window = windowedCounts \