pyspark

    12गर्मी

    8उत्तर

    पर सीएसवी प्राप्त करें मैं स्पार्क पर अजगर का उपयोग कर रहा हूं और डेटाफ्रेम में सीएसवी प्राप्त करना चाहता हूं। स्पार्क एसक्यूएल के लिए documentation अजीब तरह से स्रोत के रूप में सीएसवी के लिए स्पष्टीक

    5गर्मी

    1उत्तर

    के साथ pySpark डेटाफ्रेम एग्रीगेशन फ़ंक्शंस मैंने विज्ञान के कुर्टोसिस या numpy std जैसी चीजों को संभालने के लिए स्पार्क के 1.3 डेटाफ्रेम का उपयोग करने और उपयोग करने के लिए कुछ अलग परिदृश्यों की कोशिश

    5गर्मी

    3उत्तर

    मैं एक पाइथन फ़ाइल स्पार्क-सबमिट कर रहा हूं जो numpy आयात करता है लेकिन मुझे no module named numpy त्रुटि मिल रही है। $ spark-submit --py-files projects/other_requirements.egg projects/jobs/my_numpy_a

    8गर्मी

    1उत्तर

    मैं स्पार्क के लिए काफी नया हूं, वर्तमान में इसे पाइस्पार्क और स्पार्क-शैल के साथ खेलकर खोज रहा हूं। तो यहां स्थिति है, मैं पाइस्पर्क और स्पार्क-खोल के साथ समान स्पार्क नौकरियां चलाता हूं। यह pyspark

    20गर्मी

    4उत्तर

    >>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataF

    7गर्मी

    2उत्तर

    साथ interoperate करता रहा scala में नहीं लिखा हो अक्का प्रणाली कुछ Python कोड के लिए बाहर कॉल करने के लिए, Pandas और Numpy पर निर्भर की जरूरत है कि है, इसलिए मैं सिर्फ Jython का उपयोग नहीं कर सकते हैं

    7गर्मी

    2उत्तर

    में एवरो फ़ाइल को कैसे पढ़ा जाए, मैं अजगर का उपयोग कर स्पार्क नौकरी लिख रहा हूं। हालांकि, मुझे एवरो फाइलों के पूरे समूह में पढ़ने की जरूरत है। This स्पार्क के उदाहरण फ़ोल्डर में मैंने पाया सबसे नज़दीक

    6गर्मी

    2उत्तर

    मैं pyspark (अपाचे स्पार्क) की DataFrame एपीआई का उपयोग कर रहा हूँ और निम्नलिखित समस्या में चला रहा हूँ: जब मैं दो DataFrames कि एक ही स्रोत DataFrame, जिसके परिणामस्वरूप DF से ही शुरू में शामिल होने

    8गर्मी

    3उत्तर

    मैं उच्च-आयामी लकड़ी की छत फ़ाइलों में लोड कर रहा हूं लेकिन केवल कुछ कॉलम की आवश्यकता है। मेरे वर्तमान कोड लगता है: dat = sqc.parquetFile(path) \ .filter(lambda r: len(r.a)>0) \ .map(lam

    5गर्मी

    3उत्तर

    यह प्रश्न py4j से परिचित व्यक्तियों के लिए निर्देशित है - और एक पिकलिंग त्रुटि को हल करने में मदद कर सकता है। मैं pyspark पायथन XMLLibAPI को एक विधि जोड़ने की कोशिश कर रहा हूं जो नामित एक आरडीडी स्वीक