pyspark

13गर्मी

2उत्तर

मानचित्र को कॉल करने के बाद Pyspark EOFError

मैं & pyspark स्पार्क करने के लिए नया हूँ। मैं डेटाफ्रेम में एक छोटी सीएसवी फ़ाइल (~ 40k) पढ़ रहा हूं। from pyspark.sql import functions as F df = sqlContext.read.format('com.databricks.spark.csv').o

5गर्मी

2उत्तर

स्पार्क में कॉलम हेडर असाइन और उपयोग कैसे करें?

मैं नीचे एक डेटासेट पढ़ रहा हूं। f = sc.textFile("s3://test/abc.csv") मेरी फ़ाइल में 50+ फ़ील्ड हैं और मैं अपनी फ़ील्ड में बाद में संदर्भित करने के लिए प्रत्येक फ़ील्ड के लिए कॉलम हेडर असाइन करना चा

5गर्मी

2उत्तर

स्पार्क: उच्चतम टाइमस्टैम्प वाली पंक्ति

रखते हुए डेटाफ्रेम पर ड्रॉप ड्रॉप डुप्लिकेट कैसे करें मेरे पास एक ऐसा केस है जहां मुझे डेटाफ्रेम की डुप्लिकेट पंक्तियां छोड़नी होंगी (इस मामले में डुप्लिकेट का अर्थ है कि उनके पास एक ही 'आईडी' फ़ील्ड

5गर्मी

1उत्तर

के-फ़ोल्ड सत्यापन के लिए आरडीडी स्प्लिट: pyspark

मेरे पास एक डेटासेट है और मैं उस पर बेवकूफ बेय लागू करना चाहता हूं। मैं के-फ़ोल्ड तकनीक का उपयोग कर सत्यापन करूँगा। मेरे डेटा में दो वर्ग हैं और उन्होंने आदेश दिया है कि यदि मेरे डेटा सेट में 100 पंक्

13गर्मी

1उत्तर

स्पार्क कार्यक्रम अजीब परिणाम जब स्टैंडअलोन क्लस्टर

पर चलते थे देता है मैं इस चिंगारी कार्यक्रम है और मैं यह सिर्फ उचित भागों # Split by delimiter , # If the file is in unicode, we need to convert each value to a float in order to be able to # treat

6गर्मी

1उत्तर

स्पार्कएसक्यूएल पाइथन

का उपयोग कर MySQL डेटाबेस तालिका से पढ़ा गया है मेरे पास MySQL में 'उपयोगकर्ता' तालिका है। मैं इसे अपने स्पार्क एसक्यूएल प्रोग्राम में पढ़ना चाहता हूं। मैं Python का उपयोग कर अप्स स्पार्क के स्पार्कएस

8गर्मी

3उत्तर

(पीई) स्पार्क

में सभी डेटाफ्रेम को लगातार बनाए रखना मैं कई बिंदुओं के साथ एक स्पार्क एप्लिकेशन हूं जहां मैं वर्तमान स्थिति को जारी रखना चाहता हूं। यह आमतौर पर एक बड़े कदम के बाद होता है, या एक राज्य को कैशिंग करता

7गर्मी

1उत्तर

स्पार्क से MySQL

से कम जेडीबीसी लिखने की गति मुझे स्पार्क से डेटाफ्रेम से 1 लाख पंक्तियों को MySQL पर लिखने की आवश्यकता है लेकिन सम्मिलन बहुत धीमा है। मैं इसे कैसे सुधार सकता हूँ? नीचे कोड: df = sqlContext.createDataF

15गर्मी

1उत्तर

एक PySpark Dataframe

में विभिन्न कॉलम StringIndexer लागू मैं एक PySpark dataframe +-------+--------------+----+----+ |address| date|name|food| +-------+--------------+----+----+ |1111111|20151122045510| Yin|gre | |1

5गर्मी

1उत्तर

स्पार्क आरडीडी

में प्रत्येक कुंजी के लिए अधिकतम मान प्राप्त करें स्पार्क आरडीडी में प्रत्येक अद्वितीय कुंजी से जुड़ी अधिकतम पंक्ति (मान) को वापस करने का सबसे अच्छा तरीका क्या है? मैं अजगर का उपयोग कर रहा हूं और मैंन