pyspark

    13गर्मी

    2उत्तर

    मैं & pyspark स्पार्क करने के लिए नया हूँ। मैं डेटाफ्रेम में एक छोटी सीएसवी फ़ाइल (~ 40k) पढ़ रहा हूं। from pyspark.sql import functions as F df = sqlContext.read.format('com.databricks.spark.csv').o

    5गर्मी

    2उत्तर

    मैं नीचे एक डेटासेट पढ़ रहा हूं। f = sc.textFile("s3://test/abc.csv") मेरी फ़ाइल में 50+ फ़ील्ड हैं और मैं अपनी फ़ील्ड में बाद में संदर्भित करने के लिए प्रत्येक फ़ील्ड के लिए कॉलम हेडर असाइन करना चा

    5गर्मी

    2उत्तर

    रखते हुए डेटाफ्रेम पर ड्रॉप ड्रॉप डुप्लिकेट कैसे करें मेरे पास एक ऐसा केस है जहां मुझे डेटाफ्रेम की डुप्लिकेट पंक्तियां छोड़नी होंगी (इस मामले में डुप्लिकेट का अर्थ है कि उनके पास एक ही 'आईडी' फ़ील्ड

    5गर्मी

    1उत्तर

    मेरे पास एक डेटासेट है और मैं उस पर बेवकूफ बेय लागू करना चाहता हूं। मैं के-फ़ोल्ड तकनीक का उपयोग कर सत्यापन करूँगा। मेरे डेटा में दो वर्ग हैं और उन्होंने आदेश दिया है कि यदि मेरे डेटा सेट में 100 पंक्

    13गर्मी

    1उत्तर

    पर चलते थे देता है मैं इस चिंगारी कार्यक्रम है और मैं यह सिर्फ उचित भागों # Split by delimiter , # If the file is in unicode, we need to convert each value to a float in order to be able to # treat

    6गर्मी

    1उत्तर

    का उपयोग कर MySQL डेटाबेस तालिका से पढ़ा गया है मेरे पास MySQL में 'उपयोगकर्ता' तालिका है। मैं इसे अपने स्पार्क एसक्यूएल प्रोग्राम में पढ़ना चाहता हूं। मैं Python का उपयोग कर अप्स स्पार्क के स्पार्कएस

    8गर्मी

    3उत्तर

    में सभी डेटाफ्रेम को लगातार बनाए रखना मैं कई बिंदुओं के साथ एक स्पार्क एप्लिकेशन हूं जहां मैं वर्तमान स्थिति को जारी रखना चाहता हूं। यह आमतौर पर एक बड़े कदम के बाद होता है, या एक राज्य को कैशिंग करता

    7गर्मी

    1उत्तर

    से कम जेडीबीसी लिखने की गति मुझे स्पार्क से डेटाफ्रेम से 1 लाख पंक्तियों को MySQL पर लिखने की आवश्यकता है लेकिन सम्मिलन बहुत धीमा है। मैं इसे कैसे सुधार सकता हूँ? नीचे कोड: df = sqlContext.createDataF

    15गर्मी

    1उत्तर

    में विभिन्न कॉलम StringIndexer लागू मैं एक PySpark dataframe +-------+--------------+----+----+ |address| date|name|food| +-------+--------------+----+----+ |1111111|20151122045510| Yin|gre | |1

    5गर्मी

    1उत्तर

    में प्रत्येक कुंजी के लिए अधिकतम मान प्राप्त करें स्पार्क आरडीडी में प्रत्येक अद्वितीय कुंजी से जुड़ी अधिकतम पंक्ति (मान) को वापस करने का सबसे अच्छा तरीका क्या है? मैं अजगर का उपयोग कर रहा हूं और मैंन