pyspark

    15गर्मी

    1उत्तर

    मैं कॉलम की लंबाई से संबंधित स्थिति का उपयोग करके DataFrame फ़िल्टर करना चाहता हूं, यह प्रश्न बहुत आसान हो सकता है लेकिन मुझे SO में कोई संबंधित प्रश्न नहीं मिला। अधिक विशिष्ट, मैं केवल एक Column के स

    5गर्मी

    2उत्तर

    मैं एक मान से समूह करना चाहता हूं और फिर प्रत्येक समूह में pieSpark का उपयोग करके अधिकतम मान पाता हूं। मेरे पास निम्न कोड है लेकिन अब मैं अधिकतम मूल्य निकालने के तरीके पर थोड़ा फंस गया हूं। # some fil

    9गर्मी

    1उत्तर

    हाय मैं निम्नलिखित मुद्दा है: numeric.registerTempTable("numeric"). सभी मान मैं पर फ़िल्टर करना चाहते हैं शाब्दिक अशक्त तार और न एन/ए या अशक्त मान हैं। मैं इन तीन विकल्पों की कोशिश की: numeric_filte

    5गर्मी

    1उत्तर

    मैं सिर्फ इन comand चलाने खिड़कियों में `first` या` take` विधि: >>> lines.first() 15/11/18 17:33:35 INFO SparkContext: Starting job: runJob at PythonRDD.scala:393 15/11/18 17:33:35 INFO DA

    5गर्मी

    1उत्तर

    में बफर के साथ RDD इकट्ठा मैं एक बार (या छोटे समूहों में) पर मेरे RDD एक से पंक्तियों को वापस करने के लिए इतना है कि मैं के रूप में मैं उन्हें जरूरत पंक्तियों स्थानीय रूप से एकत्र कर सकते हैं एक तरह स

    8गर्मी

    3उत्तर

    मैं एनाकोंडा के साथ pyspark आयात और उपयोग करने की कोशिश कर रहा हूं। चिंगारी स्थापित करने, और स्थापित करने $SPARK_HOME चर के बाद मैंने कोशिश की: $ pip install pyspark यह (बेशक) काम नहीं करेगा क्योंकि

    14गर्मी

    2उत्तर

    मैं अभी इन दो अवधारणाओं के माध्यम से काम कर रहा हूं और कुछ स्पष्टता चाहूंगा। कमांड लाइन के माध्यम से काम करने से, मैं मतभेदों की पहचान करने की कोशिश कर रहा हूं और जब कोई डेवलपर पुनर्गठन बनाम विभाजन का

    5गर्मी

    1उत्तर

    दोनों "स्पार्क-शैल" या "पिसपार्क" गोले में, मैंने कई आरडीडी बनाए लेकिन मुझे कोई रास्ता नहीं मिला जिसके माध्यम से मैं स्पार्क शैल के अपने वर्तमान सत्र में सभी उपलब्ध आरडीडी सूचीबद्ध कर सकता हूं?

    5गर्मी

    2उत्तर

    This page मुझे प्रेरणादायक था Pyspark में csv फ़ाइल को पढ़ने के लिए चिंगारी से सीएसवी आज़माने के लिए मैं spark-csv का उपयोग कैसे करें लेकिन मैं कर रहा हूँ का वर्णन इस तरह के this के रूप में पदों की एक

    44गर्मी

    6उत्तर

    मैं पांडा पृष्ठभूमि से आते हैं और एक dataframe में CSV फ़ाइलों से डाटा पढ़ने और फिर बस सरल आदेश का उपयोग करने के लिए कुछ उपयोगी कॉलम के नाम बदल करने के लिए इस्तेमाल कर रहा हूँ: df.columns = new_column