pyspark

15गर्मी

1उत्तर

कॉलम की लंबाई का उपयोग कर डेटाफ्रेम फ़िल्टर करना

मैं कॉलम की लंबाई से संबंधित स्थिति का उपयोग करके DataFrame फ़िल्टर करना चाहता हूं, यह प्रश्न बहुत आसान हो सकता है लेकिन मुझे SO में कोई संबंधित प्रश्न नहीं मिला। अधिक विशिष्ट, मैं केवल एक Column के स

5गर्मी

2उत्तर

pyspark: grouby और उसके बाद प्रत्येक समूह का अधिकतम मान

मैं एक मान से समूह करना चाहता हूं और फिर प्रत्येक समूह में pieSpark का उपयोग करके अधिकतम मान पाता हूं। मेरे पास निम्न कोड है लेकिन अब मैं अधिकतम मूल्य निकालने के तरीके पर थोड़ा फंस गया हूं। # some fil

9गर्मी

1उत्तर

Sparksql फिल्टरिंग (साथ का चयन जहां खंड) कई शर्तों के साथ

हाय मैं निम्नलिखित मुद्दा है: numeric.registerTempTable("numeric"). सभी मान मैं पर फ़िल्टर करना चाहते हैं शाब्दिक अशक्त तार और न एन/ए या अशक्त मान हैं। मैं इन तीन विकल्पों की कोशिश की: numeric_filte

5गर्मी

1उत्तर

pyspark दुर्घटना जब मैं चलाने के 7

मैं सिर्फ इन comand चलाने खिड़कियों में `first` या` take` विधि: >>> lines.first() 15/11/18 17:33:35 INFO SparkContext: Starting job: runJob at PythonRDD.scala:393 15/11/18 17:33:35 INFO DA

5गर्मी

1उत्तर

pyspark

में बफर के साथ RDD इकट्ठा मैं एक बार (या छोटे समूहों में) पर मेरे RDD एक से पंक्तियों को वापस करने के लिए इतना है कि मैं के रूप में मैं उन्हें जरूरत पंक्तियों स्थानीय रूप से एकत्र कर सकते हैं एक तरह स

8गर्मी

3उत्तर

एनाकोंडा में pyspark आयात करने के लिए कैसे करें

मैं एनाकोंडा के साथ pyspark आयात और उपयोग करने की कोशिश कर रहा हूं। चिंगारी स्थापित करने, और स्थापित करने $SPARK_HOME चर के बाद मैंने कोशिश की: $ pip install pyspark यह (बेशक) काम नहीं करेगा क्योंकि

14गर्मी

2उत्तर

Pyspark: पुनर्गठन बनाम विभाजन

मैं अभी इन दो अवधारणाओं के माध्यम से काम कर रहा हूं और कुछ स्पष्टता चाहूंगा। कमांड लाइन के माध्यम से काम करने से, मैं मतभेदों की पहचान करने की कोशिश कर रहा हूं और जब कोई डेवलपर पुनर्गठन बनाम विभाजन का

5गर्मी

1उत्तर

स्पार्क खोल में परिभाषित आरडीडी की सूची कैसे करें?

दोनों "स्पार्क-शैल" या "पिसपार्क" गोले में, मैंने कई आरडीडी बनाए लेकिन मुझे कोई रास्ता नहीं मिला जिसके माध्यम से मैं स्पार्क शैल के अपने वर्तमान सत्र में सभी उपलब्ध आरडीडी सूचीबद्ध कर सकता हूं?

5गर्मी

2उत्तर

कैसे IPython नोटबुक में जार dependenices लोड करने के लिए

This page मुझे प्रेरणादायक था Pyspark में csv फ़ाइल को पढ़ने के लिए चिंगारी से सीएसवी आज़माने के लिए मैं spark-csv का उपयोग कैसे करें लेकिन मैं कर रहा हूँ का वर्णन इस तरह के this के रूप में पदों की एक

44गर्मी

6उत्तर

pyspark में डेटाफ्रेम कॉलम नाम कैसे बदलें?

मैं पांडा पृष्ठभूमि से आते हैं और एक dataframe में CSV फ़ाइलों से डाटा पढ़ने और फिर बस सरल आदेश का उपयोग करने के लिए कुछ उपयोगी कॉलम के नाम बदल करने के लिए इस्तेमाल कर रहा हूँ: df.columns = new_column