apache-spark

10गर्मी

1उत्तर

की मेट्रिक पीढ़ी का अनुकूलन यह है एक अनुकूलन सवाल है, यह मेरे वर्तमान (कार्य) स्थिति है: स्पार्क चिंगारी jobserver का उपयोग कर स्टैंड-अलोन मोड में चल रहा है; मेरे पास एक टेबल के रूप में मेमोरी में ~ 3

7गर्मी

2उत्तर

स्पार्क डेटाफ्रेम कैसे पिघलाएं?

क्या पीसपार्क में अपाचे स्पार्क में कम से कम पलास पिघल समारोह या कम से कम स्कैला में बराबर है? मैं अब तक पाइथन में एक नमूना डेटासेट चला रहा था और अब मैं पूरे डेटासेट के लिए स्पार्क का उपयोग करना चाहता

5गर्मी

2उत्तर

async-http-ग्राहक की वजह से स्पार्क में IllegalAccessError

प्रसंग: मैं एक स्पार्क स्ट्रीमिंग नौकरी कि InfluxDB में डेटा लिखता है, this library के प्रयोग पर काम कर रहा हूँ। पर्यावरण यहाँ है। स्काला 2.11.8 स्पार्क 2.1.0 (Dockerized स्टैंडअलोन क्लस्टर) प्रासंगिक

5गर्मी

2उत्तर

स्पार्क लकड़ी की छत सांख्यिकी (न्यूनतम/अधिकतम) एकीकरण

मैं देख रहा हूं कि कैसे स्पार्क स्टोर में आंकड़े (न्यूनतम/अधिकतम) के साथ-साथ यह क्वेरी अनुकूलन के लिए जानकारी का उपयोग कैसे करता है। मुझे कुछ प्रश्न हैं। पहला सेटअप: स्पार्क 2.1.0, निम्न 1000 पंक्तियो

6गर्मी

1उत्तर

स्पार्क डेटाफ्रेम

पर नेस्टेड कॉलम जोड़ना किसी भी नेस्टेड स्तर पर फ़ील्ड को फ़ील्ड में कैसे जोड़ या बदल सकता है? इस इनपुट: val rdd = sc.parallelize(Seq( """{"a": {"xX": 1,"XX": 2},"b": {"z": 0}}""", """{"a": {"

5गर्मी

1उत्तर

एक dataframe चिंगारी

मैं स्तंभ के बहुत lagre संख्या मैं वहाँ किया गया कम कॉलम, मैं चयन के लिए इस्तेमाल किया जा सकता था अगर एक नया dataframe पाने के लिए इसे से दो कॉलम निकालना चाहते हैं के साथ एक स्पार्क dataframe है से एक

12गर्मी

1उत्तर

स्पार्क आरडीडी

में आयोजित डेटा से साफ़ अमान्य वर्ण मेरे पास JSON फ़ाइलों से आयातित एक पाइस्पर्क आरडीडी है। डेटा तत्वों में कई मान होते हैं जिनमें वर्ण हैं जो वांछनीय नहीं हैं। तर्क के लिए केवल उन वर्ण जो स्ट्रिंग है

9गर्मी

1उत्तर

स्पार्क rdd.count() असंगत परिणाम पैदा करता है

मैं थोड़ी परेशान हूं। एक साधारण rdd.count() कई बार चलाने पर अलग-अलग परिणाम देता है। val inputRdd = sc.newAPIHadoopRDD(inputConfig, classOf[com.mongodb.hadoop.MongoInputFormat], classOf[Long], class

7गर्मी

1उत्तर

गिराने अपाचे स्पार्क में खाली DataFrame विभाजन

मैं एक columnm के अनुसार एक DataFrame के पुनर्विभाजन की कोशिश DataFrame है N विभिन्न मूल्यों विभाजन स्तंभ x में जैसे (N=3 मान लीजिए),: val myDF = sc.parallelize(Seq(1,1,2,2,3,3)).toDF("x") // create d

6गर्मी

1उत्तर

फ़िल्टर df जब मान pyspark

में स्ट्रिंग के हिस्से से मेल खाते हैं तो मेरे पास pyspark.sql.dataframe.DataFrame है और मैं सभी पंक्तियों को रखना चाहता हूं () सभी पंक्तियां जहां location कॉलम में सहेजा गया URL पूर्व-निर्धारित स्ट्र