apache-spark

9गर्मी

2उत्तर

मैं एडब्ल्यूएस ईएमआर पर एक बहुत ही सरल स्पार्क नौकरी चला रहा हूं और मुझे मेरी स्क्रिप्ट से कोई लॉग आउटपुट नहीं मिल रहा है। मैं stderr करने के लिए मुद्रण के साथ की कोशिश की है: के रूप में दिखाया गया है

5गर्मी

1उत्तर

स्पार्क का int96 समय प्रकार

जब आप स्पार्क में टाइमस्टैम्प कॉलम बनाते हैं, और लकड़ी की छत पर सहेजते हैं, तो आपको 12 बाइट पूर्णांक कॉलम प्रकार (int96) मिलता है; मैं इकट्ठा करता हूं कि डेटा जूलियन दिवस के लिए 6-बाइट्स और दिन के भीत

5गर्मी

1उत्तर

स्पार्क स्ट्रक्चर स्ट्रक्चरफील्ड नाम यूडीएफ

में बदल रहे हैं मैं स्पार्क में udf में एक स्ट्रक्चर पास करने की कोशिश कर रहा हूं। यह फ़ील्ड नाम बदल रहा है और कॉलम स्थिति में नाम बदल रहा है। मैं इसे कैसे ठीक करूं? object TestCSV { def main(

9गर्मी

2उत्तर

स्पार्क

में एलडीए मॉडल की ऑनलाइन शिक्षा ऑनलाइन सीखने वाले फैशन में एलडीए मॉडल को प्रशिक्षित करने का कोई तरीका है यानी। पहले ट्रेन मॉडल लोड करना, और इसे नए दस्तावेज़ों के साथ अपडेट करना?

5गर्मी

3उत्तर

स्पार्क नोटबुक

में पुस्तकालयों को आयात करने के लिए मुझे स्पार्क नोटबुक में magellan-1.0.4-s_2.11 आयात करने में समस्या हो रही है। मैंने https://spark-packages.org/package/harsha2010/magellan से जार डाउनलोड किया है और

6गर्मी

3उत्तर

स्पार्ककॉन्टेक्स्ट सेट लोकलप्रॉपर्टीज

this question की निरंतरता के रूप में, क्या आप कृपया मुझे बता सकते हैं कि SparkContext.setLocalProperties से मैं कौन से गुण बदल सकता हूं? क्या मैं कोर, रैम इत्यादि बदल सकता हूं?

9गर्मी

1उत्तर

फीनिक्स

पर डेटाफ्रेम लिखें मैं फीनिक्स तालिका में डेटाफ्रेम लिखने की कोशिश कर रहा हूं लेकिन मुझे अपवाद मिल रहा है। यहाँ मेरी कोड है: df.write.format("org.apache.phoenix.spark").mode(SaveMode.Overwrite).option

8गर्मी

3उत्तर

स्ट्रक्चर टाइप/पंक्ति

के लिए स्पार्क यूडीएफ मेरे पास स्पार्क डेटाफ्रेम में "स्ट्रक्चर टाइप" कॉलम है जिसमें उप-फ़ील्ड के रूप में एक सरणी और स्ट्रिंग है। मैं सरणी को संशोधित करना चाहता हूं और उसी प्रकार के नए कॉलम को वापस कर

5गर्मी

3उत्तर

स्पार्क डेटाफ्रेम फ़िल्टर

val df = sc.parallelize(Seq((1,"Emailab"), (2,"Phoneab"), (3, "Faxab"),(4,"Mail"),(5,"Other"),(6,"MSL12"),(7,"MSL"),(8,"HCP"),(9,"HCP12"))).toDF("c1","c2") +---+-------+ | c1| c2| +---+-------+

10गर्मी

1उत्तर

कैशिंग स्पार्क DataFrame अवांछित काम

बनाता आदेश दिया मैं एक DataFrame करने के लिए एक RDD कनवर्ट करना चाहते हैं और RDD के परिणाम कैश करने के लिए करना चाहते हैं: from pyspark.sql import * from pyspark.sql.types import * import pyspark.sq