apache-spark

    9गर्मी

    2उत्तर

    मैं एडब्ल्यूएस ईएमआर पर एक बहुत ही सरल स्पार्क नौकरी चला रहा हूं और मुझे मेरी स्क्रिप्ट से कोई लॉग आउटपुट नहीं मिल रहा है। मैं stderr करने के लिए मुद्रण के साथ की कोशिश की है: के रूप में दिखाया गया है

    5गर्मी

    1उत्तर

    जब आप स्पार्क में टाइमस्टैम्प कॉलम बनाते हैं, और लकड़ी की छत पर सहेजते हैं, तो आपको 12 बाइट पूर्णांक कॉलम प्रकार (int96) मिलता है; मैं इकट्ठा करता हूं कि डेटा जूलियन दिवस के लिए 6-बाइट्स और दिन के भीत

    5गर्मी

    1उत्तर

    में बदल रहे हैं मैं स्पार्क में udf में एक स्ट्रक्चर पास करने की कोशिश कर रहा हूं। यह फ़ील्ड नाम बदल रहा है और कॉलम स्थिति में नाम बदल रहा है। मैं इसे कैसे ठीक करूं? object TestCSV { def main(

    9गर्मी

    2उत्तर

    में एलडीए मॉडल की ऑनलाइन शिक्षा ऑनलाइन सीखने वाले फैशन में एलडीए मॉडल को प्रशिक्षित करने का कोई तरीका है यानी। पहले ट्रेन मॉडल लोड करना, और इसे नए दस्तावेज़ों के साथ अपडेट करना?

    5गर्मी

    3उत्तर

    में पुस्तकालयों को आयात करने के लिए मुझे स्पार्क नोटबुक में magellan-1.0.4-s_2.11 आयात करने में समस्या हो रही है। मैंने https://spark-packages.org/package/harsha2010/magellan से जार डाउनलोड किया है और

    6गर्मी

    3उत्तर

    this question की निरंतरता के रूप में, क्या आप कृपया मुझे बता सकते हैं कि SparkContext.setLocalProperties से मैं कौन से गुण बदल सकता हूं? क्या मैं कोर, रैम इत्यादि बदल सकता हूं?

    9गर्मी

    1उत्तर

    पर डेटाफ्रेम लिखें मैं फीनिक्स तालिका में डेटाफ्रेम लिखने की कोशिश कर रहा हूं लेकिन मुझे अपवाद मिल रहा है। यहाँ मेरी कोड है: df.write.format("org.apache.phoenix.spark").mode(SaveMode.Overwrite).option

    8गर्मी

    3उत्तर

    के लिए स्पार्क यूडीएफ मेरे पास स्पार्क डेटाफ्रेम में "स्ट्रक्चर टाइप" कॉलम है जिसमें उप-फ़ील्ड के रूप में एक सरणी और स्ट्रिंग है। मैं सरणी को संशोधित करना चाहता हूं और उसी प्रकार के नए कॉलम को वापस कर

    5गर्मी

    3उत्तर

    val df = sc.parallelize(Seq((1,"Emailab"), (2,"Phoneab"), (3, "Faxab"),(4,"Mail"),(5,"Other"),(6,"MSL12"),(7,"MSL"),(8,"HCP"),(9,"HCP12"))).toDF("c1","c2") +---+-------+ | c1| c2| +---+-------+

    10गर्मी

    1उत्तर

    बनाता आदेश दिया मैं एक DataFrame करने के लिए एक RDD कनवर्ट करना चाहते हैं और RDD के परिणाम कैश करने के लिए करना चाहते हैं: from pyspark.sql import * from pyspark.sql.types import * import pyspark.sq