pyspark

5गर्मी

3उत्तर

में प्रोग्रामर के मेमोरी आकार को प्रोग्रामेटिक रूप से सेट करें स्टैंडअलोन स्क्रिप्ट लिखने के लिए, मैं सीधे पाइथन से स्पार्क संदर्भ को प्रारंभ और कॉन्फ़िगर करना चाहता हूं। PySpark की स्क्रिप्ट का उपयोग

9गर्मी

3उत्तर

स्पार्क डेटाफ्रेम में पंक्ति ऑब्जेक्ट से मूल्य कैसे प्राप्त करें?

averageCount = (wordCountsDF .groupBy().mean()).head() के लिए मैं Row(avg(count)=1.6666666666666667) मिल लेकिन जब मैं कोशिश: averageCount = (wordCountsDF .groupBy().mean()).head().ge

9गर्मी

2उत्तर

पायथन स्पार्क/यार्न मेमोरी उपयोग

मेरे पास स्पार्क पायथन एप्लिकेशन है जो स्मृति सीमा से अधिक के लिए यार्न द्वारा मारा जा रहा है। मेरे पास एक ऐसा कदम है जिसमें कुछ संसाधन लोड हो रहे हैं जो थोड़ा भारी (500+ एमबी) हैं, इसलिए मैं नक्शापार

5गर्मी

1उत्तर

डाइनेमो डीबी तालिका

में आइटम के रूप में स्पार्क डेटाफ्रेम पंक्तियां लिखें dynamoDB तालिका में एक नए आइटम के रूप में मेरे spark डेटाफ्रेम की प्रत्येक पंक्ति लिखने का कोई तरीका है? (pySpark में) मैं boto3 पुस्तकालय के साथ

5गर्मी

1उत्तर

pyspark

में spark.sql.parquet.output.committer.class को कैसे सेट करें मैं spark.sql.parquet.output.committer.class सेट करने की कोशिश कर रहा हूं और मुझे लगता है कि सेटिंग को प्रभावी होने के लिए कुछ भी नहीं लगत

5गर्मी

2उत्तर

पायस्पार्क मूल्यांकन

मैं निम्नलिखित कोड का प्रयास कर रहा हूं जो आरडीडी में प्रत्येक पंक्ति में एक संख्या जोड़ता है और पीईएसपीर्क का उपयोग करके आरडीडी की एक सूची देता है। from pyspark.context import SparkContext file = "f

5गर्मी

1उत्तर

स्पार्क स्ट्रीमिंग - प्रसंस्करण बाइनरी डेटा फ़ाइल

मैं pyspark 1.6.0 का उपयोग कर रहा हूँ। मेरे पास AWS S3 बाल्टी से बाइनरी डेटा फ़ाइल पढ़ने के लिए मौजूदा पाइस्पर्क कोड है। अन्य स्पार्क/पायथन कोड int, स्ट्रिंग, बूलियन आदि में कनवर्ट करने के लिए डेटा मे

5गर्मी

1उत्तर

स्पार्क में समान रूप से पुन: विभाजन कैसे करें?

परीक्षण करने के लिए कैसे .repartition() काम करता है, मैं निम्नलिखित कोड भाग गया: rdd = sc.parallelize(range(100)) rdd.getNumPartitions() rdd.getNumPartitions()4 में हुई। तब मैं भाग गया: rdd = rdd.r

5गर्मी

3उत्तर

Pyspark और Dataframes का उपयोग कर Elasticsearch अनुक्रमणिका से कैसे पूछें

एलिस्टिक्सएरच के दस्तावेज़ में केवल स्पार्क को एक पूर्ण अनुक्रमणिका लोड करना शामिल है। from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.read.format("org.elasticsearch.s

8गर्मी

2उत्तर

PySpark

में विस्फोट करना मैं डेटाफ्रेम से बदलना चाहता हूं जिसमें प्रत्येक शब्द के साथ डेटाफ्रेम में शब्दों की सूचियां शामिल हैं। मैं डेटाफ्रेम में कॉलम पर कैसे विस्फोट कर सकता हूं? यहां मेरे कुछ प्रयासों के स