मैं साथ sparklyr में 2GB ~ (5mi लाइनों) की एक .csv को पढ़ने के लिए कोशिश कर रहा हूँ: bigcsvspark <- spark_read_csv(sc, "bigtxt", "path",
delimiter = "!",
infer_schema = FALSE,
क्या किसी के पास स्पार्कर बनाम स्पार्कलीर के फायदे/नुकसान के संबंध में एक सिंहावलोकन है? Google कोई संतोषजनक परिणाम नहीं देता है और दोनों काफी समान दिखते हैं। दोनों को आजमाकर, स्पार्कआर बहुत अधिक बोझि
मैं अपने स्थानीय डेस्कटॉप RStudio सत्र को स्पार्कलीर के माध्यम से रिमोट स्पार्क सत्र में कनेक्ट करना चाहता हूं। जब आप RStudio में स्पार्कलीर ui टैब में एक नया कनेक्शन जोड़ने के लिए जाते हैं और क्लस्टर
निम्नलिखित उदाहरण में मैंने एक पैराक्वेट फ़ाइल लोड की है जिसमें meta फ़ील्ड में मानचित्र ऑब्जेक्ट्स का घोंसला वाला रिकॉर्ड शामिल है। sparklyr इनसे निपटने का अच्छा काम करता है। हालांकि tidyr::unnest SQ
मैं स्पार्क में एक बड़ा डेटाबेस spark_read_csv का उपयोग कर कॉपी करने के लिए कोशिश कर रहा हूँ, लेकिन मैं आउटपुट के रूप में निम्न त्रुटि हो रही है: Error: org.apache.spark.SparkException: Job aborted du