सिंहावलोकन और गहराई से जानकारी के लिए, आप documentation का उल्लेख कर सकते। प्रलेखन से उद्धरण, "स्पार्कलीर पैकेज एक पूर्ण dplyr बैकएंड प्रदान करता है"। यह दर्शाता है कि स्पार्कलीर मूल अपाचे स्पार्क के प्रतिस्थापन लेकिन इसके लिए एक विस्तार है।
एक निरंतर कंप्यूटर पर इसकी स्थापना (मैं एक विंडोज उपयोगकर्ता हूं) के बारे में बात करना जारी रखता हूं, आपको या तो नए RStudio पूर्वावलोकन संस्करण को डाउनलोड और स्थापित करने की आवश्यकता होगी या अन्यथा RStudio shell,
में निम्न श्रृंखलाओं को निष्पादित करने की आवश्यकता होगी
> devtools::install_github("rstudio/sparklyr")
readr स्थापित करने और संकुल को पचाने अगर तुम उन्हें स्थापित नहीं है।
install.packages("readr")
install.packages("digest")
library(sparklyr)
spark_install(version = "1.6.2")`
पैकेज स्थापित होने के बाद और आप कनेक्टिंग का उपयोग कर स्पार्क के स्थानीय उदाहरण से कनेक्ट करने का प्रयास करते हैं;
sc <- spark_connect(master = "local")
आपको एक त्रुटि
Created default hadoop bin directory under: C:\spark-1.6.2\tmp\hadoop Error:
जैसे विंडोज पर स्पार्क को चलाने के लिए देख सकते हैं आप Hadoop winutils.exe की एक प्रति की जरूरत है:
- डाउनलोड Hadoop winutils.exe from
- सी के लिए winutils.exe कॉपी करें: \ स्पार्क-1.6.2 \ tmp \ hadoop \ bin
वैकल्पिक रूप से, यदि आप RStudio का उपयोग कर रहे हैं तो आप RStudio Preview Release इंस्टॉल कर सकते हैं जिसमें Hadoop winutils.exe की एक एम्बेडेड प्रति शामिल है।
त्रुटि समाधान आपको दिया गया है। Github खाते पर जाएं, winutils.exe फ़ाइल डाउनलोड करें और इसे स्थान पर सहेजें, C:\spark-1.6.2\tmp\hadoop\bin
और फिर स्पार्क संदर्भ बनाने का प्रयास करें। पिछले साल मैंने अपने blog पर इंस्टॉलेशन का विवरण देने और विंडोज वातावरण पर स्पार्कआर के साथ काम करने पर एक व्यापक पोस्ट प्रकाशित किया था।
यह कहकर, मैं सामान्य RStudio पर स्पार्क के स्थानीय उदाहरण को स्थापित करने के इस दर्दनाक रास्ते से नहीं जाने की सलाह दूंगा, बल्कि RStudio Preview संस्करण को आजमाएं। यह आपको स्पार्ककोनटेक्स्ट बनाने की परेशानी को बहुत बचाएगा। आगे बढ़ते हुए, स्पार्कलीर का उपयोग R-bloggers पर कैसे किया जा सकता है, इस पर एक विस्तृत पोस्ट है।
मुझे उम्मीद है कि इससे मदद मिलती है।
चीयर्स।
स्पार्कलीर का आपका लिंक गलत है। होना चाहिए: http://spark.rstudio.com/ – stepthom
'0.6' अब मनमाना समानांतर कोड निष्पादन का समर्थन करता है। –