डाउनलोड किया चिंगारी के साथ स्पार्क का निर्माण करना चाहिए 1.5.0 पहले से बने हैं और इस सरल कोड pyspark के माध्यम से चलाने केहाइव (चिंगारी 1.5.0)
from pyspark.sql import Row
l = [('Alice', 1)]
sqlContext.createDataFrame(l).collect
पैदावार त्रुटि:
15/09/30 06:48:48 INFO Datastore: The class "org.apache.hadoop.hive.metastore.model.MResourceUri" is tagged as "embedded-only" so do
es not have its own datastore table.
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "c:\bigdata\spark-1.5\spark-1.5.0\python\pyspark\sql\context.py", line 408, in createDataFrame
jdf = self._ssql_ctx.applySchemaToPythonRDD(jrdd.rdd(), schema.json())
File "c:\bigdata\spark-1.5\spark-1.5.0\python\pyspark\sql\context.py", line 660, in _ssql_ctx
"build/sbt assembly", e)
Exception: ("You must build Spark with Hive. Export 'SPARK_HIVE=true' and run build/sbt assembly", Py4JJavaError(u'An error occurred
while calling None.org.apache.spark.sql.hive.HiveContext.\n', JavaObject id=o28))
तो संकलित करने के लिए करने की कोशिश की यह अपने आप
c:\bigdata\spark-1.5\spark-1.5.0>.\build\apache-maven-3.3.3\bin\mvn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests -Phive -Phive-t
hriftserver साफ पैकेज
लेकिन अभी भी संकलित संस्करण पर एक ही त्रुटि मिलती है।
कोई सुझाव?
आप SqlContext आयात करने के लिए भूल गया आयात करने के बाद इन लाइन जोड़ने और इसे आप) 'sqlContext._get_hive_ctx (चलाने के लिए कोशिश कर सकते हैं' और लॉग आप बस मिल को देखो चिंगारी प्रसंग – Eliethesaiyan
रैप करने के लिए है बाद। शायद आपको वहां कुछ ऐसा मिलेगा जो आपको सही दिशा में इंगित करता है (मेरे लिए यह अस्थायी डर्बी डेटाबेस को शुरू करने की कोशिश कर रहे दो समवर्ती पाइस्पर्क अनुप्रयोगों में एक समस्या थी)। –