मैं एक साधारण सीएसवी फ़ाइल से स्पार्क डेटासेट बनाना चाहता हूं।एक CSV फ़ाइल से स्पार्क डेटासेट बनाएं
var location = "s3a://path_to_csv"
case class City(name: String, state: String, number_of_people: Long)
val cities = spark.read
.option("header", "true")
.option("charset", "UTF8")
.option("delimiter",",")
.csv(location)
.as[City]
त्रुटि संदेश यह: "नहीं किया जा सकता ऊपर स्ट्रिंग से number_of_people
डाली के रूप में यह हो सकता है BigInt को
name,state,number_of_people,coolness_index
trenton,nj,"10","4.5"
bedford,ny,"20","3.3"
patterson,nj,"30","2.2"
camden,nj,"40","8.8"
यहाँ डेटासेट बनाने के लिए कोड है: यहाँ CSV फ़ाइल की सामग्री हैं truncate "
डाटाबेस डेटासेट बनाने और this blog post में यह विशेष त्रुटि संदेश बनाने के बारे में बात करता है।
इनकोडर्स बेसब्री से जाँच करें कि आपके डेटा उपयोगी त्रुटि संदेश उपलब्ध कराने की उम्मीद स्कीमा, से मेल खाता है इससे पहले कि आप डेटा के गलत तरीके से प्रक्रिया टीबीएस करने का प्रयास। उदाहरण के लिए, यदि हम बहुत कम डेटाटाइप का उपयोग करने का प्रयास करते हैं, तो किसी ऑब्जेक्ट में रूपांतरण के परिणामस्वरूप ट्रंकेशन (यानी numStudents बाइट से बड़ा होता है, जिसमें अधिकतम 255 का मान होता है) विश्लेषक एक उत्सर्जित करेगा AnalysisException।
मैं Long
प्रकार का उपयोग कर रहा है, इसलिए मैं इस त्रुटि संदेश देखने की उम्मीद नहीं की थी।