2017-07-03 14 views
5

अपाचे स्पार्क का उपयोग कर पीडीएफ/ऑडियो/वीडियो फ़ाइलों (असंगठित डेटा) को पढ़ना संभव है? उदाहरण के लिए, मेरे पास हजारों पीडीएफ चालान हैं और मैं उनसे डेटा पढ़ना चाहता हूं और उस पर कुछ विश्लेषण करना चाहता हूं। असंगठित डेटा को संसाधित करने के लिए मुझे क्या कदम उठाने चाहिए?अपाचे स्पार्क का उपयोग कर पीडीएफ/ऑडियो/वीडियो फ़ाइलों (असंगठित डेटा) को पढ़ना संभव है?

+1

'पढ़ने पीडीएफ स्पार्क' के लिए खोज http://blog.cloudera.com/blog/2015/10/how-to-index-scanned-pdfs-at-scale-using- StackOverflow के लिए विषय बंद होने पर कम-से-50-लाइन-ऑफ-कोड/ –

+1

ऑफ़-साइट संसाधन अनुशंसा। मैंने कुछ वर्कफ़्लो के साथ उत्तर दिया है, विवरण जो आपको स्वयं लागू करना होगा –

उत्तर

6

हां, यह है। बाइनरी प्रारूप में फ़ाइलों को लोड करने के लिए sparkContext.binaryFiles का उपयोग करें और फिर किसी अन्य प्रारूप में मूल्य मैप करने के लिए map का उपयोग करें - उदाहरण के लिए, अपाचे टिका या अपाचे पीओआई के साथ पार्स बाइनरी।

स्यूडोकोड:

val rawFile = sparkContext.binaryFiles(... 
val ready = rawFile.map (here parsing with other framework 

क्या महत्वपूर्ण है, पार्स अन्य ढांचे के साथ किया जाना चाहिए मेरा उत्तर में कि पहले उल्लेख किया है। नक्शा इनपुट स्ट्रीम को एक तर्क के रूप में मिलेगा

संबंधित मुद्दे