अपाचे स्पार्क का उपयोग कर पीडीएफ/ऑडियो/वीडियो फ़ाइलों (असंगठित डेटा) को पढ़ना संभव है? उदाहरण के लिए, मेरे पास हजारों पीडीएफ चालान हैं और मैं उनसे डेटा पढ़ना चाहता हूं और उस पर कुछ विश्लेषण करना चाहता हूं। असंगठित डेटा को संसाधित करने के लिए मुझे क्या कदम उठाने चाहिए?अपाचे स्पार्क का उपयोग कर पीडीएफ/ऑडियो/वीडियो फ़ाइलों (असंगठित डेटा) को पढ़ना संभव है?
5
A
उत्तर
6
हां, यह है। बाइनरी प्रारूप में फ़ाइलों को लोड करने के लिए sparkContext.binaryFiles
का उपयोग करें और फिर किसी अन्य प्रारूप में मूल्य मैप करने के लिए map
का उपयोग करें - उदाहरण के लिए, अपाचे टिका या अपाचे पीओआई के साथ पार्स बाइनरी।
स्यूडोकोड:
val rawFile = sparkContext.binaryFiles(...
val ready = rawFile.map (here parsing with other framework
क्या महत्वपूर्ण है, पार्स अन्य ढांचे के साथ किया जाना चाहिए मेरा उत्तर में कि पहले उल्लेख किया है। नक्शा इनपुट स्ट्रीम को एक तर्क के रूप में मिलेगा
संबंधित मुद्दे
- 1. अपाचे स्पार्क
- 2. अपाचे स्पार्क
- 3. स्पार्क स्ट्रीमिंग का उपयोग कर कैसंद्रा से पढ़ना
- 4. अपाचे स्पार्क
- 5. अपाचे स्पार्क
- 6. अपाचे स्पार्क का उपयोग कर ओरेकल डेटाबेस में लिखना 1.4.0
- 7. अपाचे स्पार्क
- 8. अपाचे स्पार्क में अनुसंधान का उपयोग
- 9. अपाचे स्पार्क एचडीएफएस
- 10. अपाचे स्पार्क
- 11. अपाचे स्पार्क
- 12. अपाचे स्पार्क
- 13. अपाचे स्पार्क
- 14. अपाचे स्पार्क बनाम अपाचे स्पार्क 2
- 15. अपाचे स्पार्क
- 16. अपाचे स्पार्क
- 17. अपाचे स्पार्क
- 18. अपाचे स्पार्क स्ट्रीमिंग
- 19. सी # का उपयोग कर यूएसबी से डेटा पढ़ना?
- 20. क्या आर के साथ EXIF डेटा पढ़ना संभव है?
- 21. अपाचे स्पार्क बनाम अपाचे तूफान
- 22. अपाचे स्पार्क एएलएस सिफारिश
- 23. अपाचे स्पार्क एसक्यूएल
- 24. यार्न पर अपाचे स्पार्क: बड़ी मात्रा में इनपुट डेटा फ़ाइलों (स्पार्क में एकाधिक इनपुट फाइलों को गठबंधन करें)
- 25. अपाचे स्पार्क जावा
- 26. मेमोरी कैशिंग में अपाचे स्पार्क
- 27. अपाचे स्पार्क और अपाचे एपेक्स के बीच अंतर क्या है?
- 28. अपाचे स्पार्क आरडीडी
- 29. अपाचे स्पार्क स्ट्रीमिंग
- 30. अपाचे स्पार्क एमएलआईबीबी: पीएमएमएल
'पढ़ने पीडीएफ स्पार्क' के लिए खोज http://blog.cloudera.com/blog/2015/10/how-to-index-scanned-pdfs-at-scale-using- StackOverflow के लिए विषय बंद होने पर कम-से-50-लाइन-ऑफ-कोड/ –
ऑफ़-साइट संसाधन अनुशंसा। मैंने कुछ वर्कफ़्लो के साथ उत्तर दिया है, विवरण जो आपको स्वयं लागू करना होगा –