हडोप में कितने प्रकार के इनपुटफॉर्मेट हैं?

मैं Hadoop पर नया हूं और सोच रहा हूं कि InputFormatHadoop जैसे TextInputFormat में कितने प्रकार हैं? क्या कोई निश्चित InputFormat है जिसे मैं दूरस्थ डेटा सर्वर पर http अनुरोधों के माध्यम से फ़ाइलों को पढ़ने के लिए उपयोग कर सकता हूं?हडोप में कितने प्रकार के इनपुटफॉर्मेट हैं?

धन्यवाद :)

स्रोत

2015-12-08 Trams

आपका पहला सवाल - कैसे InputFormat के कई प्रकार के इस तरह के TextInputFormat के रूप में Hadoop में देखते हैं?

TextInputFormat - इससे पहले कि सीमांकक कुंजी है और बाकी मूल्य
FixedLengthInputFormat है पहले मूल्य - - हर पंक्ति मूल्य
KeyValueTextInputFormat रूप में माना जाएगा एन - प्रत्येक निश्चित लंबाई मूल्य मूल्य
NLineInputFormat माना जाता है लाइनों की संख्या एक मूल्य/रिकॉर्ड
SequenceFileInputFormat माना जाता है - द्विआधारी

के लिए

डेटाबेस से पढ़ने के लिए DBInputFormat भी

आपका दूसरा प्रश्न - http अनुरोधों के माध्यम से फ़ाइलों को पढ़ने के लिए कोई इनपुट प्रारूप नहीं है।

स्रोत

2015-12-08 04:04:57

कई classes को लागू करने InputFormat

CombineFileInputFormat, CombineSequenceFileInputFormat, 
CombineTextInputFormat, CompositeInputFormat, DBInputFormat, 
FileInputFormat, FixedLengthInputFormat, KeyValueTextInputFormat, 
MultiFileInputFormat, NLineInputFormat, Parser.Node, 
SequenceFileAsBinaryInputFormat, SequenceFileAsTextInputFormat, 
SequenceFileInputFilter, SequenceFileInputFormat, TextInputFormat

जब Inputformat किस प्रकार का उपयोग करने के लिए पर इस article पर एक नज़र डालें रहे हैं।

इनमें से सर्वाधिक उपयोग होने वाले formats हैं:

FileInputFormat: सभी फ़ाइल आधारित InputFormats
KeyValueTextInputFormat के लिए आधार वर्ग: सादा पाठ फ़ाइलों के लिए एक InputFormat। फाइलें लाइनों में टूट गई हैं। रेखा के सिग्नल को सिग्नल करने के लिए या तो लाइन फीड या कैरिज-रिटर्न का उपयोग किया जाता है। प्रत्येक पंक्ति को विभाजक बाइट द्वारा कुंजी और मूल्य भागों में विभाजित किया जाता है। यदि ऐसा कोई बाइट मौजूद नहीं है, तो कुंजी पूरी लाइन होगी और मान खाली होगा।
TextInputFormat: सादा पाठ फ़ाइलों के लिए एक इनपुटफॉर्मैट। फाइलें लाइनों में टूट गई हैं। लाइन के अंत को सिग्नल करने के लिए या तो लाइनफीड या कैरिज-रिटर्न का उपयोग किया जाता है। कुंजी फ़ाइल में स्थिति हैं, और मान टेक्स्ट की रेखा हैं ..
NLineInputFormat: NLineInputFormat जो इनपुट की एन लाइनों को एक विभाजन के रूप में विभाजित करता है। कई "सुखद" समांतर अनुप्रयोगों में, प्रत्येक प्रक्रिया/मैपर एक ही इनपुट फ़ाइल को संसाधित करता है, लेकिन गणना के साथ विभिन्न मानकों द्वारा नियंत्रित किया जाता है।
SequenceFileInputFormat: अनुक्रम फ़ाइल के लिए एक इनपुटफॉर्मैट।

दूसरी क्वेरी के संबंध में, फ़ाइलों को दूरस्थ servers से पहले प्राप्त करें और फ़ाइल में सामग्री के आधार पर उपयुक्त InputFileFormat का उपयोग करें। Hadoop डेटा इलाके के लिए सबसे अच्छा काम करता है।

स्रोत

2015-12-08 06:42:42

दूसरे प्रश्न के बारे में क्या? क्या इसका कोई समाधान है? – Trams

हडोप में कितने प्रकार के इनपुटफॉर्मेट हैं?

उत्तर

संबंधित मुद्दे