2015-12-08 4 views
7

मैं Hadoop पर नया हूं और सोच रहा हूं कि InputFormatHadoop जैसे TextInputFormat में कितने प्रकार हैं? क्या कोई निश्चित InputFormat है जिसे मैं दूरस्थ डेटा सर्वर पर http अनुरोधों के माध्यम से फ़ाइलों को पढ़ने के लिए उपयोग कर सकता हूं?हडोप में कितने प्रकार के इनपुटफॉर्मेट हैं?

धन्यवाद :)

उत्तर

3

आपका पहला सवाल - कैसे InputFormat के कई प्रकार के इस तरह के TextInputFormat के रूप में Hadoop में देखते हैं?

  1. TextInputFormat - इससे पहले कि सीमांकक कुंजी है और बाकी मूल्य
  2. FixedLengthInputFormat है पहले मूल्य - - हर पंक्ति मूल्य
  3. KeyValueTextInputFormat रूप में माना जाएगा एन - प्रत्येक निश्चित लंबाई मूल्य मूल्य
  4. NLineInputFormat माना जाता है लाइनों की संख्या एक मूल्य/रिकॉर्ड
  5. SequenceFileInputFormat माना जाता है - द्विआधारी
के लिए

डेटाबेस से पढ़ने के लिए DBInputFormat भी

आपका दूसरा प्रश्न - http अनुरोधों के माध्यम से फ़ाइलों को पढ़ने के लिए कोई इनपुट प्रारूप नहीं है।

6

कई classes को लागू करने InputFormat

CombineFileInputFormat, CombineSequenceFileInputFormat, 
CombineTextInputFormat, CompositeInputFormat, DBInputFormat, 
FileInputFormat, FixedLengthInputFormat, KeyValueTextInputFormat, 
MultiFileInputFormat, NLineInputFormat, Parser.Node, 
SequenceFileAsBinaryInputFormat, SequenceFileAsTextInputFormat, 
SequenceFileInputFilter, SequenceFileInputFormat, TextInputFormat 

जब Inputformat किस प्रकार का उपयोग करने के लिए पर इस article पर एक नज़र डालें रहे हैं।

इनमें से सर्वाधिक उपयोग होने वाले formats हैं:

  • FileInputFormat: सभी फ़ाइल आधारित InputFormats
  • KeyValueTextInputFormat के लिए आधार वर्ग: सादा पाठ फ़ाइलों के लिए एक InputFormat। फाइलें लाइनों में टूट गई हैं। रेखा के सिग्नल को सिग्नल करने के लिए या तो लाइन फीड या कैरिज-रिटर्न का उपयोग किया जाता है। प्रत्येक पंक्ति को विभाजक बाइट द्वारा कुंजी और मूल्य भागों में विभाजित किया जाता है। यदि ऐसा कोई बाइट मौजूद नहीं है, तो कुंजी पूरी लाइन होगी और मान खाली होगा।
  • TextInputFormat: सादा पाठ फ़ाइलों के लिए एक इनपुटफॉर्मैट। फाइलें लाइनों में टूट गई हैं। लाइन के अंत को सिग्नल करने के लिए या तो लाइनफीड या कैरिज-रिटर्न का उपयोग किया जाता है। कुंजी फ़ाइल में स्थिति हैं, और मान टेक्स्ट की रेखा हैं ..
  • NLineInputFormat: NLineInputFormat जो इनपुट की एन लाइनों को एक विभाजन के रूप में विभाजित करता है। कई "सुखद" समांतर अनुप्रयोगों में, प्रत्येक प्रक्रिया/मैपर एक ही इनपुट फ़ाइल को संसाधित करता है, लेकिन गणना के साथ विभिन्न मानकों द्वारा नियंत्रित किया जाता है।
  • SequenceFileInputFormat: अनुक्रम फ़ाइल के लिए एक इनपुटफॉर्मैट।

दूसरी क्वेरी के संबंध में, फ़ाइलों को दूरस्थ servers से पहले प्राप्त करें और फ़ाइल में सामग्री के आधार पर उपयुक्त InputFileFormat का उपयोग करें। Hadoop डेटा इलाके के लिए सबसे अच्छा काम करता है।

+0

दूसरे प्रश्न के बारे में क्या? क्या इसका कोई समाधान है? – Trams

संबंधित मुद्दे