कई classes
को लागू करने InputFormat
CombineFileInputFormat, CombineSequenceFileInputFormat,
CombineTextInputFormat, CompositeInputFormat, DBInputFormat,
FileInputFormat, FixedLengthInputFormat, KeyValueTextInputFormat,
MultiFileInputFormat, NLineInputFormat, Parser.Node,
SequenceFileAsBinaryInputFormat, SequenceFileAsTextInputFormat,
SequenceFileInputFilter, SequenceFileInputFormat, TextInputFormat
जब Inputformat
किस प्रकार का उपयोग करने के लिए पर इस article पर एक नज़र डालें रहे हैं।
इनमें से सर्वाधिक उपयोग होने वाले formats
हैं:
FileInputFormat
: सभी फ़ाइल आधारित InputFormats
KeyValueTextInputFormat
के लिए आधार वर्ग: सादा पाठ फ़ाइलों के लिए एक InputFormat। फाइलें लाइनों में टूट गई हैं। रेखा के सिग्नल को सिग्नल करने के लिए या तो लाइन फीड या कैरिज-रिटर्न का उपयोग किया जाता है। प्रत्येक पंक्ति को विभाजक बाइट द्वारा कुंजी और मूल्य भागों में विभाजित किया जाता है। यदि ऐसा कोई बाइट मौजूद नहीं है, तो कुंजी पूरी लाइन होगी और मान खाली होगा।
TextInputFormat
: सादा पाठ फ़ाइलों के लिए एक इनपुटफॉर्मैट। फाइलें लाइनों में टूट गई हैं। लाइन के अंत को सिग्नल करने के लिए या तो लाइनफीड या कैरिज-रिटर्न का उपयोग किया जाता है। कुंजी फ़ाइल में स्थिति हैं, और मान टेक्स्ट की रेखा हैं ..
NLineInputFormat
: NLineInputFormat जो इनपुट की एन लाइनों को एक विभाजन के रूप में विभाजित करता है। कई "सुखद" समांतर अनुप्रयोगों में, प्रत्येक प्रक्रिया/मैपर एक ही इनपुट फ़ाइल को संसाधित करता है, लेकिन गणना के साथ विभिन्न मानकों द्वारा नियंत्रित किया जाता है।
SequenceFileInputFormat
: अनुक्रम फ़ाइल के लिए एक इनपुटफॉर्मैट।
दूसरी क्वेरी के संबंध में, फ़ाइलों को दूरस्थ servers
से पहले प्राप्त करें और फ़ाइल में सामग्री के आधार पर उपयुक्त InputFileFormat
का उपयोग करें। Hadoop
डेटा इलाके के लिए सबसे अच्छा काम करता है।
स्रोत
2015-12-08 06:42:42
दूसरे प्रश्न के बारे में क्या? क्या इसका कोई समाधान है? – Trams