सबसे पहले, मैं :)रनिंग HDFS में विशिष्ट फ़ाइलों/ब्लॉक पर मानचित्र-कम काम
मैं Gzipped फ़ाइलों के एक बड़े डेटा सेट (के आकार के चारों ओर Gzipped फ़ाइलों में दस्तावेजों की टीबीएस है Hadoop के लिए नया हूँ प्रत्येक 100-500 एमबी)।
असल में, मुझे अपने मानचित्र में मेरे इनपुट के कुछ प्रकार की फ़िल्टरिंग की आवश्यकता है-नौकरियों को कम करें।
मैं इन फ़ाइलों का विभिन्न तरीकों से विश्लेषण करना चाहता हूं। इन नौकरियों में से कई को केवल एक निश्चित प्रारूप की फ़ाइलों का विश्लेषण करने की आवश्यकता होती है (कुछ लंबाई, जिसमें कुछ शब्द आदि शामिल हैं - मनमानी (उलटा) इंडेक्स के सभी प्रकार), और प्रत्येक नौकरी के लिए पूरे डेटासेट को संसाधित करने में अनुचित रूप से लंबा लगता है। तो मैं इंडेक्स बनाना चाहता हूं जो एचडीएफएस में विशिष्ट ब्लॉक/फाइलों को इंगित करता है।
मैं आवश्यक इंडेक्स मैन्युअल रूप से उत्पन्न कर सकता हूं, लेकिन मैं मैपर्स में इनपुट के रूप में कौन सी (हजारों) विशिष्ट फाइल/ब्लॉक को संसाधित करना चाहता हूं, मैं कैसे निर्दिष्ट करूं? क्या मैं स्रोत डेटा को पढ़ने के बिना ऐसा कर सकता हूं उदा। HBase? क्या मैं चाहता हूँ या क्या मैं इस समस्या को पूरी तरह गलत कर रहा हूं?
तो अगर मैं सही ढंग से समझ रहा हूं, तो आप इनपुट पथ में फ़ाइलों के बसने को संसाधित करने का कोई तरीका ढूंढ रहे हैं? आप प्रोग्रामिंग के रूप में नौकरियां कैसे शुरू कर रहे हैं? – climbage
विभिन्न प्रारूपों (फ़ाइलों) के लिए अलग-अलग नौकरियों को चलाने के बजाए एचडीएफएस ब्लॉक को लक्षित करने से आप कैसे कार्य तेजी से कर सकते हैं? क्या आप अपना प्रश्न अधिक विस्तृत कर सकते हैं? –
बहुत अस्पष्ट होने के लिए खेद है। मैं अभी भी हडूप स्टैक में घर पर महसूस नहीं कर रहा हूं, इसलिए मुझे पता है कि मेरी शब्दावली और सोच का तरीका थोड़ा दूर है। निम्नलिखित उदाहरण यह समझाने में मदद कर सकता है कि मैं क्या हासिल करने की कोशिश कर रहा हूं: 1,000,000 फाइलें दी गईं, और एक इंडेक्स जो मुझे बताती है कि कौन सी 5,000 फाइलों में शब्द * धूप * है, एक मानचित्र-कम नौकरी चलाएं जो शब्दों वाले सभी दस्तावेजों का विश्लेषण करता है * धूप * । – jkgeyti