2012-05-27 13 views
5

डेटा पढ़ने और जोड़ने के बाद मैंने हाल ही में अपाचे नच को देखना शुरू कर दिया। मैं नच के साथ अपनी रुचि के वेब पृष्ठों को क्रॉल करने और सक्षम करने में सक्षम हो सकता था। मुझे इस डेटा को पढ़ने के तरीके पर काफी समझ नहीं है। मैं मूल रूप से प्रत्येक पृष्ठ के डेटा को कुछ मेटाडेटा (अब के लिए कुछ यादृच्छिक डेटा) से जोड़ना चाहता हूं और उन्हें स्थानीय रूप से स्टोर करना चाहता हूं जिसे बाद में खोज (अर्थात्) के लिए उपयोग किया जाएगा। क्या मुझे इसके लिए सोलर या ल्यूसीन का उपयोग करने की ज़रूरत है? मैं इन सभी के लिए नया हूँ। अब तक मुझे पता है कि नच का उपयोग वेब पेजों को क्रॉल करने के लिए किया जाता है। क्या यह क्रॉल किए गए डेटा में मेटाडेटा जोड़ने जैसी कुछ अतिरिक्त सुविधाएं कर सकता है?नच: मेटाडेटा

+0

हाय सीआरएस, आप 'अर्थ-वेब' मुझे लगता है कि आप (या तो माइक्रोफ़ॉर्मेट पृष्ठों को आप क्रॉल करना चाहते से कुछ संरचित डेटा निकालना चाहते हैं के साथ अपने प्रश्न में चिह्नित के बाद से, आरडीएफए और/या माइक्रोोडाटा)। यदि ऐसा है, तो यह किसी भी 23 (http://incubator.apache.org/any23/) को देखकर बहुत समय बचाएगा (जिसे नच के साथ एकीकृत किया जा सकता है और शायद कोई पहले से ही ऐसा करने की कोशिश कर रहा है या इसे पहले से ही कर रहा है)। – castagna

+0

प्रतिक्रिया के लिए धन्यवाद। मैं Any23 पर एक नज़र डालेगा। मैं वास्तव में "सामान्य" वेबपृष्ठों को क्रॉल कर रहा हूं। यह किसी मेटाडेटा से जुड़ा नहीं है। हमारे पास कुछ एल्गोरिदम हैं जो इन वेबपृष्ठों से टेक्स्ट से मेटाडेटा की गणना करते हैं। यह मेटाडेटा वेबपृष्ठ की स्थानीय प्रति में जोड़ा जाना चाहिए। तो मैं एक क्रॉलर की तलाश में हूं जो वेबपृष्ठों को क्रॉल करता है और सामग्री निकालता है और फिर वेबपृष्ठों की स्थानीय प्रतिलिपि में मेटाडेटा डालता है। – CRS

उत्तर

3

उपयोगी आदेश।

क्रॉल शुरू

bin/nutch crawl urls -dir crawl -depth 3 -topN 5 

क्रॉल यूआरएल

bin/nutch readdb crawl/crawldb -stats 

पढ़ें खंड के आंकड़े प्राप्त करें

bin/nutch readseg -dump crawl/segments/* segmentAllContent 

पढ़ें खंड (वेब ​​पृष्ठों से सभी डेटा हो जाता है) (केवल पाठ हो जाता है फ़ील्ड)

bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate -  noparse -noparsedata 

प्रत्येक यूआरएल के ज्ञात लिंक की सभी सूची प्राप्त करें, जिसमें स्रोत यूआरएल और लिंक के एंकर टेक्स्ट दोनों शामिल हैं।

bin/nutch readlinkdb crawl/linkdb/ -dump linkContent 

सभी यूआरएल क्रॉल प्राप्त करें। यह भी अन्य जानकारी देता है जैसे कि इसे लाया गया था, समय, संशोधित समय इत्यादि।

bin/nutch readdb crawl/crawldb/ -dump crawlContent 

दूसरे भाग के लिए। यानी नया क्षेत्र जोड़ने के लिए मैं इंडेक्स-अतिरिक्त प्लगइन का उपयोग करने या कस्टम प्लगइन लिखने की योजना बना रहा हूं।

देखें:

this और this

संबंधित मुद्दे