डेटा पढ़ने और जोड़ने के बाद मैंने हाल ही में अपाचे नच को देखना शुरू कर दिया। मैं नच के साथ अपनी रुचि के वेब पृष्ठों को क्रॉल करने और सक्षम करने में सक्षम हो सकता था। मुझे इस डेटा को पढ़ने के तरीके पर काफी समझ नहीं है। मैं मूल रूप से प्रत्येक पृष्ठ के डेटा को कुछ मेटाडेटा (अब के लिए कुछ यादृच्छिक डेटा) से जोड़ना चाहता हूं और उन्हें स्थानीय रूप से स्टोर करना चाहता हूं जिसे बाद में खोज (अर्थात्) के लिए उपयोग किया जाएगा। क्या मुझे इसके लिए सोलर या ल्यूसीन का उपयोग करने की ज़रूरत है? मैं इन सभी के लिए नया हूँ। अब तक मुझे पता है कि नच का उपयोग वेब पेजों को क्रॉल करने के लिए किया जाता है। क्या यह क्रॉल किए गए डेटा में मेटाडेटा जोड़ने जैसी कुछ अतिरिक्त सुविधाएं कर सकता है?नच: मेटाडेटा
5
A
उत्तर
3
उपयोगी आदेश।
क्रॉल शुरू
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
क्रॉल यूआरएल
bin/nutch readdb crawl/crawldb -stats
पढ़ें खंड के आंकड़े प्राप्त करें
bin/nutch readseg -dump crawl/segments/* segmentAllContent
पढ़ें खंड (वेब पृष्ठों से सभी डेटा हो जाता है) (केवल पाठ हो जाता है फ़ील्ड)
bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate - noparse -noparsedata
प्रत्येक यूआरएल के ज्ञात लिंक की सभी सूची प्राप्त करें, जिसमें स्रोत यूआरएल और लिंक के एंकर टेक्स्ट दोनों शामिल हैं।
bin/nutch readlinkdb crawl/linkdb/ -dump linkContent
सभी यूआरएल क्रॉल प्राप्त करें। यह भी अन्य जानकारी देता है जैसे कि इसे लाया गया था, समय, संशोधित समय इत्यादि।
bin/nutch readdb crawl/crawldb/ -dump crawlContent
दूसरे भाग के लिए। यानी नया क्षेत्र जोड़ने के लिए मैं इंडेक्स-अतिरिक्त प्लगइन का उपयोग करने या कस्टम प्लगइन लिखने की योजना बना रहा हूं।
देखें:
संबंधित मुद्दे
- 1. नच
- 2. नच
- 3. नच
- 4. नच फॉर्म
- 5. नच-सिगविन कैसे JAVA_HOME
- 6. नच एपीआई सलाह
- 7. अपाचे नच 2.1 अलग बैच आईडी (शून्य)
- 8. मेटाडेटा टाइप प्रकार
- 9. MEF GetExportedValue मेटाडेटा
- 10. इकाई फ्रेमवर्क: निर्दिष्ट मेटाडेटा संसाधन
- 11. ग्रहण। मेटाडेटा \। प्लगइन डिस्क स्पेस
- 12. .NET में मेटाडेटा क्या है?
- 13. MPMoviePlayerController से मेटाडेटा प्राप्त करना
- 14. विशेषता। IDefefined मेटाडेटा टाइप श्रेणी
- 15. पुस्तक मेटाडेटा कैसे प्राप्त करें?
- 16. नच: जावा में आमंत्रित करें, कमांड लाइन नहीं?
- 17. आलेख क्रॉलिंग के लिए नच का विस्तार कैसे करें
- 18. नच कोई http 'http.agent.name' में सूचीबद्ध नहीं है
- 19. iCloud और कोर डेटा त्रुटि (Ubiquity: मेटाडेटा यूआरएल से बेसलाइन मेटाडेटा वापस नहीं मिला)
- 20. मुझे सादा PropertyMetadata पर फ्रेमवर्कप्रॉपर्टी मेटाडेटा या यूआईप्रोपर्टी मेटाडेटा का उपयोग कब करना चाहिए?
- 21. क्या सी # मेटाडेटा को सी # प्रोजेक्ट
- 22. डेटाबेस मेटाडेटा नामकरण के लिए स्टाइल गाइड
- 23. जेपीईजी मेटाडेटा का अधिकतम आकार क्या है?
- 24. एंड्रॉइड में मेटाडेटा का क्या अर्थ है?
- 25. पॉइंटर मेटाडेटा कहां संग्रहीत किया जाता है?
- 26. क्लोजर मेटाडेटा के कुछ उपयोग क्या हैं?
- 27. एएसपी.नेट डायनेमिक डेटा आंशिक मेटाडेटा "दोस्त" वर्ग
- 28. एमपी 3 से मेटाडेटा कैसे पढ़ा जाए?
- 29. मेटाडेटा मानों पर आइटम फ़ंक्शंस का उपयोग
- 30. जेडीबीसी से अनुक्रम मेटाडेटा कैसे प्राप्त करें?
हाय सीआरएस, आप 'अर्थ-वेब' मुझे लगता है कि आप (या तो माइक्रोफ़ॉर्मेट पृष्ठों को आप क्रॉल करना चाहते से कुछ संरचित डेटा निकालना चाहते हैं के साथ अपने प्रश्न में चिह्नित के बाद से, आरडीएफए और/या माइक्रोोडाटा)। यदि ऐसा है, तो यह किसी भी 23 (http://incubator.apache.org/any23/) को देखकर बहुत समय बचाएगा (जिसे नच के साथ एकीकृत किया जा सकता है और शायद कोई पहले से ही ऐसा करने की कोशिश कर रहा है या इसे पहले से ही कर रहा है)। – castagna
प्रतिक्रिया के लिए धन्यवाद। मैं Any23 पर एक नज़र डालेगा। मैं वास्तव में "सामान्य" वेबपृष्ठों को क्रॉल कर रहा हूं। यह किसी मेटाडेटा से जुड़ा नहीं है। हमारे पास कुछ एल्गोरिदम हैं जो इन वेबपृष्ठों से टेक्स्ट से मेटाडेटा की गणना करते हैं। यह मेटाडेटा वेबपृष्ठ की स्थानीय प्रति में जोड़ा जाना चाहिए। तो मैं एक क्रॉलर की तलाश में हूं जो वेबपृष्ठों को क्रॉल करता है और सामग्री निकालता है और फिर वेबपृष्ठों की स्थानीय प्रतिलिपि में मेटाडेटा डालता है। – CRS