2012-12-15 13 views
10

मैं आलेखों को पकड़ने के लिए एक ढांचे की तलाश में हूं, फिर मुझे नच 2.1 मिल गया। यहाँ प्रत्येक में मेरी योजना और सवाल है:आलेख क्रॉलिंग के लिए नच का विस्तार कैसे करें

यूआरएल में लेख सूची पृष्ठों जोड़ें/seed.txt यहाँ एक समस्या है। जो मैं वास्तव में अनुक्रमित करना चाहता हूं वह लेख पृष्ठ है, लेख सूची पृष्ठ नहीं। लेकिन, अगर मैं सूची पृष्ठ को अनुक्रमित करने की अनुमति नहीं देता हूं, तो नच कुछ भी नहीं करेगा क्योंकि सूची पृष्ठ प्रवेश द्वार है। तो, मैं सूची पृष्ठों के बिना केवल लेख पृष्ठ को कैसे अनुक्रमित कर सकता हूं?

एक प्लगइन लिखें 'लेखक', 'तारीख', 'लेख के मुख्य भाग', 'शीर्षक' और html से शायद अन्य जानकारी पार्स करने के लिए। '' PARSER_TYPE 'Nutch 2.1 में प्लगइन इंटरफ़ेस है: पार्स getParse (स्ट्रिंग यूआरएल, वेबपेज पेज) और' वेबपृष्ठ 'वर्ग कुछ पूर्वनिर्धारित attributs है:

public class WebPage extends PersistentBase { 
    // ... 
    private Utf8 baseUrl; 
    // ... 
    private ByteBuffer content; // <== This becomes null in IndexFilter 
    // ... 
    private Utf8 title; 
    private Utf8 text; 
    // ... 
    private Map<Utf8,Utf8> headers; 
    private Map<Utf8,Utf8> outlinks; 
    private Map<Utf8,Utf8> inlinks; 
    private Map<Utf8,Utf8> markers; 
    private Map<Utf8,ByteBuffer> metadata; 
    // ... 
} 

So, as you can see, there are 5 maps I can put my specified attributes in. But, 'headers', 'outlinks', 'inlinks' seem not used for this. Maybe I could put those information into markers or metadata. Are they designed for this purpose? 
BTW, the Parser in trunk looks like: 'public ParseResult getParse(Content content)', and seems more reasonable for me. 

लेख के बाद कर रहे हैं सोलर में अनुक्रमित, दूसरा एप्लिकेशन इसे 'डेट' से पूछताछ कर सकता है और फिर लेख की जानकारी को MySQL में संग्रहीत कर सकता है। मेरा प्रश्न यहां है: क्या नच सीधे लेख को MySQL में संग्रहीत कर सकता है? या मैं सूचकांक व्यवहार निर्दिष्ट करने के लिए एक प्लगइन लिख सकते हैं?

क्या मेरे उद्देश्य के लिए नच एक अच्छा विकल्प है? यदि नहीं, तो क्या आप लोग मेरे लिए एक और अच्छी गुणवत्ता ढांचे/पुस्तकालय का सुझाव देते हैं? आपकी मदद के लिए धन्यवाद।

उत्तर

1

कुछ वेबसाइटों से लेख निष्कर्षण सब है कि आप के लिए देख रहे है, तो बाहर की जाँच http://www.crawl-anywhere.com/

यह जहां आपको लगता है कि आप boilerpipe लेख निकालने का उपयोग करने के लिए (जो महान है) चाहते हैं निर्दिष्ट कर सकते हैं एक व्यवस्थापक यूआई के साथ आता है । आप URL पैटर्न से भी निर्दिष्ट कर सकते हैं कि आप कौन से पेज क्रॉल करना चाहते हैं, जिसे आप क्रॉल और अनुक्रमित करना चाहते हैं।

+0

क्रॉल के अंदर कहीं भी दस्तावेज मुझे सुविधा नहीं मिल सका जिसके माध्यम से मैं निर्दिष्ट कर सकता हूं कि केवल लेख निकाय निकालें (वेबपृष्ठ के पूरे HTML शरीर से)। –

संबंधित मुद्दे