2010-03-02 9 views
5

अरे दोस्तों, मैंने एसओएलआर में डेटा अनुक्रमण करते समय सामग्री से HTML को स्ट्रिप करने में कामयाब रहे हैं।स्टोरेज के लिए एसओएलआर में एचटीएमएल स्ट्रिपिंग, इंडेक्सिंग

लेकिन डेटा संग्रह करते समय डेटा से HTML को स्ट्रिप करना संभव है?

<field name="Content" type="textNoHTML" indexed="true" stored="true"/> 

और, फ़ील्ड प्रकार "textNoHTML" solr.HTMLStripCharFilterFactory लागू करता है::

यह मेरा क्षेत्र है

<charFilter class="solr.HTMLStripCharFilterFactory" /> 

जैसा कि मैंने कहा, यह अनुक्रमण के लिए ठीक काम करता है, लेकिन यह है भंडारण के लिए एक समान फिल्टर लागू करने के लिए संभव है?

चीयर्स!

उत्तर

3

यदि आप DataImportHandler का उपयोग कर रहे हैं तो आप HTMLStripTransformer का उपयोग कर सकते हैं।

अन्यथा, आपको इस क्लाइंट-साइड को अपने आप लागू करना होगा। यदि आपका ग्राहक .NET है तो आप HtmlAgilityPack का उपयोग कर सकते हैं।

+0

+1 मैं देखता हूं। इसलिए, यदि मैं DataImportHandler का उपयोग कर डेटा स्टोर से डेटा आयात कर रहा हूं, तो मैं उस ट्रांसफॉर्मर का उपयोग कर सकता हूं ... लेकिन अगर मैं एक्सएमएल कमांड के माध्यम से जोड़ रहा हूं, तो मैं नहीं कर सकता? यही कारण है कि? वैसे भी, अच्छा, मैं agilitypack की जांच करेंगे। चियर्स! – andy

+0

AFAIK संग्रहीत फ़ील्ड हमेशा verbatim संग्रहीत किया जाता है। डीआईएच एक ग्राहक के रूप में कार्य करता है ताकि इसमें ट्रांसफार्मर हो सकें। –

+0

आह, मैं देखता हूं। चीयर्स मॉरीसिओ – andy

संबंधित मुद्दे