Lucene और एसक्यूएल सर्वर - सबसे अच्छा अभ्यास

मैं बहुत Lucene करने के लिए नया हूँ, इसलिए तुम लोग :) से कुछ मदद मिल चाहते हैंLucene और एसक्यूएल सर्वर - सबसे अच्छा अभ्यास

पृष्ठभूमि: वर्तमान में मैं एसक्यूएल सर्वर में संग्रहीत दस्तावेज़ों है और पूर्ण के लिए Lucene उपयोग करना चाहते हैं SQL सर्वर में उन दस्तावेज़ों पर टेक्स्ट/टैग खोजें।

प्रश्न 1) इस मामले में, दस्तावेजों पर कीवर्ड खोज करने के लिए, क्या मुझे उन सभी दस्तावेजों को लुसीन इंडेक्स में डालना चाहिए? क्या इसका मतलब है कि डेटा डुप्लिकेशंस होगा (SQL सर्वर में से एक और दूसरा ल्यूसीन इंडेक्स में?) यह एक मामला हो सकता है क्योंकि हमारे पास बड़ी मात्रा में दस्तावेज हैं (लगभग 100 जीबी)। क्या यह अनिवार्य है?

क्यू 2) इसके अलावा, प्रत्येक दस्तावेज़ में टैग का एक सेट होता है (3 तक)। टैग खोज के लिए ल्यूसीन भी अच्छा विकल्प है? यदि हां, तो यह कैसे करें?

धन्यवाद,

स्रोत

2013-02-27 soleiljy

हाँ, एक पारंपरिक डेटाबेस के माध्यम से Lucene और डाटा संग्रहण के माध्यम से पूर्ण-पाठ खोज प्रदान एक अच्छी तरह से समर्थित वास्तुकला है। एक संक्षिप्त परिचय के लिए Take a look here। एक सामान्य कार्यान्वयन उस चीज को इंडेक्स करना होगा जो आप खोजना चाहते हैं, और लुसीन इंडेक्स में केवल एक अद्वितीय पहचानकर्ता को स्टोर करना चाहते हैं, और आईडी के आधार पर डेटाबेस से खोज द्वारा प्राप्त किसी भी रिकॉर्ड को खींचें। यदि आप डीबी लोड को कम करना चाहते हैं, तो आप खोज परिणामों की एक सूची प्रदर्शित करने के लिए लुसीन में कुछ जानकारी संग्रहीत कर सकते हैं, और पूर्ण दस्तावेज़ प्राप्त करने के लिए केवल डेटाबेस से पूछ सकते हैं।

अंतरिक्ष पर बचत के लिए, कुछ उपाय डुप्लिकेशंस होगा। यह सच है भले ही आप केवल लुसीन, हालांकि। ल्यूसीन संग्रहीत डेटा से पूरी तरह अलग से खोज के लिए उपयोग की गई उलटा इंडेक्स स्टोर करता है। अंतरिक्ष पर बचत के लिए, मैं अनुशंसा करता हूं कि आप किस डेटा को इंडेक्स करना चुनते हैं, और आपको स्टोर करने की आवश्यकता है और बाद में पुनः प्राप्त करने में सक्षम होना चाहिए। जो आप स्टोर करते हैं वह लुसीन में अंतरिक्ष बचाने के लिए विशेष रूप से महत्वपूर्ण है, क्योंकि अधिकांश मामलों में अनुक्रमित-केवल मूल्य बहुत ही अंतरिक्ष-कुशल होते हैं।

लुसीन निश्चित रूप से टैग खोज को कार्यान्वित कर सकता है। इसे लागू करने के आसान तरीका अपने द्वारा चयनित किसी क्षेत्र के लिए प्रत्येक टैग को जोड़ने के लिए हो सकता है, (मैं फोन करता हूँ "टैग" है, जो समझ बनाने के लिए लगता है), जैसे दस्तावेज़ के निर्माण, जबकि:

document.add(new Field("tags", "widget", Field.Store.NO, Field.Index.ANALYZED)); 
document.add(new Field("tags", "forkids", Field.Store.NO, Field.Index.ANALYZED));

और मैं केवल किसी विशेष टैग के भीतर खोज करने के लिए किसी भी क्वेरी में एक आवश्यक शब्द जोड़ सकता हूं। उदाहरण के लिए, अगर मैं "कुछ सामान" खोजना चाहता था, लेकिन केवल "फोर्किड्स" टैग के साथ, मैं एक प्रश्न लिख सकता था:

some stuff +tags:forkids

स्रोत

2013-02-27 20:21:53 femtoRgon

दस्तावेज भी Lucene में संग्रहित किया जा सकता है, तो आप निकालते हैं और दस्तावेज़ आईडी का उपयोग कर उन्हें संदर्भित कर सकते हैं।

मैं ल्यूसीन के शीर्ष पर सोलर http://lucene.apache.org/solr/ का उपयोग करने का सुझाव दूंगा, अधिक उपयोगकर्ता के अनुकूल है और इसमें डिफ़ॉल्ट रूप से उपलब्ध बहुवृत्त फ़ील्ड (टैग के लिए) हैं।

http://wiki.apache.org/solr/SchemaXml

स्रोत

2013-02-27 19:17:08 Elmer

आपके उत्तर के लिए धन्यवाद। तो क्या आपको लगता है कि केवल लुसीन में दस्तावेजों को बनाए रखना एक सामान्य वास्तुकला होगा? डेटाबेस और ल्यूसीन में डेटा को बनाए रखने का कोई मामला है? – soleiljy

यदि आप केवल वास्तविक सामग्री में रुचि रखते हैं और कुछ मेटाडाटा मुझे अतिरिक्त डेटाबेस की आवश्यकता नहीं है। – Elmer

Lucene और एसक्यूएल सर्वर - सबसे अच्छा अभ्यास

उत्तर

संबंधित मुद्दे