2008-10-21 15 views
8

हमारी कंपनी के हजारों पीडीएफ दस्तावेज हैं। हम ल्यूसीन, सोलर या नच का उपयोग करके एक सरल खोज इंजन कैसे बना सकते हैं? हम एक मूल जावा/जेएसपी वेब पेज प्रदान करेंगे, लोग शब्दों में टाइप कर सकते हैं और बुनियादी और/या प्रश्नों को निष्पादित कर सकते हैं, फिर उन्हें सभी मिलान करने वाले पीडीएफ के दस्तावेज़ लिंक दिखा सकते हैं।हम ल्यूसीन, सोलर या नच का उपयोग करके एक सरल खोज इंजन कैसे बना सकते हैं?

उत्तर

3

लुसीन परिवार में कोई भी परियोजना मूल रूप से पीडीएफ को संसाधित नहीं कर सकती है, लेकिन ऐसी सुविधाएं हैं जिन्हें आप छोड़ सकते हैं और खुद को कैसे रोल करना है, इस पर लिखित उदाहरण हैं।

ल्यूसीन जो कुछ भी आपको करने की ज़रूरत है, वह बहुत कुछ करेगा, लेकिन आपके समय के मुताबिक ओवरहेड है, जैसा कि टोनी ने ऊपर कहा था। दस्तावेजों के हजारों वास्तव में नहीं कि कई है, तो आप एक हल्के वजन के विकल्प के साथ भाग प्राप्त करने में सक्षम हो सकता है।

कहा, मैं अभी भी Solr देखने की सलाह देते हैं -, यह बहुत, बहुत आसान Lucene से स्थापित करने के लिए है बैकअप, प्रतिकृति, आदि के लिए समर्थन हासिल है, साथ ही एक निफ्टी जेएसओएन इंटरफ़ेस जो आपके उपयोग के मामले में बहुत अच्छी तरह से फिट होगा: http://wiki.apache.org/solr/SolJSON

+1

सोलर 1.4 पीडीएफ और एमएस वर्ड दस्तावेज़ों का विश्लेषण करेगा। –

0

यदि आपके पास एक लिनक्स सर्वर है, तो आप उन्हें अनुक्रमणित करने के लिए Beagle का उपयोग कर सकते हैं, और फिर इसके साथ आने वाली खोज कार्यक्षमता का उपयोग कर सकते हैं। इसमें एक (प्रयोगात्मक) वेब सर्च इंटरफ़ेस है, और इसे फ़ायरफ़ॉक्स खोज बॉक्स में भी लगाया जा सकता है।

यह स्वचालित रूप से फ़ाइलों को सूचीबद्ध करता है जैसे वे शामिल होते हैं, और मुझे संदेह होगा कि आपको लुसीन में अपना स्वयं का खोज इंटरफ़ेस लिखने के बजाय बीगल को बढ़ाने या ठीक करने के लिए और अधिक कुशल लगेगा।

1

इस मंच में इस तरह का एक व्यापक सवाल जवाब देना मुश्किल होगा। मैं आपको Lucene in Action, पुस्तक की जांच करने की अनुशंसा करता हूं जो एक काफी पठनीय फैशन में अनुक्रमण और खोज की मूल बातें शामिल करता है।

अपने आवेदन को देखते हुए, ऐसा लगता है कि नच और सोलर शायद आवश्यक नहीं होंगे। चूंकि आपके सभी दस्तावेज़ स्थानीय रूप से उपलब्ध हैं, इसलिए संभवतः नच सहायक नहीं होंगे। यदि आपके पास उच्च क्वेरी लोड है तो सोलर आपको खोजकर्ताओं के समूह का प्रबंधन करने में मदद कर सकता है, लेकिन लुसीन अत्यधिक प्रदर्शनकारी है, और बड़े दस्तावेज़ सेट को बहुत ही मापनीय तरीके से संभालता है।

एक ऐसा क्षेत्र जो आपके बहुत से प्रयासों का उपभोग कर सकता है वह पीडीएफ का उपयोग है। पीडीएफ दस्तावेजों को इंडेक्स करना संभव है, और Lucene contributions to facilitate the extraction of raw text from PDFs हैं, लेकिन दस्तावेज़ के आधार पर, परिणामों की गुणवत्ता अलग-अलग हो सकती है। अक्सर, पीडीएफ दस्तावेज में किसी कीवर्ड का संदर्भ स्वरूपण निर्देशों के कारण अस्पष्ट है, और इससे निकटता खोज करना मुश्किल हो सकता है या हिट के संदर्भ को दिखाया जा सकता है।

2

eprints पर एक नज़र डालें। इसमें नए दस्तावेज़, स्वचालित रूप से अनुक्रमित और थंबनेल पीडीएफ जोड़ने के लिए वर्कफ़्लो शामिल है और इसमें काफी व्यापक पूर्ण पाठ खोज कार्यक्षमता है। इसे आसानी से अनुकूलित और ब्रांडेड भी किया जा सकता है।

पहिया का फिर से आविष्कार क्यों करें। फिर।

+0

दोबारा .... lmmfao .. mod +1 एक ही समय में सही और हास्यास्पद होने के लिए। –

-4

मैक पर होने का (इम्हो) विशिष्ट लाभ होने के बाद, मैं कुछ पुराने जी 5 पर SearchLight का उपयोग करता हूं। स्पॉटलाइट के लिए अच्छा वेब इंटरफ़ेस, मैक ओएस 'अंतर्निहित अनुक्रमण सेवा।

3

गूगल खोज उपकरण http://www.google.com/enterprise/gsa/

+2

डाउनवॉट्स क्यों? –

+2

मुझे नीचे दिए गए वोटों को समझ में नहीं आता है। एक जीएसए सिर्फ वही है जो आपको चाहिए। न केवल यह आपके सभी पीडीएफ को सूचीबद्ध करेगा, यह आपके पूरे इंट्रानेट को भी इंडेक्स करेगा और यह लुसीन की तुलना में बेहतर खोज परिणाम प्रदान करेगा। – GateKiller

+0

+1 डाउनवॉट्स बल्कि अनुचित थे। इस निहितार्थ को छोड़कर कि ओपी "मुक्त" समाधान की तलाश में हो सकता है, जीएसए इस प्रकार के आवेदन के लिए एक योग्य विचार है ... – mjv

8

मैं Lucene के साथ अच्छी किस्मत पड़ा है, लेकिन यह, क्लिक करें स्थापित करें और खोज, यह काम का एक सा की आवश्यकता है नहीं है।
आप कुछ है कि यो डाउनलोड कर सकते हैं और स्थापित करने और 10 मिनट के भीतर खोज हो, नि: शुल्क Ominifind याहू पर देखने के संस्करण http://omnifind.ibm.yahoo.net/ जरूरत है, यह Lucene का उपयोग करता है, लेकिन इस तरह से पैक किया गया है कि यह विन्यस्त और, एक बहुत आसान स्थापित करने पर चलाने के लिए तैयार है लुसीन कोशिश करने के लिए रास्ता।

3

मुझे लगता है कि आप अपनी पीडीएफ फाइल को प्रबंधित करने के लिए एक सिस्टम चाहते हैं। कृपया डीएसपीएएस सिस्टम का उपयोग करने का प्रयास करें। डीस्पेस एक डिजिटल लाइब्रेरी है, यह लुसीन के आधार पर समर्थन करता है। www.dspace.org।

+0

क्षमा करें, मुझे एक गलती है, http://www.dspace.org/। –

7

नच + ल्यूसीन + पीडीएफ प्लगइन नच में सक्षम आपका समाधान है। नच आपको पीडीएफ प्लगइन को सक्षम करके पीडीएफ को पार्स करने की अनुमति देता है।

लुसीन आपको क्रॉल किए गए और पार्स किए गए डेटा को इंडेक्स करने की अनुमति देगा और नच के पास सर्विसलेट है जो आपको एक खोज इंटरफ़ेस देता है।

हम अपने आंतरिक लैन के लिए इसका उपयोग करते हैं।

1

एक महान मुफ्त खोज तकनीक जो आप देख सकते हैं वह आईबीएम याहू है! मुफ्त खोज मुझे यकीन नहीं है कि वे कवर के तहत ल्यूसीन का उपयोग करने की योजनाओं पर आगे बढ़ रहे हैं, लेकिन यह मुफ्त खोज तकनीकों का उपयोग करने के लिए वास्तव में महान, पूर्व में से एक है। यह 500 के दस्तावेजों तक संभालता है, मेरा मानना ​​है, और यह पीडीएफ और अन्य गैर-पाठ प्रारूपों का भी समर्थन करता है। ग्राफिक यूजर इंटरफेस; खोज परिणामों को अनुकूलित करने में आसान, और मूल खोज विश्लेषण। बेसिक थिसॉरस, और शक्तिशाली एपीआई ताकि आप जो चाहें उतना अधिक कर सकें यदि बॉक्स के नतीजे आपकी पसंद के अनुसार नहीं हैं। हमने इसे कई ग्राहकों को सुझाव दिया है जहां आधे मिलियन से कम दस्तावेज थे, और वे इसे प्यार करते हैं।

संबंधित मुद्दे