हमारी कंपनी के हजारों पीडीएफ दस्तावेज हैं। हम ल्यूसीन, सोलर या नच का उपयोग करके एक सरल खोज इंजन कैसे बना सकते हैं? हम एक मूल जावा/जेएसपी वेब पेज प्रदान करेंगे, लोग शब्दों में टाइप कर सकते हैं और बुनियादी और/या प्रश्नों को निष्पादित कर सकते हैं, फिर उन्हें सभी मिलान करने वाले पीडीएफ के दस्तावेज़ लिंक दिखा सकते हैं।हम ल्यूसीन, सोलर या नच का उपयोग करके एक सरल खोज इंजन कैसे बना सकते हैं?
उत्तर
लुसीन परिवार में कोई भी परियोजना मूल रूप से पीडीएफ को संसाधित नहीं कर सकती है, लेकिन ऐसी सुविधाएं हैं जिन्हें आप छोड़ सकते हैं और खुद को कैसे रोल करना है, इस पर लिखित उदाहरण हैं।
ल्यूसीन जो कुछ भी आपको करने की ज़रूरत है, वह बहुत कुछ करेगा, लेकिन आपके समय के मुताबिक ओवरहेड है, जैसा कि टोनी ने ऊपर कहा था। दस्तावेजों के हजारों वास्तव में नहीं कि कई है, तो आप एक हल्के वजन के विकल्प के साथ भाग प्राप्त करने में सक्षम हो सकता है।
कहा, मैं अभी भी Solr देखने की सलाह देते हैं -, यह बहुत, बहुत आसान Lucene से स्थापित करने के लिए है बैकअप, प्रतिकृति, आदि के लिए समर्थन हासिल है, साथ ही एक निफ्टी जेएसओएन इंटरफ़ेस जो आपके उपयोग के मामले में बहुत अच्छी तरह से फिट होगा: http://wiki.apache.org/solr/SolJSON
यदि आपके पास एक लिनक्स सर्वर है, तो आप उन्हें अनुक्रमणित करने के लिए Beagle का उपयोग कर सकते हैं, और फिर इसके साथ आने वाली खोज कार्यक्षमता का उपयोग कर सकते हैं। इसमें एक (प्रयोगात्मक) वेब सर्च इंटरफ़ेस है, और इसे फ़ायरफ़ॉक्स खोज बॉक्स में भी लगाया जा सकता है।
यह स्वचालित रूप से फ़ाइलों को सूचीबद्ध करता है जैसे वे शामिल होते हैं, और मुझे संदेह होगा कि आपको लुसीन में अपना स्वयं का खोज इंटरफ़ेस लिखने के बजाय बीगल को बढ़ाने या ठीक करने के लिए और अधिक कुशल लगेगा।
इस मंच में इस तरह का एक व्यापक सवाल जवाब देना मुश्किल होगा। मैं आपको Lucene in Action, पुस्तक की जांच करने की अनुशंसा करता हूं जो एक काफी पठनीय फैशन में अनुक्रमण और खोज की मूल बातें शामिल करता है।
अपने आवेदन को देखते हुए, ऐसा लगता है कि नच और सोलर शायद आवश्यक नहीं होंगे। चूंकि आपके सभी दस्तावेज़ स्थानीय रूप से उपलब्ध हैं, इसलिए संभवतः नच सहायक नहीं होंगे। यदि आपके पास उच्च क्वेरी लोड है तो सोलर आपको खोजकर्ताओं के समूह का प्रबंधन करने में मदद कर सकता है, लेकिन लुसीन अत्यधिक प्रदर्शनकारी है, और बड़े दस्तावेज़ सेट को बहुत ही मापनीय तरीके से संभालता है।
एक ऐसा क्षेत्र जो आपके बहुत से प्रयासों का उपभोग कर सकता है वह पीडीएफ का उपयोग है। पीडीएफ दस्तावेजों को इंडेक्स करना संभव है, और Lucene contributions to facilitate the extraction of raw text from PDFs हैं, लेकिन दस्तावेज़ के आधार पर, परिणामों की गुणवत्ता अलग-अलग हो सकती है। अक्सर, पीडीएफ दस्तावेज में किसी कीवर्ड का संदर्भ स्वरूपण निर्देशों के कारण अस्पष्ट है, और इससे निकटता खोज करना मुश्किल हो सकता है या हिट के संदर्भ को दिखाया जा सकता है।
eprints पर एक नज़र डालें। इसमें नए दस्तावेज़, स्वचालित रूप से अनुक्रमित और थंबनेल पीडीएफ जोड़ने के लिए वर्कफ़्लो शामिल है और इसमें काफी व्यापक पूर्ण पाठ खोज कार्यक्षमता है। इसे आसानी से अनुकूलित और ब्रांडेड भी किया जा सकता है।
पहिया का फिर से आविष्कार क्यों करें। फिर।
दोबारा .... lmmfao .. mod +1 एक ही समय में सही और हास्यास्पद होने के लिए। –
मैक पर होने का (इम्हो) विशिष्ट लाभ होने के बाद, मैं कुछ पुराने जी 5 पर SearchLight का उपयोग करता हूं। स्पॉटलाइट के लिए अच्छा वेब इंटरफ़ेस, मैक ओएस 'अंतर्निहित अनुक्रमण सेवा।
गूगल खोज उपकरण http://www.google.com/enterprise/gsa/
डाउनवॉट्स क्यों? –
मुझे नीचे दिए गए वोटों को समझ में नहीं आता है। एक जीएसए सिर्फ वही है जो आपको चाहिए। न केवल यह आपके सभी पीडीएफ को सूचीबद्ध करेगा, यह आपके पूरे इंट्रानेट को भी इंडेक्स करेगा और यह लुसीन की तुलना में बेहतर खोज परिणाम प्रदान करेगा। – GateKiller
+1 डाउनवॉट्स बल्कि अनुचित थे। इस निहितार्थ को छोड़कर कि ओपी "मुक्त" समाधान की तलाश में हो सकता है, जीएसए इस प्रकार के आवेदन के लिए एक योग्य विचार है ... – mjv
मैं Lucene के साथ अच्छी किस्मत पड़ा है, लेकिन यह, क्लिक करें स्थापित करें और खोज, यह काम का एक सा की आवश्यकता है नहीं है।
आप कुछ है कि यो डाउनलोड कर सकते हैं और स्थापित करने और 10 मिनट के भीतर खोज हो, नि: शुल्क Ominifind याहू पर देखने के संस्करण http://omnifind.ibm.yahoo.net/ जरूरत है, यह Lucene का उपयोग करता है, लेकिन इस तरह से पैक किया गया है कि यह विन्यस्त और, एक बहुत आसान स्थापित करने पर चलाने के लिए तैयार है लुसीन कोशिश करने के लिए रास्ता।
मुझे लगता है कि आप अपनी पीडीएफ फाइल को प्रबंधित करने के लिए एक सिस्टम चाहते हैं। कृपया डीएसपीएएस सिस्टम का उपयोग करने का प्रयास करें। डीस्पेस एक डिजिटल लाइब्रेरी है, यह लुसीन के आधार पर समर्थन करता है। www.dspace.org।
क्षमा करें, मुझे एक गलती है, http://www.dspace.org/। –
नच + ल्यूसीन + पीडीएफ प्लगइन नच में सक्षम आपका समाधान है। नच आपको पीडीएफ प्लगइन को सक्षम करके पीडीएफ को पार्स करने की अनुमति देता है।
लुसीन आपको क्रॉल किए गए और पार्स किए गए डेटा को इंडेक्स करने की अनुमति देगा और नच के पास सर्विसलेट है जो आपको एक खोज इंटरफ़ेस देता है।
हम अपने आंतरिक लैन के लिए इसका उपयोग करते हैं।
एक महान मुफ्त खोज तकनीक जो आप देख सकते हैं वह आईबीएम याहू है! मुफ्त खोज मुझे यकीन नहीं है कि वे कवर के तहत ल्यूसीन का उपयोग करने की योजनाओं पर आगे बढ़ रहे हैं, लेकिन यह मुफ्त खोज तकनीकों का उपयोग करने के लिए वास्तव में महान, पूर्व में से एक है। यह 500 के दस्तावेजों तक संभालता है, मेरा मानना है, और यह पीडीएफ और अन्य गैर-पाठ प्रारूपों का भी समर्थन करता है। ग्राफिक यूजर इंटरफेस; खोज परिणामों को अनुकूलित करने में आसान, और मूल खोज विश्लेषण। बेसिक थिसॉरस, और शक्तिशाली एपीआई ताकि आप जो चाहें उतना अधिक कर सकें यदि बॉक्स के नतीजे आपकी पसंद के अनुसार नहीं हैं। हमने इसे कई ग्राहकों को सुझाव दिया है जहां आधे मिलियन से कम दस्तावेज थे, और वे इसे प्यार करते हैं।
- 1. खोज इंजन ल्यूसीन बनाम डाटाबेस खोज
- 2. सोलर/ल्यूसीन आईडीएफ स्कोर
- 3. कैसे बना सकते हैं या
- 4. क्या हम एक इंटरफ़ेस का ऑब्जेक्ट बना सकते हैं?
- 5. सोलर (ल्यूसीन) एक कस्टम टोकनफिल्टर
- 6. खोज इंजन इंडेक्स जावास्क्रिप्ट वेब पृष्ठों को खोज सकते हैं?
- 7. प्रतिबिंब। हम इसका उपयोग करके क्या हासिल कर सकते हैं?
- 8. अपाचे ल्यूसीन/सोलर
- 9. सीएसएस का उपयोग करके या यदि आवश्यक एसवीजी का उपयोग करके आप इस चमकदार रूप को कैसे बना सकते हैं?
- 10. मैं एक सोलर खोज
- 11. नच: मेटाडेटा
- 12. मैं एक सोलर/ल्यूसीन स्कोर को सामान्य कैसे बना सकता हूं?
- 13. ल्यूसीन का उपयोग कर सटीक वाक्यांश खोज?
- 14. नच
- 15. नच
- 16. मैं संख्याओं का उपयोग करके एक enum कैसे बना सकते हैं?
- 17. सोलर सटीक शब्द खोज
- 18. क्या हम इस स्ट्रिंग एन्कोडिंग कोड को सरल बना सकते हैं
- 19. सादा और सरल, हम _stdcall का उपयोग क्यों करते हैं?
- 20. हम विंडोज़ में पर्ल का उपयोग करके एसएसएच को कैसे कॉन्फ़िगर कर सकते हैं?
- 21. ल्यूसीन खोज एपीआई
- 22. जेनेरिक हैंडलर का उपयोग करके हम उपयोगकर्ता नियंत्रण कैसे लोड कर सकते हैं?
- 23. रैवेनडीबी/ल्यूसीन का उपयोग कर Faceted खोज में पदानुक्रमित वर्गीकरण?
- 24. डुनिट का उपयोग करके हम किस प्रकार के टेस्ट केस लिख सकते हैं?
- 25. ल्यूसीन की खोज की जटिलता
- 26. माउस व्हील का उपयोग कर एक समय में DataGridView स्क्रॉल एक आइटम कैसे बना सकते हैं?
- 27. मैं ASP.NET का उपयोग करके एक बहुत ही सरल वेब प्रॉक्सी कैसे बना सकता हूं?
- 28. क्या हम जावा में पॉपअप त्रुटि अलर्ट बना सकते हैं?
- 29. सोलर और फ़ेसेट खोज
- 30. आप मूस का उपयोग करके निजी/सार्वजनिक चर और कार्यों को कैसे बना सकते हैं?
सोलर 1.4 पीडीएफ और एमएस वर्ड दस्तावेज़ों का विश्लेषण करेगा। –