2011-10-28 20 views
10
  1. मैं सीखने और जावा में अधिक अनुभव प्राप्त करने के लिए बस एक खोज इंजन बनाने की कोशिश कर रहा हूं।जावा में खोज इंजन?

    मेरा इरादा सर्वर पर लगभग 100 फाइलें, एचटीएमएल, एक्सएमएल, डॉक्टर, टीटीटी का मिश्रण, और प्रत्येक फ़ाइल के लिए मेटा डेटा रखने के लिए है।

    SO जब मैं किसी कीवर्ड की खोज करता हूं, तो उसे Google जैसे मेटा विवरण के साथ एक फ़ाइल प्रदर्शित करनी चाहिए।

    मेरा प्रश्न है, एचटीएमएल के अलावा, क्या आप मेटा डेटा को किसी अन्य फ़ाइल प्रारूप में जोड़ सकते हैं, ताकि मेटा विवरण दिखाया जा सके।

  2. क्या आप मुझे जावा सर्च इंजन की ओर इंगित करने में सक्षम होंगे, जो फ़ाइल स्वरूपों (txt, html) में खोज सकते हैं और परिणाम प्रदर्शित कर सकते हैं।

    मैं इसके लिए अपने कोड पर काम कर रहा हूं, लेकिन कुछ मदद के लिए अन्य लोगों के कोड को देखना चाहूंगा?

उत्तर

26

Lucene कैनोलिक जावा सर्च इंजन है।

विभिन्न स्रोतों से दस्तावेज़ जोड़ने के लिए, Apache Tika पर और सेवा/वेब इंटरफेस के साथ एक पूर्ण उड़ा प्रणाली के लिए, solr पर एक नज़र डालें।

लुसीन अपने दस्तावेजों से मनमाने ढंग से मेटाडेटा को जोड़ने की अनुमति देता है। Tika स्वचालित रूप से विभिन्न प्रारूपों से मेटाडेटा को हटा देगा।

4

1) मेरा प्रश्न HTML से अलग है क्या आप मेटा डेटा को किसी अन्य फ़ाइल प्रारूप में जोड़ सकते हैं, ताकि मेटा विवरण दिखाया जा सके।

सामान्य रूप से आप डेटाबेस का उपयोग करेंगे और वहां दस्तावेज़ के साथ मेटाडेटा स्टोर करेंगे। फिर आप एक डेटाबेस क्वेरी का उपयोग कर एक खोजशब्द खोज करेंगे (संभवतः एसक्यूएल जैसे या समान रूप से उपयोग कर रहे हैं)।

फ़ाइलों को या तो डीबी में पथ के साथ हार्डड्राइव पर संग्रहीत किया जा सकता है या आपके पास टेक्स्ट या बाइनरी दस्तावेज़ों के आधार पर सीएलओबी या बीएलओबी के रूप में डेटाबेस में डाल दिया जा सकता है।

2) क्या आप जावा सर्च इंजन की ओर इशारा करते हैं, जो फ़ाइल स्वरूपों (txt, html) में खोज सकते हैं और परिणाम प्रदर्शित कर सकते हैं।

Apache Lucene आज़माएं।

3

वास्तव में अच्छा Lucene है। वहाँ प्लग इन की बहुत, (कि उदाहरण आप .doc से पढ़ने के लिए अनुमति होगी) कई भाषाओं और एल्गोरिदम के बहुत (Levenshtein दूरी की तरह) का समर्थन

3

apache nutch

Apache Nutch is an open source web-search software project. 

पर देखो Nutch Lucene की चोटी पर बनाता हैं सूचकांक के लिए/solr, दस्तावेजों को पार्स करने के लिए tika, और अपने स्वयं के वेब क्रॉलर जोड़ता है।

3
  • गूगल आजकल पूरी तरह से मेटा विवरण पर ध्यान नहीं देता, क्योंकि यह या तो दुरुपयोग किया गया है, या महत्वपूर्ण मान
  • Lucene और/या Solr आप क्या चाहते हैं कर सकते हैं, एक बार देख ले से भर नहीं।
  • 100 फाइलें बहुत छोटी राशि हैं, यदि आपको व्यायाम के लिए यह पसंद है तो आपको इस तरह के डेटा को प्रबंधित करने में कोई समस्या नहीं होगी।
3

... lucene और solr अन्य लोगों के कोड के संबंध में ध्यान में आते हैं।

2

Apache Tikaमेटाडाटा निकालने के लिए।

अपाचे टीका The Apache टीका टूलकिट एक ASFv2 डिजिटल दस्तावेजों से जानकारी निकालने के लिए खुला स्रोत लाइसेंस प्राप्त उपकरण है। Tika खोज इंजन, सामग्री प्रबंधन प्रणाली और अन्य अनुप्रयोगों को आसानी से पहचानने के लिए विभिन्न प्रकार के डिजिटल दस्तावेज़ों के साथ काम करता है और सभी प्रमुख फ़ाइल स्वरूपों से मेटाडेटा और सामग्री निकालने की अनुमति देता है।

3

आपको कई पुस्तकालयों का उपयोग करना होगा। सबसे पहले, वास्तविक खोज करने के लिए Lucene का उपयोग करने से पहले जितने लोगों ने उल्लेख किया है। हालांकि, लुसीन केवल सादे पाठ को संभालता है, इसलिए आपको इसे आपके द्वारा सूचीबद्ध फ़ाइलों से निकालने की आवश्यकता है। इसके लिए, आप Apache Tika का उपयोग कर सकते हैं।

आरंभ करने के लिए, आपको शायद Lucene in Action 2nd edition पुस्तक खरीदनी चाहिए। वहां के अधिकांश उदाहरण अभी भी अद्यतित हैं। यदि आप एक चीपकेकेट बनना चाहते हैं तो आप उस पृष्ठ पर प्रदत्त स्रोत कोड को भी देख सकते हैं।

संबंधित मुद्दे