2010-01-09 15 views
6

क्या आप जानते हैं कि मैं एक खोज इंजन पार्सर डिजाइन आरेख कहां पा सकता हूं? मुझे यह समझने की आवश्यकता है कि यह उपयोगकर्ता इनपुट को कैसे संसाधित करता है। क्या कार्य/एल्गोरिदम का उपयोग किया जा रहा है? शर्तेँ। आदिखोज इंजन पार्सर प्रवाह आरेख

यह Google की आवश्यकता नहीं है। इंजन पार्सर खोज करने के लिए

अपडेट किए गए सवाल

उत्तर

6

आप पहली बार खोज इंजन के बारे में बेहतर ढंग से समझने की जरूरत है की शारीरिक रचना। आमतौर पर

1) एक वेब क्रॉलर, कुछ ऐसा दस्तावेज़ जो आपको अपनी खोज डेटा स्थान में जोड़ना चाहते हैं। यह आमतौर पर "खोज इंजन" कहने वाले दायरे से बाहर होता है।

2) एक पार्सर जो दस्तावेज़ ले रहा है और इसे अनुक्रमित पाठ खंडों में विभाजित कर रहा है। यदि आमतौर पर विभिन्न फ़ाइल स्वरूपों, मानव भाषाओं के साथ काम करता है और शायद कुछ निश्चित रिकॉर्ड और प्रवाह पाठ में टेक्स्ट को प्रीप्रोसेसिंग कर रहा है। भाषाई एल्गोरिदम (जैसे स्टेमर्स - पोर्टर स्टेमर को सरल पाने के लिए खोज) यहां भी लागू होते हैं।

3) एक सूचक जो प्रति दस्तावेज़ शब्दों की उलटा सूची के रूप में सरल हो सकता है या जितना जटिल हो उतना जटिल हो सकता है यदि आप Google के रूप में चालाक होने की कोशिश करते हैं। एक इंडेक्स बनाना एक सफल खोज इंजन का वास्तव में जादू हिस्सा है। आमतौर पर कई रैंकिंग एल्गोरिदम होते हैं जिन्हें एक साथ रखा जाता है।

4) वैकल्पिक क्वेरी भाषा के साथ अग्रभाग। यह वह जगह है जहां Google वास्तव में खराब है लेकिन जैसा कि आप गुगल सफलता पर देख सकते हैं, यह 98% लोगों के लिए इतना महत्वपूर्ण नहीं हो सकता है। लेकिन मुझे वास्तव में यह याद आती है।

मुझे लगता है कि आप (3) सूचकांक के लिए पूछ रहे हैं। मूल रूप से क्लासिक सूचना पुनर्प्राप्ति साहित्य में आपको 2 अलग-अलग प्रकार के एल्गोरिदम मिलते हैं। वेक्टर स्पेस मॉडल और बूलियन सर्च। बाद में आसान है, बस जांचें कि खोज शब्द दस्तावेज़ के अंदर हैं और एक बूलियन मान लौटाते हैं या नहीं। प्रत्येक खोज शब्द को एक प्रासंगिकता संभावना दी जा सकती है। और विभिन्न खोज शब्दों के लिए आप रिलेवेंज को समेटने के लिए बेयसियन संभावना का उपयोग कर सकते हैं और उच्चतम रैंक वाले दस्तावेज़ों को वापस जोड़ सकते हैं। वेक्टर मॉडल एक दस्तावेज को अपने सभी शब्दों के वेक्टर के रूप में मानता है, आप दस्तावेजों के बीच एक स्केलर वेक्टर उत्पाद बना सकते हैं ताकि वे यह तय कर सकें कि वे एक साथ हैं या नहीं - यह एक बहुत ही जटिल ट्रॉय है। आईआर (सूचना पुनर्प्राप्ति) के पिता जेराल्ड सैल्टन थे, आपको उनके नाम के तहत बहुत सारे साहित्य मिलेंगे।

यह 1 999 तक आईआर कला का राज्य था (मैंने 1 99 8 में एक यूज़नेट न्यूज सर्च इंजन के बारे में अपना डिप्लोमा थीसिस लिखा था)। फिर Google आया और सभी सिद्धांत अकादमिक मूर्खता और प्रैक्टिकल irrelevanz के trashcan में चला गया।

Google मुख्यधारा के आईआर सिद्धांत पर नहीं बनाया गया था। उस लिंक में पढ़ें जो श्रीरंगन ने आपको इसके बारे में बताया था। यह सिर्फ एक विज्ञापन हॉक relevanz समारोह कई अलग-अलग स्रोतों पर निर्माण। श्वेत पत्र विपणन ब्लाब्लाबला के बगल में आपको इस क्षेत्र में कुछ भी नहीं मिलेगा। यह एल्गोरिदम खोज इंजन कंपनियों का व्यवसाय रहस्य और पूंजी है।

सरल खोज इंजन ल्यूसेंस लाइब्रेरी या dtsearch पर देखते हैं जो हमेशा एक एम्बेड करने योग्य खोज इंजन लाइब्रेरी के लिए मेरी पसंद थी।

आईआर तकनीक के बारे में ओपन सोर्स दुनिया में वास्तव में बहुत सारे उदाहरण कोड और उपलब्ध जानकारी नहीं है। उनमें से ज्यादातर ल्यूसेंस बस सबसे आदिम परिचालन को लागू कर रहे हैं।शोध साहित्य तक पहुंचने के लिए आपको किताबें खरीदना और विश्वविद्यालय पुस्तकालय जाना है।

साहित्य के रूप में मैं बहुत विस्तृत जवाब के लिए इस पुस्तक के साथ शुरू link text alt text http://ecx.images-amazon.com/images/I/41HKJYHTQDL._BO2,204,203,200_PIsitb-sticker-arrow-click,TopRight,35,-76_AA240_SH20_OU01_.jpg

+0

@Lothar धन्यवाद की सिफारिश करेंगे। क्या आप पार्सर्स के बारे में किसी भी अच्छे लेख या किताबों के बारे में जानते हैं? प्रोग्रामिंग भाषा को पार्स करने वाले कंपाइलर से अलग पाठ को कैसे पार्स किया जा रहा है? – forme

+0

ठीक है अगर आप वास्तव में चाहते हैं भाषाई प्राकृतिक भाषा संसाधन आप पढ़ना चाहिए "http://www.amazon.com/Natural-Language-Processing-Python-Steve/dp/0596516495/ref=cm_cr_pr_sims_t" और/या पुस्तक "पाठ प्रसंस्करण पायथन में "। यह आपको Google को सही खोज शब्द खोजने या अधिक साहित्य को बिंग करने के लिए पर्याप्त बुनियादी समझ देगा। दुर्भाग्य से सबसे दिलचस्प सामान ऑनलाइन उपलब्ध नहीं है। – Lothar

+0

अब मैं उत्सुक हूं :) (स्थानीय विश्वविद्यालय पुस्तकालय में जा रहा है ...) – forme

संबंधित मुद्दे