मैं एक इन-हाउस एप्लिकेशन लिख रहा हूं जिसमें टेक्स्ट जानकारी के कई टुकड़े हैं और पाठ के इन टुकड़ों के बारे में डेटा के कई टुकड़े हैं। प्रवेश के क्रम में डेटा के इन टुकड़े डेटाबेस (SQL सर्वर, हालांकि यह बदल सकता है) के भीतर आयोजित किया जाएगा।एक सूचना पुनर्प्राप्ति आवेदन के लिए सी # में एक उलटा इंडेक्स लिखना
मैं जानकारी के इन टुकड़ों के सबसे प्रासंगिक खोज में सक्षम होना चाहता हूं, इनमें से सबसे प्रासंगिक शीर्ष पर होना चाहिए। मैंने मूल रूप से एसक्यूएल सर्वर फुल-टेक्स्ट सर्च का उपयोग करने में देखा लेकिन यह मेरी अन्य जरूरतों के लिए लचीला नहीं है जैसा कि मैंने आशा की थी, ऐसा लगता है कि मुझे इसके लिए अपना स्वयं का समाधान विकसित करना होगा।
जो मुझे समझ में आता है वह inverted index है, फिर कहा गया उल्लिखित सूचकांक की सामग्री को पुनर्स्थापित और संशोधित अतिरिक्त जानकारी के परिणामों के आधार पर संशोधित किया गया है (हालांकि अब के लिए इसे बाद की तारीख के लिए छोड़ा जा सकता है मैं सिर्फ उलटा इंडेक्स डेटाबेस तालिका/स्ट्रिंग्स से मुख्य पाठ को इंडेक्स करना चाहता हूं)।
मुझे जावा में इस कोड को एक हैशटेबल का उपयोग करके शब्द और मूल्य के रूप में शब्द की घटनाओं की सूची के रूप में लिखने पर एक दरार है लेकिन सभी ईमानदारी में मैं अभी भी सी # पर नया हूं और सूचनाओं को संभालने के दौरान केवल डेटासेट्स और डेटाटेबल्स जैसी चीजों का उपयोग किया जाता है। अनुरोध किया गया है कि एक बार मैंने वायरस के इस लैपटॉप को मंजूरी मिलने के बाद जल्द ही जावा कोड अपलोड कर दूंगा।
यदि किसी तालिका से या स्ट्रिंग्स की सूची से प्रविष्टियों का एक सेट दिया गया है, तो सी # में एक उलटा इंडेक्स कैसे बना सकता है जो अधिमानतः डेटासेट/डेटाटेबल में सहेजा जाएगा?
संपादित करें: मैं मैं पहले से ही Lucene और Nutch की कोशिश की है कि उल्लेख है, लेकिन Lucene संशोधित मेरी जरूरतों को पूरा करने को लम्बे समय तक एक औंधा सूचकांक लिखने की तुलना में ले जाएगा के रूप में अपने खुद के समाधान की आवश्यकता भूल गया। मैं बहुत सारे मेटा-डेटा को संभालने वाला हूं जो बुनियादी उलटा इंडेक्स पूरा होने के बाद भी हैंडलिंग की आवश्यकता होगी, इसलिए अब मुझे उलटा इंडेक्स का उपयोग करके एक क्षेत्र पर एक मूल पूर्ण-पाठ खोज है। अंत में, एक उलटा इंडेक्स पर काम करना ऐसा कुछ नहीं है जो मुझे हर दिन करना पड़ता है, इसलिए इसमें एक दरार होना अच्छा होगा।
जेनरिक पर आधारित एक और सी # उलटा इंडेक्स है: http://www.aleandmusic.com/InvertedIndex.aspx –