मैं एक संग्रह प्रणाली के लिए एक सी # विनफॉर्म एप्लिकेशन लिख रहा हूं। सिस्टम में एक विशाल डेटाबेस है जहां कुछ तालिकाओं में 1.5 मिलियन से अधिक रिकॉर्ड होंगे। मुझे जो चाहिए वह एक एल्गोरिदम है जो इन अभिलेखों की सामग्री को अनुक्रमित करता है। मुख्य रूप से, फ़ाइलें माइक्रोसॉफ्ट ऑफिस, पीडीएफ और टीXT दस्तावेज हैं। कोई भी मदद कर सकता है? चाहे विचार, लिंक, किताबें या कोड के साथ, मैं इसकी सराहना करता हूं :)टेक्स्ट इंडेक्सिंग एल्गोरिदम
उदाहरण: यदि मैं डेटाबेस में किसी निश्चित फ़ोल्डर में "अंतर्राष्ट्रीय" शब्द खोजता हूं, तो मुझे उन सभी फाइलें मिलती हैं जिनमें उस शब्द का आदेश दिया गया है प्रासंगिक मानदंड जैसे कि प्रासंगिकता, दिनांक संशोधित करना ... आदि
आप खुद को बनाने के बजाय ऐसा करने के लिए अपने डेटाबेस की अनुक्रमण सुविधाओं का उपयोग क्यों नहीं करेंगे? –
क्या आप प्रत्येक दस्तावेज़ में प्रत्येक शब्द को सूचीबद्ध करना चाहते हैं, या दस्तावेज़ के बारे में सिर्फ सारांश/मेटाडेटा चाहते हैं? –
@ ओजेः मैं फाइलों की सामग्री को इंडेक्स करना चाहता हूं, न कि उनके शीर्षक :) – Majd