मैं बड़े डेटाबेस में लंबे, अनुमानित सबस्ट्रिंग खोजने की कोशिश कर रहा हूं। उदाहरण के लिए, एक क्वेरी 1000 वर्ण सबस्ट्रिंग हो सकती है जो कई सौ संपादनों की लेवेनशेटिन दूरी से मैच से भिन्न हो सकती है। मैंने सुना है कि अनुक्रमित क्यू-ग्राम ऐसा कर सकते हैं, लेकिन मुझे कार्यान्वयन के विवरण नहीं पता हैं। मैंने यह भी सुना है कि लुसीन ऐसा कर सकता है, लेकिन ल्यूसीन का लेवेनशेटिन एल्गोरिदम सैकड़ों संपादन के लिए पर्याप्त तेज़ है? शायद चोरी चोरी की दुनिया से बाहर कुछ? किसी भी सलाह की सराहना की है।एक बड़े डेटाबेस में (बहुत) अनुमानित सबस्ट्रिंग्स खोजें
5
A
उत्तर
1
क्यू ग्राम एक दृष्टिकोण हो सकता है, लेकिन ऐसी ब्लास्ट, BlastP के रूप में दूसरों रहे हैं - जो प्रोटीन के लिए उपयोग किया जाता है, न्यूक्लियोटाइड मैचों आदि
Simmetrics पुस्तकालय स्ट्रिंग दूरी दृष्टिकोण की एक व्यापक संग्रह है।
+0
आपको कोसाइन समानता भी देखना चाहिए – Mikos
1
लुसीन यहां सही उपकरण प्रतीत नहीं होता है। मिकोस के अच्छे सुझावों के अलावा, मैंने AGREP, FASTA और Locality-Sensitive Hashing(LSH) के बारे में सुना है। मेरा मानना है कि एक कुशल विधि को पहले खोज स्थान को भारी रूप से छीनना चाहिए, और उसके बाद शेष उम्मीदवारों पर अधिक परिष्कृत स्कोरिंग करना चाहिए।
संबंधित मुद्दे
- 1. डेटाबेस में अनुमानित खोज
- 2. एक बहुत बड़े मैट्रिक्स
- 3. दो बहुत बड़े Arrays
- 4. दो तारों के बीच सभी सबस्ट्रिंग्स खोजें
- 5. एक अनुमानित
- 6. सबस्ट्रिंग्स
- 7. स्थानीय फ़ंक्शन के लिए अनुमानित प्रकार खोजें
- 8. बहुत बड़े स्पैस मैट्रिक्स
- 9. प्रिंटिंग बहुत बड़े BigIntegers
- 10. बहुत बड़े डेटा
- 11. MySQL - सभी डेटाबेस में एक तालिका खोजें
- 12. प्रसंस्करण बहुत बड़े पाठ फ़ाइलें
- 13. एक बड़े पैमाने पर स्ट्रिंग में लंबे समय से दोहराए गए सबस्ट्रिंग्स को ढूंढना
- 14. एक अनुमानित
- 15. एक बार में कई सबस्ट्रिंग्स को बदलें
- 16. बड़े वॉल्यूम डेटाबेस
- 17. बहुत छोटे आवेषणों में डेटाबेस में बहुत सारे डेटा डालें
- 18. लिनक्स कोर डंप बहुत बड़े हैं!
- 19. बहुत बड़े रिपोजिटरी का हिस्सा प्राप्त/खींचें?
- 20. प्रदर्शन-वार: बहुत सारे छोटे पीएनजी या एक बड़े पीएनजी?
- 21. सबस्ट्रिंग्स की जगह बदलना
- 22. सोप अनुरोध बहुत बड़ा बड़े डेटा
- 23. बहुत बड़े पूर्णांक का तेज़ गुणा
- 24. एक बड़े स्पैस मैट्रिक्स
- 25. SQL सर्वर डेटाबेस में सबसे बड़ी ऑब्जेक्ट्स कैसे खोजें?
- 26. एक ORM के साथ बड़े मात्रा डेटाबेस अपडेट
- 27. सूचकांक एक बड़े डेटाबेस के लिए अच्छा या बुरा हैं?
- 28. हाइबरनेट @ अनुमानित मैपिंग
- 29. कितने डेटाबेस इंडेक्स बहुत अधिक हैं?
- 30. mysql डेटाबेस में बड़े सीएसवी आयात कर रहा है
ब्याज से, स्ट्रिंग जानकारी क्या होगी जो आप खोज रहे हैं - पाठ्यचर्या की जानकारी या किसी भिन्न रूप में संरचित कुछ? –