यहां समस्या है - मेरे पास कुछ हज़ार छोटे टेक्स्ट स्निपेट हैं, कुछ शब्दों से कुछ वाक्यों तक कहीं भी - डिस्क पर सबसे बड़ा स्निपेट लगभग 2k है। मैं प्रत्येक को प्रत्येक की तुलना करने में सक्षम होना चाहता हूं, और एक संबंधित कारक की गणना करना चाहता हूं ताकि मैं उपयोगकर्ता से संबंधित जानकारी दिखा सकूं।पाठ के दो निकायों की "संबंधितता" को खोजने के लिए कुछ अच्छे तरीके क्या हैं?
ऐसा करने के कुछ अच्छे तरीके क्या हैं? क्या ऐसा करने के लिए एल्गोरिदम ज्ञात हैं जो कि अच्छे हैं, क्या कोई जीपीएल समाधान है, आदि?
मुझे रीयलटाइम में चलाने के लिए इसकी आवश्यकता नहीं है, क्योंकि मैं सबकुछ सटीक कर सकता हूं। मैं रनटाइम से अच्छे परिणाम प्राप्त करने के लिए अधिक चिंतित हूं।
मैंने सोचा कि मैं अपनी खुद की चीज लिखने और लिखने से पहले स्टैक ओवरफ्लो समुदाय से पूछूंगा। वहां लोगों को वहां होना है जिन्होंने पहले इसके लिए अच्छे समाधान प्राप्त किए हैं।
बहुत अपरिचित प्रश्न। आप किस पर दो ग्रंथों को एक दूसरे से संबंधित मानते हैं? आम विषय? दोहराए गए वाक्यांश? लंबाई? जटिलता? पत्र आवृत्ति? –