मेरे पास ग्रंथों का एक बड़ा संग्रह है, जहां प्रत्येक पाठ तेजी से बढ़ रहा है। मुझे समानता खोज को लागू करने की आवश्यकता है।ग्रंथों के समानता के लिए elasticsearch के साथ Word2vec
विचार प्रत्येक शब्द को word2vec के रूप में एम्बेड करना है, और प्रत्येक पाठ को वेक्टर द्वारा सामान्यीकृत वेक्टर के रूप में प्रस्तुत करना है- इसमें प्रत्येक शब्द के एम्बेडिंग जोड़ना। टेक्स्ट के बाद के संस्करणों के परिणामस्वरूप परिणामस्वरूप टेक्स्ट के वेक्टर को परिष्कृत किया जाएगा जिससे नए शब्द वैक्टर जोड़े जा सकें।
क्या किसी दस्तावेज़ में प्रत्येक पाठ के सामान्यीकृत वेक्टर के केवल निर्देशांक संग्रहीत करके कोसाइन समानता के लिए लोचदार खोज का उपयोग करना संभव है? यदि हां, तो ऐसी खोज के लिए उचित सूचकांक संरचना क्या है?
दस्तावेजों की संख्या के साथ यह पैमाने कैसे है? क्या यह टीएफ-आईडीएफ की तुलना में बहुत खराब स्केलेबिलिटी-वार है, जो कि एक उलटा इंडेक्स रखता है? –