8
क्या मौजूदा कॉर्पस में जोड़ने के लिए कोई फ़ंक्शन है? मैंने पहले से ही अपने मैट्रिक्स को जेनरेट कर लिया है, मैं समय-समय पर पूरे शा-बैंग को फिर से क्रंच किए बिना तालिका में जोड़ना चाहता हूंSklearn TFIDIF वेक्टरिज़र (पायथन) में नया टेक्स्ट जोड़ना
उदाहरण;
articleList = ['here is some text blah blah','another text object', 'more foo for your bar right now']
tfidf_vectorizer = TfidfVectorizer(
max_df=.8,
max_features=2000,
min_df=.05,
preprocessor=prep_text,
use_idf=True,
tokenizer=tokenize_text
)
tfidf_matrix = tfidf_vectorizer.fit_transform(articleList)
#### ADDING A NEW ARTICLE TO EXISTING SET?
bigger_tfidf_matrix = tfidf_vectorizer.fit_transform(['the last article I wanted to add'])
के लिए धन्यवाद जवाब देने के लिए समय लेना। मैं प्रासंगिकता के परिणामों की एक सूची उत्पन्न करने के लिए cosine_similarity का उपयोग करके, एक खोज अनुक्रमणिका के रूप में इसका उपयोग करने की कोशिश कर रहा हूं। हर बार जब मैं एक नया दस्तावेज़ जोड़ने की इच्छा जोड़ता हूं तो मेरे पूरे कॉर्पस को दोबारा शुरू करना अच्छा नहीं होगा। –
हे हावर्ड, मैंने 'idf_' को अपडेट करने का तरीका बताया, मेरा संपादित उत्तर – maxymoo
बहुत बढ़िया देखें! महान प्रतिक्रिया के लिए धन्यवाद! –