मैं क्लस्टर टिप्पणियों के लिए विज्ञान सीखने के केमन्स एल्गोरिदम का उपयोग कर रहा हूं।केमैन कैसे जानते हैं कि दस्तावेजों को क्लस्टर कैसे करें जब हम केवल अलग-अलग शब्दों के tfidf वैक्टर को खिलाते हैं?
sentence_list=['hello how are you', "I am doing great", "my name is abc"]
vectorizer=TfidfVectorizer(min_df=1, max_df=0.9, stop_words='english', decode_error='ignore')
vectorized=vectorizer.fit_transform(sentence_list)
km=KMeans(n_clusters=num_clusters, init='k-means++',n_init=10, verbose=1)
km.fit(vectorized)
जब मैं vectorized के उत्पादन में प्रिंट, यह मेरे शब्द और सूचकांक के tf-आईडीएफ स्कोर के सूचकांक देता है।
तो सोच रहा im, यह देखते हुए कि हम केवल शब्दों के tfidf स्कोर प्राप्त करें, यह कैसे है कि हम और अलग-अलग शब्दों के आधार पर दस्तावेजों क्लस्टर में कामयाब नहीं एक पूरे दस्तावेज़ के स्कोर है? या शायद यह ऐसा करता है..क्या कोई मुझे इसके पीछे अवधारणा समझा सकता है?
सुनिश्चित नहीं है कि आप क्या पूछ रहे हैं। शब्दों को शब्दों में विभाजित करने की प्रक्रिया वेक्टरेशन/फिटिंग प्रक्रिया का हिस्सा है। – BrenBarn
मेरा अंतिम लक्ष्य वाई अक्ष के साथ 2 डी ग्राफ प्लॉट करने में सक्षम होना है, जो टीएफआईडीएफ स्कोर और एक्स-अक्ष हो सकता है, शायद गिनती वेक्टर (या कुछ और जो अधिक समझ में आता है) और प्रत्येक डेटा पॉइंट 1 दस्तावेज़ है। तो मुझे यह जानने के लिए उत्सुक था कि क्या प्रत्येक वाक्य के लिए स्कोर वास्तव में दृश्य के पीछे गणना की जाती है जैसे कि सबसे समान स्कोर वाले क्लस्टर एक साथ क्लस्टर किए जाते हैं? – jxn