मैं वाक्य की मेरी सूची के लिए x-axis के साथ x-axis के साथ शब्द और वाई-अक्ष के रूप में TFIDF स्कोर (या दस्तावेज़ आईडी) के रूप में प्लॉट करना चाहता हूं। मैंने ssyy matrix प्राप्त करने के लिए scikit learn's fit_transform() का उपयोग किया लेकिन मुझे नहीं पता कि ग्राफ को साजिश करने के लिए उस मैट्रिक्स का उपयोग कैसे करें। मैं यह देखने के लिए एक साजिश प्राप्त करने की कोशिश कर रहा हूं कि मेरे वाक्य को केमैन का उपयोग करके वर्गीकृत किया जा सकता है।प्लॉट एक दस्तावेज़ tfidf 2D ग्राफ
(दस्तावेज़ आईडी, अवधि संख्या) tfidf स्कोर
(0, 1023) 0.209291711271
(0, 924) 0.174405532933
(0, 914) 0.174405532933
(0, 821) 0.15579574484
(0, 770) 0.174405532933
(0, 763) 0.159719994016
(0, 689) 0.135518787598
यहाँ मेरी कोड है::
यहाँ fit_transform(sentence_list)
का आउटपुट है
sentence_list=["Hi how are you", "Good morning" ...]
vectorizer=TfidfVectorizer(min_df=1, stop_words='english', decode_error='ignore')
vectorized=vectorizer.fit_transform(sentence_list)
num_samples, num_features=vectorized.shape
print "num_samples: %d, num_features: %d" %(num_samples,num_features)
num_clusters=10
km=KMeans(n_clusters=num_clusters, init='k-means++',n_init=10, verbose=1)
km.fit(vectorized)
PRINT km.labels_ # Returns a list of clusters ranging 0 to 10
धन्यवाद,
आप के लिए निम्नलिखित काम करता है? यह होना चाहिए कि आप केवल एक साधारण 2 डी साजिश देख रहे हों। http://matplotlib.org/examples/pylab_examples/simple_plot.html –