मैं TfidfVectorizer implementation के बारे में पढ़ रहा था की scikit-जानने के लिए, मैं नहीं है विधि के उत्पादन में उसका, समझ में उदाहरण के लिए,:scikit-tfidfVectorizer का अर्थ है?
new_docs = ['He watches basketball and baseball', 'Julie likes to play basketball', 'Jane loves to play baseball']
new_term_freq_matrix = tfidf_vectorizer.transform(new_docs)
print tfidf_vectorizer.vocabulary_
print new_term_freq_matrix.todense()
उत्पादन:
{u'me': 8, u'basketball': 1, u'julie': 4, u'baseball': 0, u'likes': 5, u'loves': 7, u'jane': 3, u'linda': 6, u'more': 9, u'than': 10, u'he': 2}
[[ 0.57735027 0.57735027 0.57735027 0. 0. 0. 0.
0. 0. 0. 0. ]
[ 0. 0.68091856 0. 0. 0.51785612 0.51785612
0. 0. 0. 0. 0. ]
[ 0.62276601 0. 0. 0.62276601 0. 0. 0.
0.4736296 0. 0. 0. ]]
क्या है (उदाहरण के लिए: u'me ': 8):
{u'me': 8, u'basketball': 1, u'julie': 4, u'baseball': 0, u'likes': 5, u'loves': 7, u'jane': 3, u'linda': 6, u'more': 9, u'than': 10, u'he': 2}
इस एक मैट्रिक्स है या सिर्फ एक वेक्टर ?, मैं नहीं कर सकते उसका, समझते हैं मुझे उत्पादन कह:
[[ 0.57735027 0.57735027 0.57735027 0. 0. 0. 0.
0. 0. 0. 0. ]
[ 0. 0.68091856 0. 0. 0.51785612 0.51785612
0. 0. 0. 0. 0. ]
[ 0.62276601 0. 0. 0.62276601 0. 0. 0.
0.4736296 0. 0. 0. ]]
क्या कोई मुझे इन आउटपुट में अधिक विस्तार से समझा सकता है?
धन्यवाद!
आउटपुट में यू पैरामीटर क्या है? एनाकोंडा/साइकिट के एक नए डाउनलोड का उपयोग करना और यह प्रदर्शित नहीं हो रहा है। क्या यह अब आउटपुट में प्रदर्शित नहीं है? – BluePython
एफवाईआई - यह यूनिकोड या नहीं (जो पाइथन 3 से पहले संस्करणों पर निर्दिष्ट है) के बीच का अंतर है। – BluePython