2013-03-27 9 views
5

मैं एक csr_matrix कि मैं scikit के tfidf vectorizer का उपयोग कर प्राप्त, और y जो एक सरणी है के रूप में एक्स हैआप एक gensim corpus चर को csr_matrix के साथ कैसे प्रारंभ करते हैं?

मेरे योजना झील प्राधिकरण का उपयोग कर सुविधाओं बनाने के लिए है, फिर भी, मैं एक्स के साथ एक gensim के कोष चर को प्रारंभ करने के लिए कैसे को खोजने में असफल एक csr_matrix के रूप में। दूसरे शब्दों में, मैं एक कॉर्पस डाउनलोड नहीं करना चाहता जैसा कि जेन्सिम के दस्तावेज़ीकरण में दिखाया गया है और न ही एक्स को घने मैट्रिक्स में परिवर्तित करता है, क्योंकि इससे बहुत सारी मेमोरी का उपभोग होगा और कंप्यूटर लटका सकता है।

संक्षेप में, मेरे सवालों का, निम्नलिखित हैं

  1. आप एक gensim कोष कैसे प्रारंभ करते दिया मैं एक csr_matrix (विरल) पूरे कोष का प्रतिनिधित्व है?
  2. आप सुविधाओं को निकालने के लिए एलडीए का उपयोग कैसे करते हैं?
+0

क्या हम इस विधि में टर्म फ्रीक्वेंसी मैट्रिक्स भी पास कर सकते हैं? – Shashank

उत्तर

7

Gensim एक अर्द्ध अच्छी तरह से छुपा समारोह आपके लिए यह कार्य एक तरह से कर सकते हैं कि है:

http://radimrehurek.com/gensim/matutils.html#gensim.matutils.Sparse2Corpus

"वर्ग gensim.matutils.Sparse2Corpus (विरल, documents_columns = सच) कन्वर्ट एक एक स्ट्रीमिंग जेन्सिम कॉर्पस में scipy.sparse प्रारूप में मैट्रिक्स। "

मुझे काउंटर वेक्टरोरिज़र के साथ निकाले गए कॉर्पस का उपयोग करके इसके साथ कुछ सफलता मिली है, फिर गैन्सिम में लोड किया गया है।

+0

धन्यवाद एक लाख @ फ्रेड, एक आकर्षण की तरह काम किया! – Curious

संबंधित मुद्दे