गैन्सिम पैकेज के दस्तावेज़ीकरण के माध्यम से जाने के बाद, मुझे पता चला कि पाठ भंडार को कॉर्पस में बदलने के कुल 4 तरीके हैं।
वहाँ कोष के लिए कुल 4 प्रारूप हैं:
- बाजार मैट्रिक्स (.mm)
- SVM लाइट (.svmlight)
- Blie स्वरूप (.lad-ग)
- कम स्वरूप (.low)
इस समस्या में, ऊपर वर्णित अनुसार डेटाबेस में कुल 19,188 दस्तावेज़ हैं। प्रत्येक को प्रत्येक दस्तावेज़ को पढ़ना होगा और वाक्यों से स्टॉपवर्ड और विराम चिह्नों को हटा देना होगा, जिसे nltk
का उपयोग करके किया जा सकता है।
import gensim
from gensim import corpora, similarities, models
##
##Text Preprocessing is done here using nltk
##
##Saving of the dictionary and corpus is done here
##final_text contains the tokens of all the documents
dictionary = corpora.Dictionary(final_text)
dictionary.save('questions.dict');
corpus = [dictionary.doc2bow(text) for text in final_text]
corpora.MmCorpus.serialize('questions.mm', corpus)
corpora.SvmLightCorpus.serialize('questions.svmlight', corpus)
corpora.BleiCorpus.serialize('questions.lda-c', corpus)
corpora.LowCorpus.serialize('questions.low', corpus)
##Then the dictionary and corpus can be used to train using LDA
mm = corpora.MmCorpus('questions.mm')
lda = gensim.models.ldamodel.LdaModel(corpus=mm, id2word=dictionary, num_topics=100, update_every=0, chunksize=19188, passes=20)
इस तरह एक कोष कि gensim पैकेज का उपयोग झील प्राधिकरण का उपयोग कर विषय मॉडलिंग के लिए प्रशिक्षित किया जा सकता करने के लिए अपने डाटासेट बदल सकता है।
स्रोत
2013-04-28 05:48:43
यह प्रश्न थोड़ा सा खुला है; यदि आप अब तक जो कोशिश कर चुके हैं और आप किस विशिष्ट समस्या का सामना कर रहे हैं, उसके बारे में अधिक विशिष्ट हो सकते हैं, तो आपको उत्तर प्राप्त होने की अधिक संभावना हो सकती है। – ASGM
मैंने सवाल संपादित किया है! –
यदि आपको यह पसंद नहीं है, तो बस इसे बंद करने के लिए वोट दें। –