2013-04-27 12 views
7

मुझे एकत्र किए गए 20,000 दस्तावेज़ों के डेटा बेस से संभावित विषय प्राप्त करने के लिए मुझे एलडीए (लेटेंट ड्रिचलेट आवंटन) लागू करना होगा।क्या हम जीएनएसआईएम का उपयोग कर एलडीए के लिए प्रशिक्षण के लिए स्वयं निर्मित कॉर्पस का उपयोग कर सकते हैं?

ब्राउन कॉर्पस या अंग्रेजी विकिपीडिया जैसे प्रशिक्षण के रूप में उपलब्ध अन्य कॉर्पस के बजाय मैं इन दस्तावेजों का उपयोग कैसे कर सकता हूं?

आप this पृष्ठ देख सकते हैं।

+1

यह प्रश्न थोड़ा सा खुला है; यदि आप अब तक जो कोशिश कर चुके हैं और आप किस विशिष्ट समस्या का सामना कर रहे हैं, उसके बारे में अधिक विशिष्ट हो सकते हैं, तो आपको उत्तर प्राप्त होने की अधिक संभावना हो सकती है। – ASGM

+0

मैंने सवाल संपादित किया है! –

+0

यदि आपको यह पसंद नहीं है, तो बस इसे बंद करने के लिए वोट दें। –

उत्तर

12

गैन्सिम पैकेज के दस्तावेज़ीकरण के माध्यम से जाने के बाद, मुझे पता चला कि पाठ भंडार को कॉर्पस में बदलने के कुल 4 तरीके हैं।

वहाँ कोष के लिए कुल 4 प्रारूप हैं:

  1. बाजार मैट्रिक्स (.mm)
  2. SVM लाइट (.svmlight)
  3. Blie स्वरूप (.lad-ग)
  4. कम स्वरूप (.low)

इस समस्या में, ऊपर वर्णित अनुसार डेटाबेस में कुल 19,188 दस्तावेज़ हैं। प्रत्येक को प्रत्येक दस्तावेज़ को पढ़ना होगा और वाक्यों से स्टॉपवर्ड और विराम चिह्नों को हटा देना होगा, जिसे nltk का उपयोग करके किया जा सकता है।

import gensim 
from gensim import corpora, similarities, models 

## 
##Text Preprocessing is done here using nltk 
## 

##Saving of the dictionary and corpus is done here 
##final_text contains the tokens of all the documents 

dictionary = corpora.Dictionary(final_text) 
dictionary.save('questions.dict'); 
corpus = [dictionary.doc2bow(text) for text in final_text] 
corpora.MmCorpus.serialize('questions.mm', corpus) 
corpora.SvmLightCorpus.serialize('questions.svmlight', corpus) 
corpora.BleiCorpus.serialize('questions.lda-c', corpus) 
corpora.LowCorpus.serialize('questions.low', corpus) 

##Then the dictionary and corpus can be used to train using LDA 

mm = corpora.MmCorpus('questions.mm') 
lda = gensim.models.ldamodel.LdaModel(corpus=mm, id2word=dictionary, num_topics=100, update_every=0, chunksize=19188, passes=20) 

इस तरह एक कोष कि gensim पैकेज का उपयोग झील प्राधिकरण का उपयोग कर विषय मॉडलिंग के लिए प्रशिक्षित किया जा सकता करने के लिए अपने डाटासेट बदल सकता है।

+0

क्या आपके पास इन प्रारूपों के उदाहरणों के लिंक हैं? –

+0

@PiotrMigdal हाय, आप [यहां] (https://radimrehurek.com/gensim/tut1.html#corpus-formats) पर एक नज़र डाल सकते हैं। –

+0

मैंने पहले ही वहां देखा है, लेकिन कोई उदाहरण नहीं हैं (यानी किसी दिए गए प्रारूप के साथ फ़ाइल की कुछ पंक्तियां)। Http://cscorley.github.io/2014/05/06/using-gensim-for-lda/ पर 'मैलेट' का केवल एक उदाहरण है। –

संबंधित मुद्दे

 संबंधित मुद्दे