2015-09-16 5 views
13

मुझे स्पार्क एमएलआईबीआईबी का उपयोग करके एलडीए विषय मॉडलिंग लागू करने में दिलचस्पी है। मैंने here में कोड और स्पष्टीकरण की जांच की है, लेकिन मुझे एक नए अदृश्य दस्तावेज़ में विषय वितरण खोजने के लिए मॉडल का उपयोग करने का तरीका नहीं मिला।स्पार्क एमएलआईबीबी एलडीए, नए अदृश्य दस्तावेज के विषयों के वितरण का अनुमान कैसे लगाया जाए?

उत्तर

13

स्पार्क 1.5 इस कार्यक्षमता के रूप में DistributedLDAModel के लिए लागू नहीं किया गया।

newDocuments: RDD[(Long, Vector)] = ... 
val topicDistributions = distLDA.toLocal.topicDistributions(newDocuments) 
: क्या आप क्या करने की जरूरत के लिए जा रहे एक LocalLDAModel करने के लिए अपने मॉडल को परिवर्तित toLocal पद्धति का उपयोग करके और फिर topicDistributions(documents: RDD[(Long, Vector]) विधि जहां documents नई (यानी बाहर के प्रशिक्षण) दस्तावेजों, कुछ इस तरह कर रहे हैं कहते हैं

यह ईएम एल्गोरिथ्म कि this paper पता चलता है की तुलना में कम सटीक होने जा रहा है, लेकिन यह काम करेंगे। वैकल्पिक रूप से, आप केवल नए ऑनलाइन विविधता ईएम प्रशिक्षण एल्गोरिदम का उपयोग कर सकते हैं जो पहले से ही LocalLDAModel में परिणाम देता है। तेजी से होने के अलावा, इस नए एल्गोरिथ्म भी सच है कि यह, फिटिंग DistributedLDAModels के लिए बड़े ईएम एल्गोरिथ्म के विपरीत, Dirichlet के मापदंडों (alphas) ​​विषय मिश्रण दस्तावेज़ों के लिए वजन से अधिक के अनुकूलन है पूर्व की वजह से बेहतर है। Wallach, et. al. के अनुसार, अच्छे विषयों को प्राप्त करने के लिए जोर का अनुकूलन बहुत महत्वपूर्ण है।

+1

धन्यवाद। जवाब बहुत उपयोगी है! यदि संभव हो, तो क्या आप अधिक विस्तृत परिणामों के लिए विषय वितरण के आउटपुट को निकालने के तरीके में विस्तार से विस्तार कर सकते हैं? – HappyCoding

+0

मैं इस क्रियान्वित किया है और पता चला topicDistributions [यहां] (https://gist.github.com/alex9311/774089d936eee505d7832c6df2eb597d) – alex9311

+0

कुछ भी 1.6 के लिए बदल दिया मुद्रित करने के लिए कैसे? –

संबंधित मुद्दे

 संबंधित मुद्दे