2012-06-22 10 views
30

मैंने एलडीए पढ़ा है और मैं गणित को समझता हूं कि दस्तावेज़ों के संग्रह को इनपुट करते समय विषय कैसे उत्पन्न होते हैं।एलडीए विषय मॉडलिंग - प्रशिक्षण और परीक्षण

संदर्भों का कहना है कि एलडीए एक एल्गोरिदम है, जिसमें दस्तावेजों का संग्रह दिया गया है और कुछ भी नहीं (कोई पर्यवेक्षण आवश्यक नहीं है), उस संग्रह में दस्तावेजों द्वारा व्यक्त किए गए "विषयों" को उजागर कर सकता है। इस प्रकार एलडीए एल्गोरिदम और गिब्स नमूने (या वैरिएबल बेयस) का उपयोग करके, मैं दस्तावेजों का एक सेट इनपुट कर सकता हूं और आउटपुट के रूप में मैं विषय प्राप्त कर सकता हूं। प्रत्येक विषय असाइन की गई संभावनाओं के साथ शर्तों का एक सेट है।

जो मुझे समझ में नहीं आता है, अगर उपर्युक्त सत्य है, तो कई विषय मॉडलिंग ट्यूटोरियल डेटासेट को प्रशिक्षण और परीक्षण सेट में अलग करने के बारे में क्यों बात करते हैं?

क्या कोई मुझे मॉडल को प्रशिक्षित करने के लिए एलडीए का उपयोग कैसे किया जा सकता है, इसके बारे में कुछ कदम (बुनियादी अवधारणा) समझा सकता है, जिसका उपयोग किसी अन्य परीक्षण डेटासेट का विश्लेषण करने के लिए किया जा सकता है?

+1

एक अच्छा सवाल है! – KillBill

उत्तर

30

प्रशिक्षण और परीक्षण सेट में डेटा को विभाजित करना सीखने वाले एल्गोरिदम के प्रदर्शन का मूल्यांकन करने में एक आम कदम है। पर्यवेक्षित शिक्षा के लिए यह अधिक स्पष्ट है, जिसमें आप प्रशिक्षण सेट पर मॉडल को प्रशिक्षित करते हैं, फिर परीक्षण सेट पर इसकी वर्गीकरण कितनी अच्छी तरह से सच वर्ग लेबल से मेल खाते हैं। असुरक्षित शिक्षा के लिए, इस तरह का मूल्यांकन थोड़ा सा ट्रिकियर है। विषय मॉडलिंग के मामले में, प्रदर्शन का एक सामान्य उपाय perplexity है। आप ट्रेनिंग सेट पर मॉडल (एलडीए की तरह) को प्रशिक्षित करते हैं, और फिर आप देखते हैं कि मॉडल परीक्षण के सेट पर "परेशान" कैसे है। अधिक विशेष रूप से, आप मापते हैं कि परीक्षण दस्तावेजों की शब्द गणना कितनी अच्छी तरह से विषयों द्वारा प्रतिनिधित्व किए गए वितरण शब्द द्वारा दर्शायी जाती है।

प्रतिकृतियां मॉडल या पैरामीटर सेटिंग्स के बीच सापेक्ष तुलना के लिए अच्छा है, लेकिन यह संख्यात्मक मान वास्तव में बहुत अधिक नहीं है।

  1. निरीक्षण विषयों: प्रत्येक विषय में सर्वाधिक संभावना शब्द को देखो मैं निम्नलिखित, कुछ हद तक मैनुअल, मूल्यांकन प्रक्रिया का उपयोग कर विषय मॉडल का मूल्यांकन करने के पसंद करते हैं। क्या वे आवाज करते हैं जैसे वे एक समेकित "विषय" या शब्दों के कुछ यादृच्छिक समूह बनाते हैं?
  2. विषय असाइनमेंट का निरीक्षण करें: प्रशिक्षण से कुछ यादृच्छिक दस्तावेज रखें और देखें कि एलडीए उन्हें कौन से विषय सौंपता है। असाइन किए गए विषयों में दस्तावेज़ों और शीर्ष शब्दों का मैन्युअल रूप से निरीक्षण करें। क्या यह वास्तव में वर्णन करता है कि दस्तावेज़ वास्तव में किस दस्तावेज़ के बारे में बात कर रहे हैं?

मुझे एहसास है कि यह प्रक्रिया उतनी अच्छी और मात्रात्मक नहीं है जितनी किसी को पसंद हो सकती है, लेकिन ईमानदार होने के लिए, विषय मॉडल के अनुप्रयोग शायद ही कभी मात्रात्मक होते हैं। मैं सुझाव देता हूं कि आप जिस समस्या को लागू कर रहे हैं उसके अनुसार अपने विषय मॉडल का मूल्यांकन करना।

शुभकामनाएं!

+0

अच्छा स्पष्टीकरण के लिए धन्यवाद ग्रेगैमिस। आपके पॉइंट नंबर 2 के लिए)। दस्तावेज के लिए विषय असाइनमेंट, आप किसी दस्तावेज़ में शब्दों को विषयों को निर्दिष्ट करने के बारे में कैसे जाते हैं? क्या आप अनुक्रमिक रूप से दस्तावेज़ में शब्दों के माध्यम से जाते हैं और किसी विषय में एक ही शब्द के लिए खोज करते हैं और उस शब्द को उस शब्द को असाइन करते हैं? ठीक है अगर आप ऐसा करते हैं, तो क्या होता है जब उच्च संभावना वाले 1 से अधिक विषयों में कोई शब्द मौजूद होता है? एक बहुत ही छोटा उदाहरण, 'नदी बैंक' और 'बैंक खाता' कहें। – tan

+1

@tan: विषयों को दस्तावेजों को सौंपा जाना चाहिए शब्द नहीं। मैन्युअल रूप से भी नहीं। –

+0

@ एग्रीमिस: इस पोस्ट के लिए धन्यवाद। तो, क्या हम केवल विषय मॉडल का मूल्यांकन करने के लिए पर्यवेक्षित एलडीए/किसी अन्य विषय मॉडलिंग तकनीक का उपयोग करते हैं? – user1930402

संबंधित मुद्दे