word2vec: सीबीओ और स्किप-ग्राम प्रदर्शन wrt प्रशिक्षण डेटासेट आकार

प्रश्न सरल है। सीबीओ & स्किप-ग्राम किस बड़े डेटासेट के लिए बेहतर काम करता है? (और छोटे डेटासेट के लिए इस सवाल का जवाब इस प्रकार है।)word2vec: सीबीओ और स्किप-ग्राम प्रदर्शन wrt प्रशिक्षण डेटासेट आकार

मैं, के बाद से भ्रमित कर रहा हूँ खुद Mikolov द्वारा, [Link]

छोड़ें ग्राम: प्रशिक्षण डेटा की छोटी राशि के साथ अच्छी तरह से काम करता है, अच्छी तरह से भी दुर्लभ का प्रतिनिधित्व करता है शब्द या वाक्यांश।

CBOW: कई गुना तेजी से छोड़ ग्राम, लगातार शब्द

के लिए थोड़ा बेहतर सटीकता से प्रशिक्षित लेकिन, गूगल TensorFlow के अनुसार, [Link]

CBOW का एक बहुत से अधिक कोमल बनाता है करने के लिए वितरण संबंधी जानकारी (पूरे संदर्भ को एक अवलोकन के रूप में उपयोग करके)। अधिकांश भाग के लिए, यह छोटे डेटासेट के लिए उपयोगी चीज साबित होता है।

हालांकि, स्किप-ग्राम प्रत्येक संदर्भ-लक्ष्य जोड़ी को एक नए अवलोकन के रूप में मानता है, और यह बेहतर होता है जब हमारे पास बड़े डेटासेट होते हैं। हम इस ट्यूटोरियल के बाकी हिस्सों में स्किप-ग्राम मॉडल पर ध्यान केंद्रित करेंगे।

यहाँ एक Quora पोस्ट जो पहला विचार [Link] का समर्थन करता है, और फिर वहाँ अन्य Quora पोस्ट जो दूसरे सोचा [Link] --both ऊपर उल्लिखित विश्वसनीय सूत्रों से व्युत्पत्ति लगते हैं पता चलता है। सबसे अच्छा अभ्यास कुछ प्रयोगों कोशिश करते हैं और देखते हैं कि क्या आपके लिए सबसे अच्छा काम करता है, के रूप में विभिन्न अनुप्रयोगों के विभिन्न आवश्यकताओं के लिए है,

कुल मिलाकर:

या की तरह क्या Mikolov ने कहा कि यह है।

लेकिन निश्चित रूप से इस मामले पर एक अनुभवजन्य या विश्लेषणात्मक फैसले या अंतिम कहानियां हैं?

स्रोत

2016-08-30 Sean

जब मिकोलोव का मतलब है कि सीबीओओ छोटे डेटासेट के लिए बड़े डेटासेट और एसजी के लिए अच्छा काम करता है, तो मुझे लगता है कि डेटा की मात्रा पर विचार किया जाता है। चूंकि सीबीओओ एक लक्षित शब्द और कई संदर्भ शब्दों को मानता है, इसलिए एसजी में उपयोग किए गए डेटासेट की तुलना में लक्षित वैक्टरों के लिए प्रशिक्षित करने के लिए इसे एक बड़े डेटासेट की आवश्यकता होती है। इसके विपरीत, एसजी में एकल संदर्भ शब्द के लिए कई लक्षित शब्दों के कारण, इसे छोटे डेटासेट की आवश्यकता होती है।

Google टेंसर फ़्लो डेटासेट में शब्दों के वितरण के बारे में बोलता है ताकि डेटासेट की मात्रा के बजाए गुणवत्ता वाले वैक्टर उत्पन्न हो सकें। चूंकि सीबीओओ मॉडल एक वाक्य में सभी लक्षित शब्दों के लिए समान संदर्भ शब्दों पर अधिक विचार करता है, इसलिए एक बड़ा (वितरित) डेटासेट की आवश्यकता होती है और इसके विपरीत एसजी के लिए।

आम में, वे दोनों एक ही मतलब है:

CBOW मॉडल = छोटे वाक्यों लेकिन नमूने की उच्च संख्या (बड़ा डाटासेट)
एसजी मॉडल = डाटासेट लंबे वाक्यों और नमूनों की कम संख्या के साथ साथ डाटासेट (छोटे डेटासेट)

स्रोत

2016-11-09 12:31:00 yazhi

word2vec: सीबीओ और स्किप-ग्राम प्रदर्शन wrt प्रशिक्षण डेटासेट आकार

उत्तर

संबंधित मुद्दे