2016-08-30 10 views
5

प्रश्न सरल है। सीबीओ & स्किप-ग्राम किस बड़े डेटासेट के लिए बेहतर काम करता है? (और छोटे डेटासेट के लिए इस सवाल का जवाब इस प्रकार है।)word2vec: सीबीओ और स्किप-ग्राम प्रदर्शन wrt प्रशिक्षण डेटासेट आकार

मैं, के बाद से भ्रमित कर रहा हूँ खुद Mikolov द्वारा, [Link]

छोड़ें ग्राम: प्रशिक्षण डेटा की छोटी राशि के साथ अच्छी तरह से काम करता है, अच्छी तरह से भी दुर्लभ का प्रतिनिधित्व करता है शब्द या वाक्यांश।

CBOW: कई गुना तेजी से छोड़ ग्राम, लगातार शब्द

के लिए थोड़ा बेहतर सटीकता से प्रशिक्षित लेकिन, गूगल TensorFlow के अनुसार, [Link]

CBOW का एक बहुत से अधिक कोमल बनाता है करने के लिए वितरण संबंधी जानकारी (पूरे संदर्भ को एक अवलोकन के रूप में उपयोग करके)। अधिकांश भाग के लिए, यह छोटे डेटासेट के लिए उपयोगी चीज साबित होता है।

हालांकि, स्किप-ग्राम प्रत्येक संदर्भ-लक्ष्य जोड़ी को एक नए अवलोकन के रूप में मानता है, और यह बेहतर होता है जब हमारे पास बड़े डेटासेट होते हैं। हम इस ट्यूटोरियल के बाकी हिस्सों में स्किप-ग्राम मॉडल पर ध्यान केंद्रित करेंगे।

यहाँ एक Quora पोस्ट जो पहला विचार [Link] का समर्थन करता है, और फिर वहाँ अन्य Quora पोस्ट जो दूसरे सोचा [Link] --both ऊपर उल्लिखित विश्वसनीय सूत्रों से व्युत्पत्ति लगते हैं पता चलता है। सबसे अच्छा अभ्यास कुछ प्रयोगों कोशिश करते हैं और देखते हैं कि क्या आपके लिए सबसे अच्छा काम करता है, के रूप में विभिन्न अनुप्रयोगों के विभिन्न आवश्यकताओं के लिए है,

कुल मिलाकर:

या की तरह क्या Mikolov ने कहा कि यह है।

लेकिन निश्चित रूप से इस मामले पर एक अनुभवजन्य या विश्लेषणात्मक फैसले या अंतिम कहानियां हैं?

उत्तर

3

जब मिकोलोव का मतलब है कि सीबीओओ छोटे डेटासेट के लिए बड़े डेटासेट और एसजी के लिए अच्छा काम करता है, तो मुझे लगता है कि डेटा की मात्रा पर विचार किया जाता है। चूंकि सीबीओओ एक लक्षित शब्द और कई संदर्भ शब्दों को मानता है, इसलिए एसजी में उपयोग किए गए डेटासेट की तुलना में लक्षित वैक्टरों के लिए प्रशिक्षित करने के लिए इसे एक बड़े डेटासेट की आवश्यकता होती है। इसके विपरीत, एसजी में एकल संदर्भ शब्द के लिए कई लक्षित शब्दों के कारण, इसे छोटे डेटासेट की आवश्यकता होती है।

Google टेंसर फ़्लो डेटासेट में शब्दों के वितरण के बारे में बोलता है ताकि डेटासेट की मात्रा के बजाए गुणवत्ता वाले वैक्टर उत्पन्न हो सकें। चूंकि सीबीओओ मॉडल एक वाक्य में सभी लक्षित शब्दों के लिए समान संदर्भ शब्दों पर अधिक विचार करता है, इसलिए एक बड़ा (वितरित) डेटासेट की आवश्यकता होती है और इसके विपरीत एसजी के लिए।

आम में, वे दोनों एक ही मतलब है:

  • CBOW मॉडल = छोटे वाक्यों लेकिन नमूने की उच्च संख्या (बड़ा डाटासेट)
  • एसजी मॉडल = डाटासेट लंबे वाक्यों और नमूनों की कम संख्या के साथ साथ डाटासेट (छोटे डेटासेट)
संबंधित मुद्दे