मैं वेब क्रॉल डंप पर 10 से अधिक टीबी + आकार के विशाल बड़े पैमाने पर डेटा पर word2vec को प्रशिक्षण देने की सोच रहा हूं।वर्ड 2vec को बहुत बड़े डेटासेट पर कैसे प्रशिक्षित किया जाए?
मैंने व्यक्तिगत रूप से सी कार्यान्वयन को प्रशिक्षित किया है, मेरे आईमैक पर GoogleNews-2012 डंप (1.5 जीबी) को प्रशिक्षित करने और वैक्टर उत्पन्न करने के लिए लगभग 3 घंटे लग गए (गति से प्रभावित)। मैं अजगर कार्यान्वयन हालांकि कोशिश नहीं :(मैंने कहीं पढ़ा है 300 वेक्टर लंबाई के विकि डंप (11gb) पर पैदा वैक्टर के बारे में 9 दिन लगते हैं कि उत्पन्न करने के लिए।
word2vec तेजी लाने के लिए कैसे? मैं का उपयोग करने की आवश्यकता है वितरित मॉडल या मैं 2-3 दिनों में यह सब करने की ज़रूरत हार्डवेयर की किस प्रकार? मैं के साथ 8 जीबी राम आईमैक की है।
कौन सा तेजी से? Gensim अजगर या सी अंतर्गत प्रयोग किया है?
मैं देख रहा हूँ वह शब्द 2vec कार्यान्वयन GPU प्रशिक्षण का समर्थन नहीं करता है।