2012-06-21 9 views
5

में डेटा स्थायी डेटा मैं क्लर्क टेक्स्ट दस्तावेज़ों के लिए scikit-learn का उपयोग कर रहा हूं। मैं कक्षाओं का उपयोग कर रहा हूं CountVectorizer, TfidfTransformer और MiniBatchKMeans मुझे ऐसा करने में मदद करने के लिए। नए पाठ दस्तावेज़ हर समय सिस्टम में जोड़े जाते हैं, जिसका अर्थ है कि मुझे पाठ को बदलने और क्लस्टर की भविष्यवाणी करने के लिए उपर्युक्त कक्षाओं का उपयोग करने की आवश्यकता है। मेरा सवाल है: मैं डिस्क पर डेटा को कैसे स्टोर कर सकता हूं? क्या मुझे बस वेक्टरिज़र, ट्रांसफार्मर और केमैन ऑब्जेक्ट्स को चुनना चाहिए? क्या मुझे डेटा बचाया जाना चाहिए? यदि हां, तो मैं इसे वेक्टरिज़र, ट्रांसफॉर्मर और केमैन ऑब्जेक्ट्स में कैसे जोड़ूं?sklearn

किसी भी मदद की बहुत

उत्तर

6

यह इस बात पर निर्भर करता है कि आप क्या करना चाहते हैं।

आप एक प्रशिक्षण सेट पर कुछ तय क्लस्टर केन्द्रों खोजने के लिए और उसके बाद करना चाहते हैं फिर से उपयोग बाद में उन्हें नए डेटा तो मॉडल नमकीन बनाना (या बस vectorizer की शब्दावली बचत और अन्य मॉडल कंस्ट्रक्टर्स मापदंडों के लिए क्लस्टर कार्य गणना करने के लिए और क्लस्टर केंद्र की स्थिति) ठीक है।

यदि आप जो चाहते हैं वह नए डेटा के साथ क्लस्टरिंग कर रहा है, तो हो सकता है कि आप नए डेटा के संघ का उपयोग करके पूरी पाइपलाइन को फिर से निकालना चाहें + पुराने डेटा को वेक्टरिज़र की शब्दावली के लिए नई सुविधाओं (आयामों)) नए शब्दों के लिए और क्लस्टरिंग एल्गोरिदम को क्लस्टर केंद्र ढूंढने दें जो पूर्ण डेटासेट की संरचना से बेहतर मेल खाता है।

ध्यान दें कि भविष्य में हम हैशिंग vectorizers (उदाहरण के लिए देखते हैं कि यह pull request on hashing transformers पहली बार एक निर्माण खंड के रूप में) प्रदान करेगा, इसलिए भंडारण शब्दावली किसी भी अधिक आवश्यक नहीं होगा (लेकिन आप "अर्थ आत्मनिरीक्षण करने की क्षमता खो देंगे "सुविधा आयामों के)।

मॉडल उनके मापदंडों के लिए अपने स्वयं के प्रतिनिधित्व का उपयोग कर बनाम नमकीन बनाना के लिए जैसा कि मैंने अपने पिछले प्रश्न यहाँ में इस हिस्से का जवाब दे दिया: Persist Tf-Idf data

4

हाँ सराहना की होगी, मुझे लगता है कि साथ सामान्य जवाब pickle है SK-जानने के लिए और प्रार्थना करते हैं।

ऐसा लगता है कि यह एक नाजुक क्रमबद्ध प्रारूप है जो कार्यान्वयन विवरण पर निर्भर नहीं है, इसकी तुलना में यह बहुत नाजुक है। लेकिन शायद वे इसे जानते हैं, और अपने वर्गों में पिछड़े असंगत परिवर्तन नहीं करेंगे?

+0

हम कैसे नाजुक यह है के बारे में पता कर रहे हैं, और नहीं, हम वर्तमान में ऐसा नहीं 100% पिछड़े संगतता की गारंटी दें (हालांकि एमएल पर हर असंगत परिवर्तन पर चर्चा की जानी चाहिए और संगतता आमतौर पर कुछ रिलीज के लिए बनाए रखा जाता है)। एक बेहतर क्रमिकरण समाधान अभी तक नहीं मिला है। –

+0

Google पर काम पर, प्रोटोकॉल बफर एक आसान उपयोग और क्रॉस भाषा क्रमबद्धता प्रारूप की भूमिका निभाते हैं। मेरे शौक के समय में, मैंने थ्रिफ्ट का उपयोग किया है, जो एक अच्छी नौकरी भी करता है। –

संबंधित मुद्दे