में डेटा स्थायी डेटा मैं क्लर्क टेक्स्ट दस्तावेज़ों के लिए scikit-learn का उपयोग कर रहा हूं। मैं कक्षाओं का उपयोग कर रहा हूं CountVectorizer, TfidfTransformer और MiniBatchKMeans मुझे ऐसा करने में मदद करने के लिए। नए पाठ दस्तावेज़ हर समय सिस्टम में जोड़े जाते हैं, जिसका अर्थ है कि मुझे पाठ को बदलने और क्लस्टर की भविष्यवाणी करने के लिए उपर्युक्त कक्षाओं का उपयोग करने की आवश्यकता है। मेरा सवाल है: मैं डिस्क पर डेटा को कैसे स्टोर कर सकता हूं? क्या मुझे बस वेक्टरिज़र, ट्रांसफार्मर और केमैन ऑब्जेक्ट्स को चुनना चाहिए? क्या मुझे डेटा बचाया जाना चाहिए? यदि हां, तो मैं इसे वेक्टरिज़र, ट्रांसफॉर्मर और केमैन ऑब्जेक्ट्स में कैसे जोड़ूं?sklearn
किसी भी मदद की बहुत
हम कैसे नाजुक यह है के बारे में पता कर रहे हैं, और नहीं, हम वर्तमान में ऐसा नहीं 100% पिछड़े संगतता की गारंटी दें (हालांकि एमएल पर हर असंगत परिवर्तन पर चर्चा की जानी चाहिए और संगतता आमतौर पर कुछ रिलीज के लिए बनाए रखा जाता है)। एक बेहतर क्रमिकरण समाधान अभी तक नहीं मिला है। –
Google पर काम पर, प्रोटोकॉल बफर एक आसान उपयोग और क्रॉस भाषा क्रमबद्धता प्रारूप की भूमिका निभाते हैं। मेरे शौक के समय में, मैंने थ्रिफ्ट का उपयोग किया है, जो एक अच्छी नौकरी भी करता है। –