2014-09-16 7 views
5

हमारे पास वेब पृष्ठों के लिए वर्गीकरण है। क्लासिफायर मॉडल कुछ 2 साल पहले ट्रेन डेटा के साथ बनाया गया था। हमने देखा है कि मॉडल का प्रदर्शन बिगड़ता रहता है, और हम समय के साथ बदल रहे वेब पेजों के गुणों के कारण मानते हैं (मुख्य रूप से इस्तेमाल किए गए शब्द और शब्दावली, लेकिन टोपोलॉजी, एचटीएमएल टैग इत्यादि)।पर्यवेक्षित शिक्षा के लिए ताज़ा प्रशिक्षण डेटा - कैसे करें?

आप इस समस्या से कैसे संपर्क करेंगे? क्या हम बस पूरे ट्रेन डेटा को फिर से बनाते हैं और एक नया मॉडल फिर से सीखते हैं? क्या कोई शॉर्टकट है? क्या कुछ सामान्य प्रथाएं या कागजात इसे कैसे करें? ध्यान दें कि हम पर्यवेक्षित शिक्षण दृष्टिकोण पर बहुत आकर्षित हैं जहां सिस्टम प्रशासक एक वर्गीकृत को प्रशिक्षित करता है, परीक्षण सेट पर अपने प्रदर्शन का मूल्यांकन करता है और फिर "उत्पादन" प्रणाली में वर्गीकरण स्थापित करता है।

आशा इस बहुत ही अस्पष्ट नहीं है ...

+0

यदि आप मॉडल अब अच्छा नहीं है तो मैं एक नया निर्माण करने का सुझाव दूंगा। मॉडल बनाने के लिए इस्तेमाल किया गया एल्गोरिदम क्या था? – AdrienNK

+0

hi @ihadanny, क्या आपने अपना मुद्दा हल किया है? – tktktk0711

उत्तर

2

कि ध्यान में आ सकता है कारकों की एक संख्या है, प्रमुख हैं वर्गीकारक और डेटा के राज्य जा रहा है।

यदि आपको वेब प्रोटोकॉल बदलने के परिणामस्वरूप किसी भी नए इनपुट की आवश्यकता नहीं है, तो आप अपने मौजूदा क्लासिफायर को ताजा डेटा पर पुनः प्रशिक्षित करने में सक्षम हो सकते हैं।

यदि वर्गीकरण को नए डेटा पर पुनः प्रशिक्षित करने के लिए डिज़ाइन नहीं किया गया है, तो पुराने मॉडल को बचाने में मुश्किल हो सकती है। इसी प्रकार, यदि इनपुट या आउटपुट बदल गए हैं, तो एक नया वर्गीकरण बनाना भी आसान हो सकता है।

मुझे नहीं पता कि आप किस क्लासिफायर का उपयोग कर रहे हैं, या आपके डेटा को रेट करने या संसाधित करने के साधन हैं, इसलिए मैं आपके सामने आने वाली समस्या का सीधा जवाब नहीं दे सकता, या यदि समस्या के लिए कोई शॉर्टकट हैं । यह वास्तव में नीचे आता है कि आपके वर्गीकृत कितना सुलभ है और इसे बनाए रखने की लागत।

जैसा कि ऊपर दिए गए आपके प्रश्न में बताया गया है, यह सिफारिश की जाएगी कि नए वर्गीकरण का परीक्षण किया जाए और यह पुष्टि करने के लिए तुलना की जाए कि यह उत्पादन वातावरण में आवेदन करने से पहले आवश्यकताओं को पूरा करता है।

+0

इसका मूल रूप से होम-ब्रू बाइनरी क्लासिफायर का एक सेट है - प्रत्येक केटोग्री के लिए हम एक टीएफआईडीएफ-शैली स्कोर की गणना करते हैं, और उसके बाद नमूना उस वर्ग से संबंधित संभावना की भविष्यवाणी करते हैं। हम बस उच्चतम संभावना चुनते हैं। – ihadanny

+0

धन्यवाद ihadanny। मुझे लगता है कि यह अतिरिक्त नियम/प्रोटोकॉल है कि मॉडल में खुद को एम्बेड करने की आवश्यकता है, और यह मौजूदा मॉडल को रोकने के लिए सरल/लागत प्रभावी है या नहीं। यदि ये आपके वर्गीकृत (और उम्मीद है कि वे नहीं हैं!) में कोई समस्या नहीं है, तो यह किसी भी मुद्दे का अधिक नहीं होना चाहिए। –

2

यदि आप शेल्फ वर्गीकरण से मानक का उपयोग कर रहे हैं, तो संभवतः नए डेटा के पैरामीटर को अपडेट करने का कोई तरीका नहीं है (यह वास्तव में आप जो भी उपयोग कर रहे हैं उस पर निर्भर करता है)। खरोंच से पुनर्निर्माण शायद सबसे तेज़ तरीका है। यदि आप इस मार्ग पर जाते हैं, तो पुराने डेटा और कुछ नए डेटा को शामिल करने पर विचार करें, संभवतः नए डेटा को अधिक भारित करना (भारित हानि कार्य यह कर सकते हैं)। पुराने डेटा को रखने से शायद आपको बनाए जाने वाले नए डेटा की मात्रा कम हो जाएगी।

यदि आप नए डेटा के प्रकाश में अपने मॉडल को लगातार अद्यतन करने में सक्षम होना चाहते हैं (यानी यदि यह आवर्ती समस्या होगी), तो क्लासिफायर को स्विच करने पर विचार करें जो बॉक्स से ऑनलाइन सीखने का समर्थन करता है। स्पष्ट विकल्प सीखने के तरीकों के निष्क्रिय आक्रामक परिवार में से एक होगा: MIRA बहुत अच्छा है (यह मूल रूप से एक ऑनलाइन एसवीएम है)।

+0

धन्यवाद। मैं समझता हूं कि मिरा को अभी भी पर्यवेक्षित शिक्षा की आवश्यकता है। बड़े डेटासेट के बजाय नमूने एक-एक करके आ सकते हैं, लेकिन आपको उन्हें मशीन पर खिलाने से पहले उन्हें टैग करने की आवश्यकता है। विधिवत रूप से बोलते हुए, क्या आपको लगता है कि आपके द्वारा उल्लिखित पहले दृष्टिकोण का उपयोग करने से बेहतर है - यानी।समय-अंतराल निर्धारित करना (प्रत्येक आधे साल में कहें), जिसमें हम नए डेटा के साथ बड़े डेटा सेट को अपडेट करते हैं, और फिर से ट्रेन करते हैं? – ihadanny

+0

यह पिछले संकेतों के भार के बारे में चिंता करने की आवश्यकता को हटा देता है, लेकिन आप मानक पुस्तकालय कार्यान्वयन को खोजने की बहुत कम संभावना रखते हैं। दोनों उचित विकल्प हैं जो मुझे लगता है –

संबंधित मुद्दे