6

से सुविधाओं का चयन और निकालने के लिए मैंने अभी वर्गीकरण समस्या पर काम करना शुरू कर दिया है। इसकी दो कक्षा की समस्या है, माई ट्रेनेड मॉडल (मशीन लर्निंग) को यूआरएल को अनुमति देने या इसे अवरुद्ध करने के लिए या तो भविष्यवाणी करना/भविष्यवाणी करना होगा।यूआरएल वर्गीकृत कैसे करें? यूआरएल विशेषताएं क्या हैं? URL

मेरा प्रश्न बहुत विशिष्ट है।

  1. यूआरएल वर्गीकृत कैसे करें? क्या मुझे सामान्य पाठ विश्लेषण विधियों का उपयोग करना चाहिए?
  2. यूआरएल विशेषताएं क्या हैं?
  3. यूआरएल से सुविधाओं का चयन और निकालने के लिए कैसे?
+0

मेरे पास डेटासेट है जिसमें URL हैं। मैं अपने मॉडल को वयस्क सामग्री या गैर वयस्क सामग्री के रूप में यूआरएल वर्गीकृत करने के लिए प्रशिक्षित करना चाहता हूं। मूल रूप से मॉडल फ़िल्टरिंग उद्देश्य के लिए है। वेबपृष्ठों को अवरुद्ध करना चाहते हैं जो पृष्ठ सामग्री को डाउनलोड करने और वेबपृष्ठों में मेटा डेटा जैसी अन्य सुविधाओं के साथ यूआरएल का उपयोग कर आपत्तिजनक हैं। तो यह एक दो वर्ग की समस्या है। मेरा सवाल यह है कि हम URL सुविधाओं का उपयोग करके वेबपृष्ठों को वर्गीकृत कैसे कर सकते हैं। मेरी समस्या यह है कि मैं उपयोग कर सकते हैं सर्वोत्तम निष्कर्षण विधि क्या कर सकते हैं? – Nasir

+0

प्लस, क्या कोई एपीआई पुस्तकालय है जिसमें इस उद्देश्य के लिए अंतर्निहित कार्य है। मैं मशीन सीखने के लिए नया हूं, कृपया मुझे सही करें जहां मैं गलत हूं। मैं अजगर का उपयोग करूँगा। – Nasir

उत्तर

6

मुझे लगता है कि आपको यूआरएल की सामग्री तक पहुंच नहीं है, इस प्रकार आप केवल यूआरएल स्ट्रिंग से विशेषताओं को निकाल सकते हैं। अन्यथा यह यूआरएल की सामग्री का उपयोग करने के लिए और अधिक समझ में आता है।

यहां कुछ विशेषताएं हैं जिन्हें मैं कोशिश करूंगा। अधिक विचारों के लिए this कागज देखें:

  1. सभी यूआरएल घटकों।

    http://stackoverflow.com/questions/26456904/how-to-classify-urls-what-are-urls-features-how-to-select-and-extract-features

सभी टोकन कि यूआरएल के विभिन्न भागों में होता है वर्गीकरण चर मान होना चाहिए: उदाहरण के लिए, इस पेज से नीचे url है। इस मामले में, टोकननाइज़ेशन के बाद अंतिम भाग इस पृष्ठ के लिए बड़ी सुविधाएं प्रदान करता है। (उदाहरण के लिए, वर्गीकृत यूआरएल, का चयन करें, निकालने, सुविधाओं)

* stackoverflow 
* com 
* questions 
* 26456904 
* how to classify urls what are urls features how to select and extract features 
  1. एक यूआरएल की लंबाई;
  2. एन-ग्राम (नीचे उदाहरण के रूप में 2-ग्राम)
    • stackoverflow कॉम
    • कॉम-सवाल
    • सवाल-26456904
    • 26456904-कैसे
    • कैसे
    • .. ..
+0

हरे रंग, आपने इसे अच्छी तरह से समझाया, मैंने कुछ कागजात पढ़े जहां उन्होंने यूआरएल सुविधाओं का उपयोग करके वेबपृष्ठों को वर्गीकृत करने के लिए हासिल किया। मैं यूआरएल से सुविधाओं को निकालने में उलझन में हूं जो सरल हैं। www.google.com की तरह इसमें पर्याप्त सुविधाएं नहीं हैं। अगर मैं एल्गोरिदम प्रशिक्षण में डेटासेट से सभी यूआरएल से 6 फीचर्स निकालने का फैसला करता हूं, तो सरल यूआरएल रास्ते में आने पर क्या खुशी होगी? – Nasir

+0

आप जिन सुविधाओं का उपयोग कर रहे हैं उनमें से अधिकांश स्पैस होंगे।6 सुविधाओं के बजाय, आप शायद 6 प्रकार की विशेषताओं या 6 फीचर परिवारों का मतलब है। 'Google.com' उदाहरण में, केवल उपयोगी सुविधा टोकन" google "है, जिसमें" खोज इंजन "जैसे लेबल से मजबूत कनेक्शन होना चाहिए। कनेक्शन आपके लेबल किए गए डेटासेट से सीखा जाना चाहिए। इसलिए आपको इस उदाहरण पर ** अपर्याप्त सुविधा ** के बारे में चिंता करने की आवश्यकता नहीं है। – greeness

+0

धन्यवाद ग्रीन, क्या ऐसा लगता है कि मैं अपने अनुमानक/वर्गीकरणकर्ता को बता दूंगा कि उदाहरण के शुरू में टोकन जो अधिक वजन रखते हैं तो टोकन जो लंबे उदाहरणों के अंत में रहते हैं? – Nasir