यूआरएल वर्गीकृत कैसे करें? यूआरएल विशेषताएं क्या हैं? URL

से सुविधाओं का चयन और निकालने के लिए मैंने अभी वर्गीकरण समस्या पर काम करना शुरू कर दिया है। इसकी दो कक्षा की समस्या है, माई ट्रेनेड मॉडल (मशीन लर्निंग) को यूआरएल को अनुमति देने या इसे अवरुद्ध करने के लिए या तो भविष्यवाणी करना/भविष्यवाणी करना होगा।यूआरएल वर्गीकृत कैसे करें? यूआरएल विशेषताएं क्या हैं? URL

मेरा प्रश्न बहुत विशिष्ट है।

यूआरएल वर्गीकृत कैसे करें? क्या मुझे सामान्य पाठ विश्लेषण विधियों का उपयोग करना चाहिए?
यूआरएल विशेषताएं क्या हैं?
यूआरएल से सुविधाओं का चयन और निकालने के लिए कैसे?

स्रोत

2014-10-20 Nasir

मेरे पास डेटासेट है जिसमें URL हैं। मैं अपने मॉडल को वयस्क सामग्री या गैर वयस्क सामग्री के रूप में यूआरएल वर्गीकृत करने के लिए प्रशिक्षित करना चाहता हूं। मूल रूप से मॉडल फ़िल्टरिंग उद्देश्य के लिए है। वेबपृष्ठों को अवरुद्ध करना चाहते हैं जो पृष्ठ सामग्री को डाउनलोड करने और वेबपृष्ठों में मेटा डेटा जैसी अन्य सुविधाओं के साथ यूआरएल का उपयोग कर आपत्तिजनक हैं। तो यह एक दो वर्ग की समस्या है। मेरा सवाल यह है कि हम URL सुविधाओं का उपयोग करके वेबपृष्ठों को वर्गीकृत कैसे कर सकते हैं। मेरी समस्या यह है कि मैं उपयोग कर सकते हैं सर्वोत्तम निष्कर्षण विधि क्या कर सकते हैं? – Nasir

प्लस, क्या कोई एपीआई पुस्तकालय है जिसमें इस उद्देश्य के लिए अंतर्निहित कार्य है। मैं मशीन सीखने के लिए नया हूं, कृपया मुझे सही करें जहां मैं गलत हूं। मैं अजगर का उपयोग करूँगा। – Nasir

मुझे लगता है कि आपको यूआरएल की सामग्री तक पहुंच नहीं है, इस प्रकार आप केवल यूआरएल स्ट्रिंग से विशेषताओं को निकाल सकते हैं। अन्यथा यह यूआरएल की सामग्री का उपयोग करने के लिए और अधिक समझ में आता है।

यहां कुछ विशेषताएं हैं जिन्हें मैं कोशिश करूंगा। अधिक विचारों के लिए this कागज देखें:

सभी यूआरएल घटकों।

http://stackoverflow.com/questions/26456904/how-to-classify-urls-what-are-urls-features-how-to-select-and-extract-features

सभी टोकन कि यूआरएल के विभिन्न भागों में होता है वर्गीकरण चर मान होना चाहिए: उदाहरण के लिए, इस पेज से नीचे url है। इस मामले में, टोकननाइज़ेशन के बाद अंतिम भाग इस पृष्ठ के लिए बड़ी सुविधाएं प्रदान करता है। (उदाहरण के लिए, वर्गीकृत यूआरएल, का चयन करें, निकालने, सुविधाओं)

* stackoverflow 
* com 
* questions 
* 26456904 
* how to classify urls what are urls features how to select and extract features

एक यूआरएल की लंबाई;
एन-ग्राम (नीचे उदाहरण के रूप में 2-ग्राम)
- stackoverflow कॉम
- कॉम-सवाल
- सवाल-26456904
- 26456904-कैसे
- कैसे

स्रोत

2014-10-21 00:06:23 greeness

हरे रंग, आपने इसे अच्छी तरह से समझाया, मैंने कुछ कागजात पढ़े जहां उन्होंने यूआरएल सुविधाओं का उपयोग करके वेबपृष्ठों को वर्गीकृत करने के लिए हासिल किया। मैं यूआरएल से सुविधाओं को निकालने में उलझन में हूं जो सरल हैं। www.google.com की तरह इसमें पर्याप्त सुविधाएं नहीं हैं। अगर मैं एल्गोरिदम प्रशिक्षण में डेटासेट से सभी यूआरएल से 6 फीचर्स निकालने का फैसला करता हूं, तो सरल यूआरएल रास्ते में आने पर क्या खुशी होगी? – Nasir

आप जिन सुविधाओं का उपयोग कर रहे हैं उनमें से अधिकांश स्पैस होंगे।6 सुविधाओं के बजाय, आप शायद 6 प्रकार की विशेषताओं या 6 फीचर परिवारों का मतलब है। 'Google.com' उदाहरण में, केवल उपयोगी सुविधा टोकन" google "है, जिसमें" खोज इंजन "जैसे लेबल से मजबूत कनेक्शन होना चाहिए। कनेक्शन आपके लेबल किए गए डेटासेट से सीखा जाना चाहिए। इसलिए आपको इस उदाहरण पर ** अपर्याप्त सुविधा ** के बारे में चिंता करने की आवश्यकता नहीं है। – greeness

धन्यवाद ग्रीन, क्या ऐसा लगता है कि मैं अपने अनुमानक/वर्गीकरणकर्ता को बता दूंगा कि उदाहरण के शुरू में टोकन जो अधिक वजन रखते हैं तो टोकन जो लंबे उदाहरणों के अंत में रहते हैं? – Nasir

यूआरएल वर्गीकृत कैसे करें? यूआरएल विशेषताएं क्या हैं? URL

उत्तर

संबंधित मुद्दे