2011-02-17 8 views
5

से सामग्री वर्गीकरण कच्चे यूआरएल की संख्या को देखते हुए, मैं उन्हें समाचार, ब्लॉग, फोटो और वीडियो द्वारा वर्गीकृत करने में सक्षम होना चाहता हूं।यूआरएल

एक उदाहरण होगा यदि कोई लिंक किसी उपयोगकर्ता को फोटो पर निर्देशित करता है, तो क्या यह कहना पर्याप्त होगा कि कच्चे लिंक में छवियों के लिए फ़ाइल एक्सटेंशन को कच्चे यूआरएल को फोटो के रूप में वर्गीकृत करने में सक्षम होना चाहिए?

वीडियो, ब्लॉग और समाचार के लिए, ऐसा लगता है कि डोमेन का सेट होना पर्याप्त नहीं है (जैसे http://www.youtube.com) जो कच्चे यूआरएल को वर्गीकृत करेगा।

वर्गीकरण वेब सामग्री की जांच करके किया जा सकता है? या इसके लिए कोई ओपन सोर्स टूल्स हैं?

+0

आप यूआरएल वर्गीकरण के लिए क्या कर रहे हैं? –

उत्तर

0

एकमात्र यूआरएल जो कुछ हद तक विश्वसनीय रूप से वर्गीकृत हो सकते हैं, वे एक अलग माध्यम को इंगित करते हैं (यानी http://foo.com/foo.jpg निश्चित रूप से एक छवि है)। अन्यथा, आपको पृष्ठ की सामग्री का विश्लेषण करना होगा।

यह थोड़ा मुश्किल हो सकता है, क्योंकि फ्लैश में फ़्लैश ऑब्जेक्ट की सामग्री के रूप में कोई खोज योग्य सुराग प्रदान किए बिना फ़ोटो, वीडियो या न तो हो सकता है। पर्याप्त प्रयास के साथ, यह स्पष्ट रूप से दूर किया जा सकता है (Google यह करता है!), लेकिन मुझे किसी भी ओपन सोर्स संसाधनों से अवगत नहीं है जो मीडिया से संबंधित डोमेन की लाइब्रेरी प्रदान करते हैं। इस तरह के डेटा अनगिनत प्रोग्रामर-प्रयास के घंटों से परिणाम - एक ऐसा प्रयास जो आमतौर पर निवेश पर वापसी (आरओआई) चाहता है। मामले में, ClueWeb09 केवल डाउनलोड किए गए पृष्ठों का एक डेटासेट है, जो खोज एल्गोरिदम का परीक्षण करने के लिए उपयोग किया जाता है - वास्तव में सॉर्ट या वर्गीकृत नहीं किया जाता है।

"कभी-कभी कोई जवाब नहीं है।"