7

मैं एआई के लिए नया हूं। मैं एक आवेदन कर रहा हूं जो मशीन सीखने के माध्यम से पाठ वर्गीकरण। एप्लिकेशन को HTML दस्तावेज़ के विभिन्न हिस्सों को वर्गीकृत करने की आवश्यकता है। उदाहरण के लिए, अधिकांश वेबपृष्ठों में हेड, मेनू, साइडबार, पाद लेख, मुख्य सामग्री इत्यादि होती है। मैं HTML दस्तावेज़ के इन हिस्सों को वर्गीकृत करने के लिए टेक्स्ट क्लासिफ़ायर का उपयोग करना चाहता हूं, और पृष्ठ पर विभिन्न प्रकार के फॉर्मों की पहचान करना चाहता हूं।आर्टिफिशियल इंटेलिजेंस, टेक्स्ट क्लासिफायर

  1. यदि कोई इस विषय पर विस्तृत मार्गदर्शन प्रदान कर सकता है तो यह बहुत उपयोगी होगा।
  2. इसी तरह के आवेदन के उदाहरण भी बहुत उपयोगी होंगे।

मैं कोड & कार्यान्वयन से संबंधित अधिक तकनीकी सुझावों की तलाश में हूं।

मैं टैग गुण, वर्ग या आईडी

<div class="menu-1"> 
<div id="entry"> 
<div id="content"> 
<div id="footer"> 
<div id="comment-12"> 
<div id="comment-title"> 

पहले आइटम के लिए तरह तरह HTML करने के लिए लेबल असाइन कर सकते हैं:

TrainClassifier (लेबल: "मेनू", मूल्य: "मेनू -1" , विशेषता: "वर्ग", स्थिति-में-स्ट्रिंग: "21%", टैग: "div");

इनपुट:

  1. "मेनू -1" (विशेषता मान)
  2. सूची आइटम
  3. "वर्ग" (विशेषता नाम)
  4. "21" (टैग स्ट्रिंग में स्थिति)
  5. "div" (टैग नाम)

आउटपुट

  1. "मेनू" (लेबल के रूप में वर्गीकृत)

क्या तंत्रिका नेटवर्क पुस्तकालय, ऊपर आदानों ले जा सकते हैं, और उन्हें लेबल के लिए में वर्गीकृत (अर्थात मेन्यू)।

सभी उपयोगकर्ता रीगेक्स, या एक्सपैथ नहीं बना सकते हैं, उन्हें अधिक आसान दृष्टिकोण की आवश्यकता है, इसलिए सॉफ़्टवेयर बुद्धिमान बनाने के लिए यह महत्वपूर्ण है, उपयोगकर्ता वेबब्रोसर नियंत्रण का उपयोग करके HTML दस्तावेज़ के हिस्से को हाइलाइट कर सकते हैं, और ट्रेन को प्रशिक्षित कर सकते हैं सॉफ़्टवेयर जब तक यह स्वयं पर काम नहीं कर सकता है।

लेकिन मुझे पता है कि ऐ का उपयोग कर सॉफ्टवेयर ट्रेन बनाने के लिए नहीं है,

ऐ मैं देख रहा हूँ, है जैसे कि यह विभिन्न आदानों स्वीकार करते हैं, और उस के आधार पर वर्गीकृत करने के लिए सक्षम होना चाहिए, के रूप में मेरे पास है पहले से ही एआई को नया कहा, इसके बारे में ज्यादा नहीं पता।

यह मेरे लिए उपयोगी होगा अगर मुझे पूछे गए प्रश्न का उत्तर मिलता है, जैसे लाइब्रेरी का उपयोग करना चाहिए, और कैसे कार्यान्वित किया जाए, एक्सपैथ या रेगेक्स या अन्य विधियों का सुझाव देने वाले उत्तरों का उत्तर नहीं दिया जाता है, यह अक्सर होता है कि आपको सभी सुझाव मिलते हैं लेकिन आपको जिसकी आवश्यकता है।

+0

मुझे लगता है कि इस वर्गीकरण समस्या में डेटा की इकाई अच्छी तरह परिभाषित नहीं है। आपने कहा कि यह एक एचटीएमएल का हिस्सा है लेकिन आप कैसे तय करेंगे कि HTML में प्रत्येक पाठ किस भाग से संबंधित है? –

+0

मुझे लगता है कि आपको पहले ऐसा करना है। अन्यथा, यहां तक ​​कि एक वर्गीकरण विधि के साथ, आप उन्हें कैसे प्रशिक्षित करेंगे? –

+0

मुझे नहीं मिल रहा है, आप क्या कहने की कोशिश कर रहे हैं, क्या आप विस्तृत कर सकते हैं .... –

उत्तर

0

वर्गीकरण आपकी मदद कर सकता है, अगर आपके पास डेटा के टुकड़े थे जिन्हें आपको लेबल असाइन करना था। यह मामला नहीं है।आप अपने दस्तावेज़ों को अलग करने के लिए मैन्युअल नियमों को मैन्युअल रूप से लिखना बेहतर होगा।

2

यह एक बहुत ही व्यापक विषय है। सी # के लिए वहां कुछ न्यूरल नेटवर्क लाइब्रेरी हैं, बस स्टैक ओवरफ़्लो पर उनके लिए खोजें।

किसी भी प्रकार के वर्गीकरण से पहले आपको पर्यवेक्षित प्रशिक्षण करने की आवश्यकता होगी। एएनएन को यह समझने के लिए कि आप इसमें क्या फेंक रहे हैं, आपको यह पता लगाना होगा कि आप जो परिणाम ढूंढ रहे हैं, उन्हें प्राप्त करने के लिए आप HTML को कैसे पार्स करेंगे।

उदाहरण के तौर पर, अधिकांश वेबसाइटें ब्राउज़र पर सामग्री प्रस्तुत करने के लिए सीएसएस का उपयोग करती हैं। अन्य साइटें टेबल का उपयोग कर सकती हैं। आपको दोनों के लिए ट्रेन करने की आवश्यकता होगी।

आपकी समस्या एक आसान नहीं है।

3

मैं आपको सरल एल्गोरिदम को देखने के लिए सुझाव देता हूं जो समझने में आसान है, मैं कुछ को पॉइंटर्स दे सकता हूं।

  1. बेवकूफ बेयस (आपको कई कार्यान्वयन मिलेंगे लेकिन आप इसे स्वयं कर सकते हैं, अलगो अभी तक काफी शक्तिशाली लागू करने के लिए आसान है)।
  2. अधिकतम एंट्रॉपी (उदा। SharpMaxEnt - ओपन सोर्स)।
  3. एसवीएम (उदाहरण के लिए सी # पोर्ट के लिए LibSVM)।

    आप कैसे इन काम, WEKA टूलकिट डाउनलोड का स्वाद प्राप्त करना चाहते हैं:

    http://sourceforge.net/projects/weka/ 
    

    आमतौर पर चरणों का पालन किया आमतौर पर निम्नलिखित हैं:

    1. के रूप में कई गुण/विशेषताओं की पहचान आप (और लेबल का एक सेट) प्राप्त कर सकते हैं।
    2. कलेक्ट डेटा जो एक सेट {लेबल, Attribute1, A2, A3, ...}
    3. सुविधा चयन एल्गोरिदम (WEKA टूलकिट में भी उपलब्ध है)
    4. ट्रेन क्लासिफ़ायर का उपयोग महत्वपूर्ण विशेषताओं का एक न्यूनतम सेट का चयन है मानक एल्गोरिदम
    5. सिस्टम का परीक्षण करें, जब तक आप वांछित सटीकता, याद, या अन्य पैरा प्राप्त नहीं करते।

    शुभकामनाएं!

+0

+1 वीका। @ मिलन आदित्य: आप नीम के साथ ऐसे मशीन लर्निंग वर्कफ़्लो भी बना सकते हैं: http://www.knime.org/ या http://orange.biolab.si/। इन उपकरणों में बहुत अच्छा जीयूआई है और सीखने की अवस्था उचित है।मुझे लगता है कि वास्तविक कार्यान्वयन करने से पहले अपने फीचर वैक्टर का परीक्षण करने का सबसे अच्छा तरीका नीम या नारंगी का उपयोग करना है। उदाहरण देखें: http://www.knime.org/introduction/examples – Skarab

संबंधित मुद्दे