एक प्रोजेक्ट में एक मॉड्यूल एक यूआरएल लेता है और यह निर्धारित करता है कि यह "ईकॉमर्स" या "गैर-ईकॉमर्स" वेबसाइट है या नहीं।यह पता कैसे लगाएं कि यूआरएल ईकॉमर्स या गैर ईकॉमर्स वेबसाइट है, प्रोग्रामेटिक रूप से?
मैं कोशिश की है निम्नलिखित दृष्टिकोण:
अपाचे महावत, वर्गीकरण का उपयोग करते हुए: यूआरएल ---> एचटीएमएल डंप ले लो ---> पूर्व प्रक्रिया एचटीएमएल द्वारा डंप क) सभी एचटीएमएल टैग को हटाने
बी) सीडीएटीए, href, मूल्य, और, आदि के बीच स्टॉप शब्द (उर्फ सामान्य शब्द) जैसे
सी) प्रशिक्षण मॉडल और फिर इसका परीक्षण करना।
बाद पैरामीटर मैं प्रशिक्षण
bin/महावत trainclassifier \ मैं प्रशिक्षण डेटा \ -ओ Bayes मॉडल \> प्रकार Bayes -ng 1
के लिए इस्तेमाल किया है परीक्षण:
/bin/mahout testclassifier \
-d test-data \
-m bayes-model \
-type bayes -source hdfs -ng 1 -method sequential
शुद्धता मैं 73% के रूप में और cbayes एल्गोरिथ्म 52% हो रही के साथ हो रही है।
मैं ई-कॉमर्स वेबसाइट जैसे "चेकआउट बटन", "पे पाल लिंक", "पेल्स लिंक", "कीमतें/डॉलर प्रतीक", "डिलीवरी पर कैश" जैसे टेक्स्ट को निकालने से पूर्व प्रोसेसिंग चरण में सुधार करने के बारे में सोच रहा हूं, "30 दिन गुरांटी "इत्यादि
ईकॉमर्स या गैर-ईकॉमर्स के रूप में साइट को भविष्यवाणी करने के लिए इस जानकारी या किसी अन्य तरीके को निकालने के तरीके पर कोई सुझाव?
अगली बार थोड़ा और सावधानी से अपना प्रश्न प्रारूपित करें। और बीटीडब्ल्यू 70% सटीकता शुरुआत के लिए काफी अच्छी है। –