2012-01-22 18 views
6

एक प्रोजेक्ट में एक मॉड्यूल एक यूआरएल लेता है और यह निर्धारित करता है कि यह "ईकॉमर्स" या "गैर-ईकॉमर्स" वेबसाइट है या नहीं।यह पता कैसे लगाएं कि यूआरएल ईकॉमर्स या गैर ईकॉमर्स वेबसाइट है, प्रोग्रामेटिक रूप से?

मैं कोशिश की है निम्नलिखित दृष्टिकोण:

  1. अपाचे महावत, वर्गीकरण का उपयोग करते हुए: यूआरएल ---> एचटीएमएल डंप ले लो ---> पूर्व प्रक्रिया एचटीएमएल द्वारा डंप क) सभी एचटीएमएल टैग को हटाने

    बी) सीडीएटीए, href, मूल्य, और, आदि के बीच स्टॉप शब्द (उर्फ सामान्य शब्द) जैसे

    सी) प्रशिक्षण मॉडल और फिर इसका परीक्षण करना।

बाद पैरामीटर मैं प्रशिक्षण

bin/महावत trainclassifier \ मैं प्रशिक्षण डेटा \ -ओ Bayes मॉडल \> प्रकार Bayes -ng 1

के लिए इस्तेमाल किया है परीक्षण:

/bin/mahout testclassifier \ 
    -d test-data \ 
    -m bayes-model \ 
    -type bayes -source hdfs -ng 1 -method sequential 

शुद्धता मैं 73% के रूप में और cbayes एल्गोरिथ्म 52% हो रही के साथ हो रही है।

मैं ई-कॉमर्स वेबसाइट जैसे "चेकआउट बटन", "पे पाल लिंक", "पेल्स लिंक", "कीमतें/डॉलर प्रतीक", "डिलीवरी पर कैश" जैसे टेक्स्ट को निकालने से पूर्व प्रोसेसिंग चरण में सुधार करने के बारे में सोच रहा हूं, "30 दिन गुरांटी "इत्यादि

ईकॉमर्स या गैर-ईकॉमर्स के रूप में साइट को भविष्यवाणी करने के लिए इस जानकारी या किसी अन्य तरीके को निकालने के तरीके पर कोई सुझाव?

+2

अगली बार थोड़ा और सावधानी से अपना प्रश्न प्रारूपित करें। और बीटीडब्ल्यू 70% सटीकता शुरुआत के लिए काफी अच्छी है। –

उत्तर

1

मुझे बहुत आश्चर्य है कि आपको केवल सादा एचटीएमएल निष्कर्षण और बेयस क्लासिफायरफायर के साथ इतनी अच्छी सटीकता मिलती है।

लेकिन आप चेकआउट बटन और कीमतों जैसी सुविधाओं के साथ सही रास्ते पर हैं।

"To find out or to buy? Product review vs. Web shop classifier"

यह के बारे में कैसे करने के लिए अलग इन दो साइटों और कुछ तकनीकों वे प्रयोग किया जाता है:

यहाँ एक कागज मैं कल पाया, जबकि Yandex के बारे में पढ़ रहा है। उन्होंने मूर्ख बेय के बजाए एसवीएम का भी इस्तेमाल किया।

+0

धन्यवाद थॉमस। पेपर समान उपयोग केस को हमारे रूप में लक्षित कर रहा है। – geek

संबंधित मुद्दे