मैं अपेक्षाकृत बड़ी टेक्स्ट-आधारित वेब वर्गीकरण समस्या पर काम कर रहा हूं और मैं पाइथन में स्केलेर्न में बहुराष्ट्रीय नाइव बेयस क्लासिफायरफायर और क्रॉलिंग के लिए स्केपर ढांचे का उपयोग करने की योजना बना रहा हूं । हालांकि, मैं थोड़ा चिंतित हूं कि स्केलर/पायथन एक समस्या के लिए बहुत धीमी हो सकती है जिसमें लाखों वेबसाइटों के वर्गीकरण शामिल हो सकते हैं। मैंने पहले ही डीएमओजेड से कई हज़ार वेबसाइटों पर वर्गीकरण को प्रशिक्षित किया है। शोध ढांचा निम्नानुसार है:बड़े आवेदन वर्गीकरण/स्क्रैपिंग अभ्यास के लिए स्केलर और पायथन का उपयोग
1) क्रॉलर डोमेन नाम पर उतरता है और साइट पर 20 लिंक से टेक्स्ट को स्क्रैप करता है (गहराई से एक से बड़ा नहीं)। (यहां क्रोकलर के नमूने चलाने के लिए टोकनयुक्त शब्दों की संख्या कुछ हज़ार से 150 के बीच भिन्न होती है) 2) लगभग 50,000 फीचर्स के साथ स्केलेर्न मुल्शनमियल एनबी क्लासिफायरफायर चलाएं और परिणाम
के आधार पर डोमेन नाम रिकॉर्ड करेंमेरा सवाल यह है कि क्या एक पाइथन आधारित क्लासिफायर इतने बड़े पैमाने पर आवेदन के लिए काम करेगा या क्या मुझे एक तेज वातावरण में क्लासिफायर (और शायद स्क्रैपर और शब्द टोकनेज़र भी) को फिर से लिखने का प्रयास करना चाहिए? यदि हां वह पर्यावरण क्या हो सकता है? या शायद कोड के कुछ समांतरता के साथ पाइथन पर्याप्त है? धन्यवाद