कागेल के Job Salary Prediction पर देखकर, मुझे संख्यात्मक विशेषताएं (जैसे श्रेणी) और टेक्स्टुअल (जैसे पूर्ण डिस्क्रिप्शन) दिखाई देती हैं।टेक्स्ट और न्यूमेरिक सुविधाओं के संयोजन से कैसे निपटें?
मैं ऐसे डेटा पर प्रशिक्षण के बारे में कैसे जा सकता हूं? मैंने TfidfTransformer का उपयोग करके टेक्स्ट को सदिश बनाने के बारे में सोचा, हालांकि यह स्पैर मैट्रिक्स बनाता है जो कई सीखने वाले एल्गोरिदम (जैसे RandomForestRegressor) के साथ काम करने से इनकार करते हैं। साथ ही, मेरे पास पाठ के लिए फीचर वेक्टर होने के बाद, मैं इसे अन्य सुविधाओं के साथ कैसे जोड़ूं?
इस तरह के डेटा के साथ काम करने के तरीके पर कोई संकेतक?
धन्यवाद!
धन्यवाद, यह एक अच्छा विचार है - मैं इसे आज़माउंगा। – lazy1
हमें बताएं कि संयुक्त मॉडल टेक्स्ट सुविधाओं पर केवल एक रैखिक मॉडल या गैर-पाठ सुविधाओं पर यादृच्छिक वन से बेहतर है या नहीं। – ogrisel
बीटीडब्लू: स्प्रेसर मैट्रिक्स के साथ कौन सा रेग्रेसर काम करता है? – lazy1