2013-05-30 7 views
5

कागेल के Job Salary Prediction पर देखकर, मुझे संख्यात्मक विशेषताएं (जैसे श्रेणी) और टेक्स्टुअल (जैसे पूर्ण डिस्क्रिप्शन) दिखाई देती हैं।टेक्स्ट और न्यूमेरिक सुविधाओं के संयोजन से कैसे निपटें?

मैं ऐसे डेटा पर प्रशिक्षण के बारे में कैसे जा सकता हूं? मैंने TfidfTransformer का उपयोग करके टेक्स्ट को सदिश बनाने के बारे में सोचा, हालांकि यह स्पैर मैट्रिक्स बनाता है जो कई सीखने वाले एल्गोरिदम (जैसे RandomForestRegressor) के साथ काम करने से इनकार करते हैं। साथ ही, मेरे पास पाठ के लिए फीचर वेक्टर होने के बाद, मैं इसे अन्य सुविधाओं के साथ कैसे जोड़ूं?

इस तरह के डेटा के साथ काम करने के तरीके पर कोई संकेतक?

धन्यवाद!

उत्तर

5

मैं पहले स्वतंत्र रूप से प्रत्येक टेक्स्ट फ़ील्ड की टीएफ-आईडीएफ सुविधाओं पर एक रैखिक मॉडल सीखूंगा और अन्य सुविधाओं के लिए अतिरिक्त सुविधा के रूप में रैखिक मॉडल भविष्यवाणियां जोड़ूंगा और संयुक्त सुविधाओं पर ExtraTreesRegressor या GradientBoostedTreeRegressor को प्रशिक्षित करूंगा।

+0

धन्यवाद, यह एक अच्छा विचार है - मैं इसे आज़माउंगा। – lazy1

+0

हमें बताएं कि संयुक्त मॉडल टेक्स्ट सुविधाओं पर केवल एक रैखिक मॉडल या गैर-पाठ सुविधाओं पर यादृच्छिक वन से बेहतर है या नहीं। – ogrisel

+0

बीटीडब्लू: स्प्रेसर मैट्रिक्स के साथ कौन सा रेग्रेसर काम करता है? – lazy1

संबंधित मुद्दे