14

मैं इस एक के लिए एक question similar कुछ हफ़्ते पहले कहा, लेकिन मैं सवाल का सही ढंग नहीं पूछा। इसलिए मैं यहां अधिक जानकारी के साथ प्रश्न पूछ रहा हूं और मैं एक और एआई उन्मुख उत्तर प्राप्त करना चाहता हूं।उत्पादों की सूची वर्गीकृत करने के लिए एल्गोरिदम? ले लो 2

मैं उत्पादों को कमोबेश एक ही हैं प्रतिनिधित्व कर एक सूची है। उदाहरण के लिए, नीचे दी गई सूची में, वे सभी सीगेट हार्ड ड्राइव हैं।

  1. सीगेट हार्ड ड्राइव 500Go
  2. सीगेट हार्ड ड्राइव 120Go लैपटॉप
  3. के लिए
  4. सीगेट बाराकुडा 7200.12 ST3500418AS 500GB 7200 rpm sata 3.0Gb/एस हार्ड ड्राइव
  5. नई और सीगेट
  6. से हाकी 500Go हार्ड ड्राइव
  7. सीगेट बराक्यूडा 7200.12
  8. सीगेट फ्रीएजेंट डेस्क 500 जीबी बाहरी हार्ड ड्राइव रजत 7200 आरपीएम यूएसबी 2.0 खुदरा
  9. जीई स्पेसमेकर लॉड्री
  10. Mazda3 2010
  11. Mazda3 2009 2.3L

एक इंसान के लिए, हार्ड ड्राइव 3 और 5 एक ही हैं। हम थोड़ा आगे जा सकते हैं और मान लीजिए कि उत्पाद 1, 3, 4 और 5 समान हैं और अन्य श्रेणियों में उत्पाद 2 और 6.

मेरे पिछले प्रश्न में, किसी ने मुझे सुविधा निष्कर्षण का उपयोग करने का सुझाव दिया । यह बहुत अच्छी तरह से काम करता है जब हमारे पास पूर्व परिभाषित विवरण (सभी हार्ड ड्राइव) का एक छोटा डेटासेट होता है, लेकिन अन्य सभी प्रकार के विवरणों के बारे में क्या होता है? मैं अपने आवेदन का सामना करने वाले सभी विवरणों के लिए रेगेक्स आधारित फीचर एक्स्ट्रेक्टर्स लिखना नहीं चाहता हूं, यह स्केल नहीं करता है। क्या कोई मशीन लर्निंग एल्गोरिदम है जो इसे प्राप्त करने में मेरी मदद कर सकता है? वर्णन है कि मैं प्राप्त कर सकते हैं की सीमा, बहुत व्यापक है पंक्ति 1 पर है, यह एक फ्रिज हो सकता है, और फिर अगली पंक्ति, एक हार्ड ड्राइव पर। क्या मुझे तंत्रिका नेटवर्क पथ लेने की कोशिश करनी चाहिए? मेरे इनपुट क्या होना चाहिए?

सहायता के लिए धन्यवाद!

+1

दिलचस्प सवाल। मैं आने वाले महीनों में somethign simillar का सामना करने जा रहा हूँ। – JoshBerke

उत्तर

8

मैं कुछ Bayesian classification तरीकों पर विचार करेंगे। इसमें वर्गीकरण को विशेष शब्दों को पहचानने के लिए प्रशिक्षण देना शामिल होगा, यह दर्शाता है कि उत्पाद आपकी कक्षाओं में से एक से संबंधित है। उदाहरण के लिए, प्रशिक्षित होने के बाद, यह पहचान सकता है कि यदि उत्पाद विवरण में "सीगेट" है, तो 99% मौका है कि यह एक हार्ड ड्राइव है, जबकि अगर इसमें "माज़दा" है तो यह एक कार% 97% मौका है। "नया" जैसे शब्द शायद किसी भी वर्गीकरण में योगदान नहीं दे पाएंगे, जिस तरह से आप इसे काम करना चाहते हैं।

इसका नकारात्मक पक्ष यह होगा कि इसे आम तौर पर काम करने से पहले प्रशिक्षण डेटा के काफी बड़े निगम की आवश्यकता होती है, लेकिन आप इसे स्थापित कर सकते हैं ताकि उत्पादन में होने पर यह अपने प्रतिशत को संशोधित करना जारी रखे (यदि आप देखते हैं कि इसने कुछ गलत तरीके से वर्गीकृत किया), और अंत में यह बहुत प्रभावी हो जाएगा।

बेयसियन तकनीकों का हाल ही में spam-filtering applications के लिए काफी उपयोग किया जाता है, इसलिए कुछ तरीकों से इसे पढ़ने के लिए अच्छा हो सकता है।

9

आप clustering और classification दोनों पर गौर करना चाहिए। आपकी श्रेणियां खुली-अंत लगती हैं और इस प्रकार सुझाव देते हैं कि क्लस्टरिंग समस्या को बेहतर तरीके से फिट कर सकती है। इनपुट प्रतिनिधित्व के लिए के रूप में, आप शब्द और चरित्र n-grams निकालने के साथ अपनी किस्मत आजमा सकते हैं। आपका समानता माप आम एन-ग्राम की गणना हो सकता है, या something more sophisticated। आपको परिणामी क्लस्टर मैन्युअल रूप से लेबल करने की आवश्यकता हो सकती है।

संबंधित मुद्दे