2015-03-02 6 views
6

मानक कुकबुक मशीन सीखने में, हम एक आयताकार मैट्रिक्स पर काम करते हैं; यानी, हमारे सभी डेटा पॉइंट्स में समान संख्या में विशेषताएं हैं। हम उन परिस्थितियों का सामना कैसे करते हैं जिनमें हमारे सभी डेटा बिंदुओं की अलग-अलग विशेषताएं होती हैं? उदाहरण के लिए, यदि हम दृश्य वर्गीकरण करना चाहते हैं, लेकिन हमारी सभी तस्वीरें अलग-अलग आयामों के हैं, या यदि हम भावनात्मक विश्लेषण करना चाहते हैं, लेकिन हमारे सभी वाक्यों में अलग-अलग शब्द हैं, या यदि हम तारकीय वर्गीकरण करना चाहते हैं लेकिन सभी सितारों को अलग-अलग बार देखा गया है, आदिजब इनपुट विभिन्न आकारों के होते हैं तो मशीन सीखने के लिए कैसे करें?

मुझे लगता है कि इन अनियमित आकार के डेटा से नियमित आकार की विशेषताओं को निकालने का सामान्य तरीका होगा। लेकिन मैंने हाल ही में गहरी शिक्षा पर एक वार्ता में भाग लिया जहां स्पीकर ने जोर दिया कि डेटा से हाथ-क्राफ्टिंग सुविधाओं की बजाय, गहरे शिक्षार्थियों को उचित सुविधाएं सीखने में सक्षम हैं। लेकिन हम कैसे उपयोग करते हैं उदा। एक तंत्रिका नेटवर्क अगर इनपुट परत निश्चित आकार का नहीं है?

उत्तर

1

आप आमतौर पर सुविधाओं की संख्या सभी उदाहरणों के लिए एक ही काफी आसानी से बना सकते हैं:

अगर हम दृश्य वर्गीकरण करना चाहते हैं, लेकिन हमारे सभी चित्रों को

उन्हें आकार बदलें विभिन्न आयामों के हैं सभी एक निश्चित आयाम/पिक्सल की संख्या के लिए।

अगर हम भावना विश्लेषण करना चाहते हैं, लेकिन हमारे वाक्य के सभी अपने पाठ डेटा के सभी में k शब्दों का एक शब्दकोश रखें शब्द

से अलग-अलग है। प्रत्येक उदाहरण में आकार k का बूलियन वेक्टर शामिल होगा जहां i -th प्रविष्टि सत्य है यदि शब्द i उस उदाहरण में दिखाई देता है (यह सबसे अच्छा प्रतिनिधित्व नहीं है, लेकिन कई इस पर आधारित हैं)। शब्द मॉडल का बैग देखें।

हम तारकीय वर्गीकरण करना चाहते हैं, लेकिन सितारों की हर समय

की एक अलग संख्या मनाया गया है विशेषताएं है कि सभी सितारों के लिए मनाया गया है ले लो अगर।

लेकिन मैंने हाल ही में गहरी शिक्षा पर एक वार्ता में भाग लिया जहां स्पीकर ने जोर दिया कि डेटा गहरे शिक्षार्थियों की हाथ-क्राफ्टिंग सुविधाओं के बजाय उचित सुविधाएं सीखने में सक्षम हैं।

मुझे लगता है कि स्पीकर शायद उच्च स्तर की विशेषताओं को संदर्भित करता है। उदाहरण के लिए, यदि आप किसी छवि में चेहरों का पता लगाना चाहते हैं तो आपको "नाक शामिल" सुविधा मैन्युअल रूप से निकालना नहीं चाहिए। आपको इसे कच्चे पिक्सेल खिलाएंगे, और गहरी शिक्षार्थी गहरी परतों में कहीं "नाक" सुविधा सीखेंगे।

+0

"सभी सितारों के लिए देखी गई सुविधाओं को लें।" मुझे सही मायने में यकीन नहीं है कि इसका क्या अर्थ है। इस उदाहरण में, हमारे पास समय की एक सूची है कि स्टार मनाया गया है, और उस समय मापा गया परिमाण की एक सूची है। प्रत्येक स्टार के लिए, न केवल अवलोकन के समय अलग होते हैं, लेकिन समय की सूची का आकार भी अलग होता है। तो सभी सितारों के लिए 0 विशेषताएं देखी गई हैं। प्रैक्टिस में, कोई इन अवलोकनों से निकाले गए फीचर सेट का निर्माण करता है। लेकिन एल्गोरिदम अवलोकन से नहीं सीखते हैं, वे कुछ मैन्युअल रूप से इंजीनियर सुविधाओं से सीखते हैं। – rhombidodecahedron

+0

मूल रूप से मैं सोच रहा हूं कि इन कार्यों को किए बिना इन कार्यों को कैसे पूरा किया जाए: बिना किसी शब्दकोश के, छवियों का आकार बदलने के बिना। – rhombidodecahedron

+0

@rhombidodecahedron - मुझे नहीं लगता कि आप कर सकते हैं। आपको कुछ बुनियादी सुविधाओं को निकालने में सक्षम होना चाहिए जो सभी उदाहरणों के लिए मौजूद हैं जिनके साथ काम करना है। – IVlad

3

चूंकि आप गहरी शिक्षा के बारे में पूछ रहे हैं, मुझे लगता है कि आप एंड-टू-एंड सिस्टम में रुचि रखते हैं, बल्कि फीचर डिज़ाइन। परिवर्तनीय डेटा इनपुट को संभालने वाले तंत्रिका नेटवर्क हैं:

1) पूलिंग परतों के साथ कनवॉल्यूशनल तंत्रिका नेटवर्क। आमतौर पर उन्हें छवि पहचान संदर्भ में उपयोग किया जाता है, लेकिन हाल ही में मॉडलिंग वाक्यों पर भी लागू किया गया था। (मुझे लगता है कि वे सितारों के वर्गीकरण में भी अच्छे होना चाहिए)।

2) आवर्ती तंत्रिका नेटवर्क।(अनुक्रमिक डेटा के लिए अच्छा, समय श्रृंखला, अनुक्रम लेबलिंग कार्यों, मशीन अनुवाद के लिए भी अच्छा)।

3) पेड़ आधारित autoencoders (पुनरावर्ती autoencoders भी कहा जाता है) पेड़ की तरह संरचनाओं में व्यवस्थित डेटा के लिए (आसानी से googling द्वारा पाया जा सकता है पार्स पेड़ सजा) उदाहरण के अनुप्रयोगों वर्णन करते हुए कागजात की

लॉट लागू किया जा सकता।

असामान्य कार्यों के लिए आप इनमें से किसी एक को अपने डेटा की संरचना के आधार पर चुन सकते हैं, या आप इन प्रणालियों के कुछ प्रकार और संयोजनों को डिज़ाइन कर सकते हैं।

संबंधित मुद्दे

 संबंधित मुद्दे