मैं {brand: canon, model number: d1000, lens: 4MP zoom: 2X, display type: LCD}
जैसे संरचित डेटा में "कैनन डी 1000 4 एमपी कैमरा 2 एक्स ज़ूम एलसीडी" जैसे असंगठित उत्पाद शीर्षकों को पार्स करना चाहता हूं।संरचित डेटा में उत्पाद शीर्षक (असंगठित) का विश्लेषण कैसे करें?
अब तक मेरे पास है:
- निकाला गया stopwords और साफ
- शब्दों में लंबे तार Tokenizing (जैसे
-
;
:
/
वर्ण निकालने के लिए)।
कोई भी तकनीक/लाइब्रेरी/विधियों/एल्गोरिदम की सराहना की जाएगी!
संपादित करें: उत्पाद शीर्षक के लिए कोई ह्युरिस्टिक नहीं है। एक विक्रेता किसी शीर्षक के रूप में इनपुट कर सकता है। उदाहरण के लिए: 'कैनन डी 1000' सिर्फ शीर्षक हो सकता है। साथ ही, यह अभ्यास न केवल कैमरा डेटासेट के लिए है, शीर्षक किसी भी उत्पाद का हो सकता है।
क्या आपके पास कोई प्रशिक्षण डेटा है? 1000 उत्पादों के लिए उत्पाद विनिर्देश कहें? – Jirka
मेरे पास बहुत सारे प्रशिक्षण डेटा हैं। मुझे इसे 100 मिलियन वस्तुओं के लिए करने की ज़रूरत है, लेकिन अभी मैं कैमरा से संबंधित ~ 10,000 उत्पादों के साथ एक प्रोटोटाइप बनाने की कोशिश कर रहा हूं। – stealthspy
मैं एक ही समस्या को हल करने की कोशिश कर रहा हूं। मेरे पास ~ 50 के उत्पाद हैं, उनमें से सभी अनियंत्रित हैं, कोई प्रशिक्षण डेटा नहीं है। मेरे लिए पहला कदम प्रशिक्षण के लिए डेटा ढूंढना है, जिसका अर्थ है परिभाषित विशेषताओं वाले उत्पाद: ब्रांड, मॉडल इत्यादि। उत्पाद इलेक्ट्रॉनिक्स (फोन, लैपटॉप, कैमरे) से संबंधित हैं। गुणों के साथ उत्पादों को खोजने के लिए कोई सुझाव? – dzeno