2011-11-19 9 views
5

मैं खाना पकाने व्यंजनों पर विशेष रूप से अवयवों (शायद बाद में तैयारी) पर कुछ प्राकृतिक भाषा प्रसंस्करण करना चाहता हूं। मूल रूप से मैं एक घटक लाइन का अर्थ निर्धारित करने में मेरी सहायता के लिए पीओएस टैग का अपना सेट बनाना चाहता हूं।अनुकूलित टैग के साथ एक प्रशिक्षण सेट टैगिंग

उदाहरण के लिए, यदि सामग्री में से एक था: 3/4 कप (हल्के से पैक) फ्लैट पत्ता अजमोद पत्तियां, विभाजित

मैं टैग घटक सूचीबद्ध होने और quanitity है, जो व्यक्त करने के लिए चाहते हो जाएगा आम तौर पर माप की कुछ इकाई के बाद एक संख्या। उदाहरण के लिए:

3 \ NUM-QTY/\ FRACTION4 \ NUM-QTY कप \ N-MEAS (हल्के से \ ADV पैक \ VD) [फ्लैट-पत्ता \ ADJ अजमोद \ N] \ INGREDIENT पत्तियां \ N, विभाजित \ वीडी

टैग जिन्हें मैंने here पाया।

मैं कुछ चीजों के बारे में अनिश्चित हूँ:

  1. मैं कस्टम टैग का उपयोग किया जाना चाहिए, या मैं एक पूर्व मौजूदा टैगर उपयोग करने के बाद पोस्ट-टैगिंग प्रसंस्करण के कुछ प्रकार करना चाहिए?
  2. यदि मैं कस्टम टैग का उपयोग करता हूं, तो केवल एक सामग्री सूची के माध्यम से जाने और हाथ से सब कुछ टैग करने के लिए एक प्रशिक्षण पाठ बनाने का सबसे अच्छा तरीका है?

मैं इस भाषा संसाधन की तरह महसूस इतना विशिष्ट है कि यह एक लागू सेट पर एक टैगर प्रशिक्षित करने के लिए फायदेमंद हो सकता है, लेकिन मैं वास्तव में यकीन है कि आगे बढ़ने के लिए कैसे नहीं हूँ।

धन्यवाद!

उत्तर

3

पैटर्न.कार्च लाइब्रेरी का उपयोग करें।

पायथन पैटर्न लाइब्रेरी कार्डिनल नंबर टैग (सीडी) सहित कई टैग [1] का समर्थन करता है।

एक बार जब आप कार्डिनल टैग कर लेते हैं, तो अंश "कार्डिनल/कार्डिनल" या "कार्डिनल कार्डिनल/कार्डिनल" जैसे कुछ होते हैं।

और मात्राओं के संबंध में, आपको खाना पकाने की मात्रा का वर्गीकरण बनाना चाहिए। पायथन पैटर्न लाइब्रेरी भी लेमैमैटिज़ेशन का समर्थन करती है [2]।

मुझे लगता है कि pattern.search [2] का उपयोग करके आप एक बाधा उत्पन्न कर सकते हैं जो आपके डेटा को फिट करेगी, और इसका उपयोग कर पाठ पर पैटर्न खोज करेगी।

[1] http://www.clips.ua.ac.be/pages/mbsp-tags [2] http://www.clips.ua.ac.be/pages/pattern-search

+0

कमाल की सामग्री - धन्यवाद। मेरे पास पहले से ही वर्गीकरण लिखा गया है, इसलिए मुझे इसे पैटर्न में खोजना होगा। खोज। – abroekhof

संबंधित मुद्दे