11

क्या वाक्यों के सभी उप-वाक्यों को खोजने का कोई तरीका है जो अभी भी सार्थक हैं और कम से कम एक विषय, क्रिया, और एक अनुमान/वस्तु है?वाक्य से सार्थक उप-वाक्य ढूंढना

उदाहरण के लिए, अगर हमारे पास वाक्य है "मैं अगले महीने ऑस्टिन में एसएक्सएसडब्ल्यू पर एनएलपी पर सेमिनार करने जा रहा हूं"। हम इस वाक्य से निम्नलिखित अर्थपूर्ण उप-वाक्यों को निकाल सकते हैं: "मैं एक संगोष्ठी करने जा रहा हूं", "मैं एनएलपी पर सेमिनार करने जा रहा हूं", "मैं एसएक्सएसडब्ल्यू पर एनएलपी पर सेमिनार करने जा रहा हूं", " मैं एसएक्सएसडब्लू में एक संगोष्ठी करने जा रहा हूं "," मैं ऑस्टिन में सेमिनार करने जा रहा हूं "," मैं अगले महीने एनएलपी पर सेमिनार करने जा रहा हूं ", आदि

कृपया ध्यान दें कि कोई कटौती नहीं है यहां वाक्यों (उदाहरण के लिए "अगले महीने एसएक्सएसडब्ल्यू में एक एनएलपी सेमिनार होगा"। हालांकि यह सच है, हमें इस समस्या के हिस्से के रूप में इसकी आवश्यकता नहीं है।)। सभी जेनरेट किए गए वाक्य सख्ती से दिए गए वाक्य का हिस्सा हैं।

हम इस समस्या को हल करने के लिए कैसे दृष्टिकोण कर सकते हैं? मैं एनोटेटेड प्रशिक्षण डेटा बनाने की सोच रहा था जिसमें प्रशिक्षण डेटा सेट में प्रत्येक वाक्य के लिए कानूनी उप-वाक्यों का एक सेट है। और उसके बाद मॉडल उत्पन्न करने के लिए कुछ पर्यवेक्षित शिक्षण एल्गोरिदम लिखें।

मैं एनएलपी और मशीन लर्निंग के लिए काफी नया हूं, इसलिए यदि आप लोग इस समस्या को हल करने के कुछ तरीकों का सुझाव दे सकते हैं तो यह बहुत अच्छा होगा।

+0

अपने उदाहरण में, आप भी तरह "मैं जा रहा हूँ" और तुच्छ subsentences चाहते हैं "मैं हूँ"? कैसे "मैं अगले महीने ऑस्टिन जा रहा हूं" के बारे में कैसे? –

+0

@ एड्रियन मैककार्थी: "मैं अगले महीने ऑस्टिन जा रहा हूं" प्रश्न में वर्णित "अनुमानित वाक्यों" में पड़ जाएगा।ये यहां वांछित नहीं हैं, क्योंकि वे इनपुट वाक्य का अर्थपूर्ण उपचार दर्शाते हैं, जहां मैं इसे समझता हूं, विचार मूल पाठ से योग्यता पूर्वोत्तर वाक्यांशों के विभिन्न संयोजनों को शामिल/बहिष्कृत करना है। – mjv

+1

@ एड्रियन मैकार्थी: आपने एक अच्छा बिंदु उठाया। उप-वाक्य "मैं ऑस्टिन जा रहा हूं" कुछ हद तक कम वाक्य और एक "सख्त" उप-वाक्य के बीच सीमा रेखा पर पड़ता है। लेकिन चूंकि आवश्यकता केवल वाक्य में सख्ती से पाए गए उप-वाक्यों को सूचीबद्ध करना है, इसलिए हम इस वाक्य को छोड़ देंगे। –

उत्तर

6

हिक्ल एट अल द्वारा "Using Discourse Commitments to Recognize Textual Entailment" शीर्षक वाला एक पेपर है जो व्याख्यान प्रतिबद्धताओं (उप-वाक्यों) के निष्कर्षण पर चर्चा करता है। पेपर में उनके एल्गोरिदम का वर्णन शामिल है जो कुछ स्तरों पर नियमों पर काम करता है। उन्होंने इसे आरटीई के लिए इस्तेमाल किया, और आउटपुट में कटौती के कुछ न्यूनतम स्तर हो सकते हैं। पाठ सरलीकरण शायद एक संबंधित क्षेत्र को देखने के लिए।

+0

कागज के लिंक के लिए धन्यवाद। यह पूछे जाने वाले प्रश्न से दिलचस्प और संबंधित लगता है। –

2

एक दृष्टिकोण एक पीसीएफजी जैसे पार्सर के साथ होगा। 'सब्सेंटेंस' का पता लगाने के लिए सिर्फ एक मॉडल को प्रशिक्षित करने की कोशिश कर डेटा स्पेसिटी से पीड़ित होने की संभावना है। साथ ही, मुझे संदेह है कि आप सब्सेंटेंस की वास्तव में साफ और स्पष्ट परिभाषा लिख ​​सकते हैं, और यदि आप इसे परिभाषित नहीं कर सकते हैं, तो आप एनोटेटर्स को इसके लिए एनोटेट नहीं कर सकते हैं।

10

आप Stanford CoreNLP द्वारा प्रदत्त निर्भरता पार्सर का उपयोग कर सकते हैं। आपकी वाक्य का संक्षिप्त आउटपुट नीचे दिखेगा।

nsubj(going-3, I-1) 
xsubj(do-5, I-1) 
aux(going-3, am-2) 
root(ROOT-0, going-3) 
aux(do-5, to-4) 
xcomp(going-3, do-5) 
det(seminar-7, a-6) 
dobj(do-5, seminar-7) 
prep_on(seminar-7, NLP-9) 
prep_at(do-5, -11) 
prep_in(do-5, Austin-13) 
amod(month-15, next-14) 
tmod(do-5, month-15) 

आपके वाक्य आउटपुट का अंतिम 5 वैकल्पिक है। आप एक या अधिक हिस्सों को हटा सकते हैं जो आपकी सजा के लिए आवश्यक नहीं हैं।
इनमें से अधिकतर वैकल्पिक भाग पूर्वनिर्धारित और संशोधक के हैं: prep_in, prep_do, advmod, tmod, आदिStanford Dependency Manual देखें।

उदाहरण के लिए, यदि आप उत्पादन से सभी संशोधक निकालने के लिए, आप

मैं ऑस्टिन में SXSW पर NLP पर एक सेमिनार करने जा रहा हूँ मिल जाएगा।

+0

लेकिन यह मुझे * सभी * संभव वाक्यों की सूची नहीं देता है। मेरा मतलब है कि यह इस निर्भरता आउटपुट में छिपा हुआ हो सकता है, लेकिन मुझे उन वाक्यों को निकालने के लिए व्यवस्थित तरीके की आवश्यकता है। –

+3

बेशक यह नहीं था। लेकिन आप सभी संभव वाक्य निकाल सकते हैं। लिस्टिंग के साथ शुरू करें ** सभी वैकल्पिक भागों **। फिर उन वैकल्पिक भाग को हटाने के लिए सभी संयोजनों को आजमाएं। – Khairul

+0

क्या कोई गारंटी है कि यह * हमेशा * वाक्य रचनात्मक और अर्थात् वैध वाक्यों को उत्पन्न करेगा? –

5

निम्नलिखित पेपर http://www.mpi-inf.mpg.de/~rgemulla/publications/delcorro13clausie.pdf स्टैनफोर्ड पार्सर से निर्भरताओं को संसाधित करता है और सरल खंड (टेक्स्ट-सरलीकरण) का निर्माण करता है।

ऑनलाइन डेमो देखें - https://d5gate.ag5.mpi-sb.mpg.de/ClausIEGate/ClausIEGate

+1

देखें क्या परियोजना किसी भी मौके से खुली है? –

संबंधित मुद्दे