2012-06-11 16 views
13

का उपयोग कर टेक्स्ट फ़ाइल से संज्ञा वाक्यांशों को निकालने के लिए मेरे पास एक टेक्स्ट है जिसे मैं संज्ञा वाक्यांशों को निकालना चाहता हूं। मेरे पास पाठ के लिए आसानी से टाइप किया गया पार्सर मिल सकता है, लेकिन यह सोचकर कि मैं पाठ में संज्ञा वाक्यांश कैसे निकाला जा सकता हूं?स्टैनफोर्ड टाइप किए गए पार्सर

+1

मैं स्टैनफोर्ड टाइप किया पार्सर प्राप्त करने की कोशिश की है, लेकिन अभी भी सोच किस टैग संज्ञा पद का प्रतिनिधित्व करती है! –

+0

यू को एनएलपी उपकरण की आवश्यकता है। इस सवाल की जांच करें http://stackoverflow.com/questions/1889675/extract-nouns-from-text-java –

+0

आप पहले स्थान पर निर्भरता पार्सर का उपयोग क्यों कर रहे हैं? एक सामान्य पार्स पेड़ जनरेटर ऐसा लगता है कि आप जो चाहते हैं उसके लिए जाएं। –

उत्तर

0

आप पीओएस टैगिंग के लिए स्टैनफोर्ड कोर एनएलपी का उपयोग कर सकते हैं। आप http://nlp.stanford.edu/software/corenlp.shtml#Usage पर एक नमूना कोड पा सकते हैं जो प्रयोग के लिए एक अच्छा प्रारंभिक बिंदु हो सकता है। आपको गुणों के रूप में टोकननाइजेशन, स्प्लिट और पॉज़ देना होगा। यह उनके संबंधित टैग के साथ टोकन की एक सूची आउटपुट करता है।

संपूर्ण टैग सूची को http://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html पर देखा जा सकता है। सभी संज्ञा टैग एनएन के साथ शुरू होगा। इस चेक को करने से आपको आवश्यक टोकन मिलेंगे।

7

इस link को भी आजमाएं। मुझे यकीन नहीं है कि क्या स्टैनफोर्ड पॉज़ टैगर और कोरनएलपी में उपलब्ध टैगर समान हैं या नहीं, लेकिन मुझे यह लिंक अधिक उपयोगी होने के लिए मिला है।

पीओएस टैगिंग के बाद आपको इस (विशेषण | Noun) * (Noun Preposition) जैसे पैटर्न का पता लगाना होगा? (विशेषण | नाम) * नाम

इस वाक्यांश को link पर नॉन वाक्यांश पहचान पर कुछ विवरणों के लिए आज़माएं।

9

आप निम्नलिखित कोड का उपयोग कर वृक्ष से संज्ञा वाक्यांश निकाल सकते हैं। यह मान लिया गया है आप पार्स में संग्रहीत वाक्य पार्स (अर्थात पार्स LexicalizedParser वर्ग के उत्पादन में लागू किया जाता है विधि)

public static List<Tree> GetNounPhrases() 
{ 

    List<Tree> phraseList=new ArrayList<Tree>(); 
    for (Tree subtree: parse) 
    { 

     if(subtree.label().value().equals("NP")) 
     { 

     phraseList.add(subtree); 
     System.out.println(subtree); 

     } 
    } 

     return phraseList; 

} 
संबंधित मुद्दे