का उपयोग कर टेक्स्ट फ़ाइल से संज्ञा वाक्यांशों को निकालने के लिए मेरे पास एक टेक्स्ट है जिसे मैं संज्ञा वाक्यांशों को निकालना चाहता हूं। मेरे पास पाठ के लिए आसानी से टाइप किया गया पार्सर मिल सकता है, लेकिन यह सोचकर कि मैं पाठ में संज्ञा वाक्यांश कैसे निकाला जा सकता हूं?स्टैनफोर्ड टाइप किए गए पार्सर
उत्तर
आप पीओएस टैगिंग के लिए स्टैनफोर्ड कोर एनएलपी का उपयोग कर सकते हैं। आप http://nlp.stanford.edu/software/corenlp.shtml#Usage पर एक नमूना कोड पा सकते हैं जो प्रयोग के लिए एक अच्छा प्रारंभिक बिंदु हो सकता है। आपको गुणों के रूप में टोकननाइजेशन, स्प्लिट और पॉज़ देना होगा। यह उनके संबंधित टैग के साथ टोकन की एक सूची आउटपुट करता है।
संपूर्ण टैग सूची को http://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html पर देखा जा सकता है। सभी संज्ञा टैग एनएन के साथ शुरू होगा। इस चेक को करने से आपको आवश्यक टोकन मिलेंगे।
इस link को भी आजमाएं। मुझे यकीन नहीं है कि क्या स्टैनफोर्ड पॉज़ टैगर और कोरनएलपी में उपलब्ध टैगर समान हैं या नहीं, लेकिन मुझे यह लिंक अधिक उपयोगी होने के लिए मिला है।
पीओएस टैगिंग के बाद आपको इस (विशेषण | Noun) * (Noun Preposition) जैसे पैटर्न का पता लगाना होगा? (विशेषण | नाम) * नाम
इस वाक्यांश को link पर नॉन वाक्यांश पहचान पर कुछ विवरणों के लिए आज़माएं।
आप निम्नलिखित कोड का उपयोग कर वृक्ष से संज्ञा वाक्यांश निकाल सकते हैं। यह मान लिया गया है आप पार्स में संग्रहीत वाक्य पार्स (अर्थात पार्स LexicalizedParser वर्ग के उत्पादन में लागू किया जाता है विधि)
public static List<Tree> GetNounPhrases()
{
List<Tree> phraseList=new ArrayList<Tree>();
for (Tree subtree: parse)
{
if(subtree.label().value().equals("NP"))
{
phraseList.add(subtree);
System.out.println(subtree);
}
}
return phraseList;
}
- 1. स्टैनफोर्ड पार्सर मल्टीथ्रेड उपयोग
- 2. स्टैनफोर्ड एनएलपी पार्सर
- 3. स्टैनफोर्ड पार्सर टैग
- 4. टाइप किए गए डेटासेट
- 5. टाइप किए गए मॉडल
- 6. टाइप किए गए टाइप टेम्पलेट प्रकार
- 7. टाइप किए गए मेटाप्रोग्रामिंग भाषा
- 8. स्टैनफोर्ड पार्सर में संज्ञा और क्रिया खोजने
- 9. स्टैनफोर्ड पार्सर: निर्भरताओं को निकालने के लिए कैसे?
- 10. मजबूत टाइप किए गए डेटासेट बनाम कमजोर टाइप किए गए डेटासेट
- 11. मजबूत टाइप किए गए दृश्य बनाम गतिशील टाइप किए गए दृश्य
- 12. मजबूत टाइप किए गए गतिशील लिंक सॉर्टिंग
- 13. टाइप किए गए ऑब्जेक्ट्स का जावास्क्रिप्ट सीरियलाइजेशन
- 14. एनम बनाम मजबूत टाइप किए गए enum
- 15. टाइपस्क्रिप्ट टाइप किए गए सरणी उपयोग
- 16. मजबूत टाइप किए गए रेडियोबटन सूची
- 17. नोडजेस बफर बनाम टाइप किए गए सरणी
- 18. JSON स्कीमा जावास्क्रिप्ट टाइप किए गए ऑब्जेक्ट
- 19. एक मजबूत टाइप किए गए डेटासेट
- 20. फ़ंक्शन पॉइंटर बिना टाइप किए गए
- 21. दृढ़ता से टाइप किए गए एमवीसी
- 22. मजबूत टाइप किए गए विंडोज फॉर्म डेटाबेस
- 23. स्टैनफोर्ड nlp tokenizer
- 24. डीएएल "टाइप किए गए डेटासेट्स" या कस्टम बिजनेस ऑब्जेक्ट
- 25. दृढ़ता से टाइप किए गए एएसपी.नेट एमवीसी सत्र
- 26. कस्टम घटनाएं बनाना - ऑब्जेक्ट प्रेषक या टाइप किए गए प्रेषक?
- 27. टाइप किए गए ऐरे को पुनर्नवीनीकरण क्यों किया जाना चाहिए?
- 28. एमवीसी 4 दृढ़ता से टाइप किए गए बंडल बंडल
- 29. फ़ंक्शन एप्लिकेशन के साथ टाइप किए गए अमूर्त वाक्यविन्यास पेड़
- 30. फ़ायरफ़ॉक्स में टाइप किए गए वर्णों को कैसे बदलें
मैं स्टैनफोर्ड टाइप किया पार्सर प्राप्त करने की कोशिश की है, लेकिन अभी भी सोच किस टैग संज्ञा पद का प्रतिनिधित्व करती है! –
यू को एनएलपी उपकरण की आवश्यकता है। इस सवाल की जांच करें http://stackoverflow.com/questions/1889675/extract-nouns-from-text-java –
आप पहले स्थान पर निर्भरता पार्सर का उपयोग क्यों कर रहे हैं? एक सामान्य पार्स पेड़ जनरेटर ऐसा लगता है कि आप जो चाहते हैं उसके लिए जाएं। –