मैं पायथन एनएलटीके वर्डनेट एपीआई के साथ काम कर रहा हूं। मैं सबसे अच्छा synset खोजने की कोशिश कर रहा हूँ जो शब्दों के समूह का प्रतिनिधित्व करता है।शब्द वाक्यांश के लिए एनएलटीके वर्डनेट सिंसेट
यदि मुझे "स्कूल & कार्यालय की आपूर्ति" जैसे कुछ के लिए सर्वश्रेष्ठ सिंकसेट खोजने की आवश्यकता है, तो मुझे यकीन नहीं है कि इस बारे में कैसे जाना है।
def find_best_synset(category_name):
text = word_tokenize(category_name)
tags = pos_tag(text)
node_synsets = []
for word, tag in tags:
pos = get_wordnet_pos(tag)
if not pos:
continue
node_synsets.append(wordnet.synsets(word, pos=pos))
max_score = 0
max_synset = None
max_combination = None
for combination in itertools.product(*node_synsets):
for test in itertools.combinations(combination, 2):
score = wordnet.path_similarity(test[0], test[1])
if score > max_score:
max_score = score
max_combination = test
max_synset = test[0].lowest_common_hypernyms(test[1])
return max_synset
हालांकि यह बहुत अच्छी तरह से काम नहीं करता है के साथ साथ यह बहुत महंगा है: अब तक मैं प्रत्येक शब्द के synsets खोजने और फिर इस तरह की गणना सबसे अच्छा सबसे कम आम hypernym कोशिश की है। क्या यह समझने के कोई तरीके हैं कि कौन सा सिंटसेट एक साथ कई शब्दों का प्रतिनिधित्व करता है?
आपकी मदद के लिए धन्यवाद!
यदि आपके सभी भाव उस उदाहरण की तरह हैं, तो आपको शायद एक सामान्य हाइपरनाम नहीं दिखना चाहिए। "स्कूल की आपूर्ति" एक तरह की आपूर्ति है, लेकिन वे किसी तरह का स्कूल नहीं हैं। इसके बजाय, आप पिछले शब्द के synsets पर विचार कर सकते हैं और पिछले शब्दों का उपयोग करने वालों के बीच असंबद्ध (मुझे यकीन नहीं है कि यह कैसे करना है)। – lenz
हमम, मैं आपका बिंदु देखता हूं लेकिन मुझे नहीं लगता कि सभी अभिव्यक्ति उस उदाहरण की तरह हैं। मुझे एहसास है कि "स्कूल और कार्यालय" आपूर्ति के प्रकार हैं लेकिन उन्हें अभी भी विशेषण के बजाय संज्ञा के रूप में पहचाना जाता है। –
ठीक है, यदि अभिव्यक्तियों में अलग-अलग आंतरिक संरचनाएं हैं, तो यह आपके कार्य को सरल नहीं करेगा। मेरा सुझाव है कि आप मैन्युअल रूप से एक यादृच्छिक नमूना में सही synset असाइन करें (जैसे 20 से शुरू करने के लिए) और फिर देखें कि क्या आप एक पैटर्न देख सकते हैं। या मैन्युअल रूप से और भी उदाहरण करते हैं और निर्णय पेड़ को प्रशिक्षित करते हैं। – lenz