मैं 200 शब्दों की सूची से कई क्रमपरिवर्तन बनाना चाहता हूं - यह स्पष्ट रूप से एक समस्या पैदा करता है क्योंकि इससे संभवतः संभावित क्रमपरिवर्तन (वाक्यांश में 5 शब्द तक) की कुछ हास्यास्पद संख्या होती है। आदेश में प्रभावी रूप से इस संख्या को सीमित करने में मैं एक दो आयामी हमले होते हैं:शब्द क्रमपरिवर्तन को केवल semantically सही ngrams खोजने के लिए कैसे फ़िल्टर करें? (पायथन 3, एनएलटीके)
- एक पीओएस फिल्टर के माध्यम से दर्रा शब्द ताकि केवल भाषायी ध्वनि वाक्यांशों बनाई गई हैं और
- फिल्टर उन क्रमपरिवर्तन है कि वास्तविक ngrams हैं द्वारा - अर्थात् एक उच्च पीएमआई/संभावना स्कोर है। मुझे पता है कि NLTK ngrams खोजने की क्षमता प्रदान करता है, लेकिन हर उदाहरण मैंने देखा है कोष है, जो समझ में आता है, क्योंकि एक freqdist की जरूरत है विश्लेषण करती है -
इस अवधारणा के दूसरे भाग मुझे सोच है। हालांकि, क्या एक शब्द क्रमपरिवर्तन के पीएमआई को खोजना संभव है?
क्या मेरे वर्ड क्रमपरिवर्तन के पीएमआई स्कोर को एक कस्टम कॉर्पस के भीतर मिले सामान्य कॉलोकेशन पर आधारित होना संभव होगा?इसे मैन्युअल रूप से किया जा सकता है?
उदाहरण के लिए, क्रमपरिवर्तन (वर्बोज़ चाय) भाषाई रूप से ध्वनि है, यह एक प्रासंगिक रूप से अच्छा क्रमपरिवर्तन नहीं है।
मुझे टेक्स्ट/कॉर्पस के ब्लॉक के भीतर सामान्य कॉलोकेशन खोजने के लिए कोड पता है, लेकिन यह एक बहुत ही अनोखी समस्या है जिसे मैं उम्मीद कर रहा था कि कोई सलाह दे सकता है। कम से कम, मुझे इसके चारों ओर अपने सिर लपेटने में मदद करें!
उदाहरण
**KW**
Ball
Bat
Pinch
Home
Run
Base
Hitter
Pitcher
Call
etc...
अधिक पृष्ठभूमि: अब, वहाँ क्रमपरिवर्तन कि इस सूची में से बनाया जा सकता है की एक संख्या है, लेकिन केवल एक मुट्ठी भर है कि वास्तव में मतलब होता है। इस सूची को पीओएस फ़िल्टर के माध्यम से पास करने से मुझे ऐसे कीवर्ड बनाने की अनुमति मिलती है जो भाषाई भावनाएं बनाते हैं - लेकिन जो लोग अर्थात् सही नहीं हैं, वे "कॉल बॉल हिटर" कहें। यह मेरा संघर्ष है, किसी भी तरह पीएमआई जैसे किसी प्रकार के स्कोरिंग मानदंडों के आधार पर अर्थात् सही क्रमिक क्रमिक क्रम बनाने के लिए। अब मेरा विचार एक वेबसाइट को स्क्रैप करना था, यानी http://en.wikipedia.org/wiki/Baseball, इसके भीतर सामान्य ngrams ढूंढें, और फिर किसी भी तरह उस कॉर्पस के आधार पर कीवर्ड क्रमपरिवर्तन की सापेक्ष अर्थात् शक्ति का न्याय करें। लेकिन मैं इसे अवधारणात्मक बनाने के लिए संघर्ष कर रहा हूं और यह सुनिश्चित नहीं है कि यह संभव है। लेकिन वास्तव में, मुझे ngram क्रमपरिवर्तन को कुशलता से खोजने के तरीके के बारे में कोई अन्य विचार सुनना अच्छा लगेगा! यहां अभ्यास सब कुछ मैन्युअल रूप से वर्गीकृत/स्कोर किए बिना गैरकानूनी क्रमपरिवर्तन को कुशलता से समाप्त करने के लिए उबलता है!
क्या आप इस प्रश्न के लिए कुछ उदाहरण बना सकते हैं? –
क्या आप पीएमआई को परिभाषित कर सकते हैं? –