मैं TM
पैकेज के साथ बहुत सारे विश्लेषण कर रहा हूं। मेरी सबसे बड़ी समस्याओं में से एक स्टेमिंग और स्टेमिंग-जैसे ट्रांसफॉर्मेशन से संबंधित है।आर टेक्स्ट विश्लेषण के साथ स्टेमिंग
मान लें कि मेरे पास कई लेखांकन संबंधी शब्द हैं (मुझे वर्तनी के मुद्दों से अवगत है)।
हम स्टेमिंग के बाद है:
accounts -> account
account -> account
accounting -> account
acounting -> acount
acount -> acount
acounts -> acount
accounnt -> accounnt
परिणाम: 3 शर्तें (खाते, acount, खाता) जहाँ मैं 1 (खाता) को पसंद किया है के रूप में इन सभी को एक ही अवधि से संबंधित हैं।
1) वर्तनी को सही करने के लिए एक संभावना है, लेकिन मैंने आर में कभी कोशिश नहीं की है। क्या यह भी संभव है?
2) अन्य विकल्प के लिए एक संदर्भ सूची यानी वह खाता = (खाते, खाते, लेखांकन, acounting, acount, acounts, accounnt) और फिर मास्टर अवधि वाली सभी आवृत्तियां प्रतिस्थापित किया जा सके। मैं आर में यह कैसे करूँगा?
एक बार फिर, किसी भी मदद/सुझावों की बहुत सराहना की जाएगी।
बढ़िया, यह मेरे लिए काम करना चाहिए, लेकिन मुझे मैन्युअल रूप से सूचियों को संकलित करना है - जो ठीक है। पहले से अधिक नियंत्रण। धन्यवाद! – RUser
बस मेरे लाइव डेटा पर इसका परीक्षण किया - एक आकर्षण की तरह काम करता है! सबसे कठिन हिस्सा सभी शब्दों के सभी प्रकारों की पहचान करना है और फिर किसी भी तरह से सूची निर्माण को आसान/स्वचालित बनाते हैं। – RUser