मैं वर्तमान में लेखक संबद्धता (PubMed लेख) मेरी नमूना डेटा की तरह लग रहा से देश का नाम निकालने की संभावनाओं पर विचार कर रहा हूँ:निकाला जा रहा है देश का नाम लेखक संबद्धता से
Mechanical and Production Engineering Department, National University of Singapore.
Cancer Research Campaign Mammalian Cell DNA Repair Group, Department of Zoology, Cambridge, U.K.
Cancer Research Campaign Mammalian Cell DNA Repair Group, Department of Zoology, Cambridge, UK.
Lilly Research Laboratories, Eli Lilly and Company, Indianapolis, IN 46285.
शुरू में मैंने विराम चिह्नों को हटाने और वेक्टर को शब्दों में विभाजित करने की कोशिश की और फिर इसे विकिपीडिया से देश के नामों की सूची के साथ तुलना की लेकिन मैं इस पर सफल नहीं हूं।
क्या कोई मुझे कृपया ऐसा करने का बेहतर तरीका सुझा सकता है? मैं R
में समाधान पसंद करूंगा क्योंकि मुझे आगे विश्लेषण करना है और R
में ग्राफिक्स जेनरेट करना है।
यदि आप आर के बाहर फ़ाइल को प्रीप्रोसेस करते हैं, तो इसे बेहतर बना सकते हैं, इसे सीएसवी के रूप में सहेजें और फिर बाकी के लिए आर का उपयोग करें। इस तरह की नौकरी के लिए Google Refine एक शानदार टूल है। – edmz
'Google Refine' भी अच्छा काम करता है! सलाह के लिये धन्यवाद! –