में चर के फ़ज़ी मिलान के माध्यम से विलय करना मेरे पास दो डेटाफ्रेम (x y) हैं, जहां आईडी student_name
, father_name
और mother_name
हैं। टाइपोग्राफ़िकल त्रुटियों ("एम" के बजाय "एम", यादृच्छिक सफेद रिक्त स्थान इत्यादि), मेरे पास लगभग 60% मान हैं जो संरेखित नहीं हैं, हालांकि मैं डेटा को नजरअंदाज कर सकता हूं और उन्हें देखना चाहिए। क्या किसी भी तरह के गैर-मिलान के स्तर को कम करने का कोई तरीका है ताकि मैन्युअल रूप से संपादन संभवतः कम से कम संभव हो? डेटाफ्रेम के बारे में 700 के अवलोकन हैं।आर
आर सबसे अच्छा होगा। मुझे थोड़ा सा अजगर, और कुछ बुनियादी यूनिक्स उपकरण पता है। अनुलेख मैंने agrep()
पर पढ़ा है, लेकिन यह समझ में नहीं आता कि यह वास्तविक डेटासेट पर कैसे काम कर सकता है, खासकर जब मैच एक से अधिक चर से अधिक हो।
अद्यतन (पोस्ट इनाम के लिए डेटा):
Here दो उदाहरण डेटा फ्रेम, sites_a
और sites_b
हैं। उन्हें संख्यात्मक कॉलम lat
और lon
के साथ-साथ sitename
कॉलम पर मिलान किया जा सकता है। यह जानना उपयोगी होगा कि यह कैसे किया जा सकता है) lat
+ lon
, बी) sitename
या सी) दोनों।
आप फ़ाइल को test_sites.R पर स्रोत कर सकते हैं जिसे एक गिस्ट के रूप में पोस्ट किया गया है।
आदर्श रूप में जवाब के साथ
merge(sites_a, sites_b, by = **magic**)
क्या आप अपने डेटा का एक छोटा सबसेट प्रदान कर सकते हैं (या हमें कुछ नकली डेटा प्रदान कर सकते हैं)? –
@ RomanLuštrik हालांकि यह मूल रूप से मेरा प्रश्न नहीं था, मेरे पास एक समान समस्या थी, कुछ नमूना डेटा बनाया है, और एक उपहार प्रदान किया है। –
@ डेविड ने आपने 'मर्ज करने की कोशिश की है (sites_a, sites_b, by = c ("lon", "lat")) '? आपके मामले में, यदि आप नामों से विलय करना चाहते हैं, तो आपको डेटा दोनों नामों में नाम बनाने में अधिक ऊर्जा निवेश करनी होगी। फ्रेम मैच (शुभकामनाएं, हुह)। उदाहरण के लिए –