2015-09-16 14 views
10

में श्रेणियों के लिए अनुपलब्ध मानों का इंप्यूशन सवाल यह है कि पांडा डेटाफ्रेम में श्रेणी कॉलम के लिए सबसे अधिक स्तरों के साथ NaNs को कैसे भरना है?पांडा

आर randomForest पैकेज में वहाँ है na.roughfix विकल्प: A completed data matrix or data frame. For numeric variables, NAs are replaced with column medians. For factor variables, NAs are replaced with the most frequent levels (breaking ties at random). If object contains no NAs, it is returned unaltered.

सांख्यिक चर रहा NaN साथ महत्व देता भर सकते हैं के लिए पांडा में

:

df = df.fillna(df.median()) 

उत्तर

17

आप df = df.fillna(df['Label'].value_counts().index[0]) उपयोग कर सकते हैं सबसे लगातार मूल्य के साथ Nans को भरने के लिए एक कॉलम से

आप उपयोग कर सकते हैं आप अपने आप ही सबसे लगातार मूल्य के साथ हर कॉलम भरने के लिए चाहते हैं

df = df.apply(lambda x:x.fillna(x.value_counts().index[0]))

+0

धन्यवाद, यह काम करता है। मैंने यह भी पाया कि मैं इसे numpy 'np.asscalar ((मोड (डीएफ ['लेबल'] के साथ कर सकता हूं (0])) –

+0

पहले मामले के लिए, 'df.fillna'' इनस्थल' कीवर्ड लेता है जो आप 'ट्रू' पर सेट कर सकते हैं जो थोड़ा अधिक संक्षिप्त कोड बनाता है। – James