श्रेणी के आधार पर पांडा डेटाफ्रेम पंक्तियों को कॉलम में कैसे परिवर्तित करें?

मेरे पास एक श्रेणी परिवर्तक और कुछ संख्या चर के साथ एक पांडा डेटा फ्रेम है। कुछ इस तरह: आईडी द्वाराश्रेणी के आधार पर पांडा डेटाफ्रेम पंक्तियों को कॉलम में कैसे परिवर्तित करें?

df 
Out[15]: 
    count id module 
0  5 2 payroll 
1  53 2 general 
2  35 5  tax

मैं परिवर्तित करना चाहते हैं (स्थानांतरित सही शब्द है?) कॉलम और समूह में मॉड्यूल चर:

ls = [{'count':5, 'module':'payroll', 'id':2}, {'count': 53, 'module': 'general','id':2}, {'id': 5,'count': 35, 'module': 'tax'}, ] 
df = pd.DataFrame.from_dict(ls)

df इस तरह दिखता है। तो कुछ की तरह:

df['payroll_count'] = df.id.apply(lambda x: df[df.id==x][df.module=='payroll'])

बहरहाल, यह कई कमियां से ग्रस्त:

महंगे, और बहुत अधिक समय लगता है
इस के लिए
```
general_count id payroll_count tax_count 
0   53.0 2   5.0  NaN 
1   NaN 5   NaN  35.0 
```
एक दृष्टिकोण को लागू करने का उपयोग किया जाएगा
कलाकृतियों और खाली डेटाफ्रेम टी बनाता है टोपी साफ करने की जरूरत है।

मैं समझ pandas groupby साथ इस लक्ष्य को हासिल करने के लिए एक बेहतर तरीका नहीं है, लेकिन और अधिक कुशलता से यह एक ही आपरेशन के लिए एक रास्ता नहीं मिल रहा। कृपया मदद करे।

स्रोत

2016-09-22 Software Mechanic

अपने वांछित उत्पादन में , पहली पंक्ति में 'id' 2 होना चाहिए, है ना? – IanS

हाँ। इसे ठीक किया .. इंगित करने के लिए धन्यवाद .. @jezrael ने भी एक अच्छा जवाब दिया है। –

आप कॉलम द्वारा groupby का उपयोग कर सकते हैं जो पहले नए index और अंतिम column बनाते हैं। तो किसी भी तरह से aggreagate की जरूरत है - मैं mean का उपयोग करें, फिर DataFrame.squeeze द्वारा एक कॉलम DataFrame से Series को परिवर्तित करें (फिर आवश्यक नहीं है कॉलम में मल्टीइंडेक्स के शीर्ष स्तर को हटाएं) और unstack द्वारा पुन: आकार दें। स्तंभ नाम के अंतिम add_suffix:

df = df.groupby(['id','module']).mean().squeeze().unstack().add_suffix('_count') 
print (df) 
module general_count payroll_count tax_count 
id            
2    53.0   5.0  NaN 
5     NaN   NaN  35.0

pivot साथ एक अन्य समाधान है, तो list comprehension द्वारा स्तंभों से Multiindex हटाने की जरूरत है: set_index

df = df.pivot(index='id', columns='module') 
df.columns = ['_'.join((col[1], col[0])) for col in df.columns] 
print (df) 
    general_count payroll_count tax_count 
id           
2   53.0   5.0  NaN 
5    NaN   NaN  35.0

स्रोत

2016-09-22 10:05:08 jezrael

धन्यवाद .. समूहby समाधान मेरे मामले को पूरी तरह से फिट करता है। पिवट समस्या का कारण बन सकता है क्योंकि मैं डेटा क्लस्टर करने की कोशिश कर रहा हूं। दूसरों के लिए यह समूह कैसे उपयोगी होगा इस बारे में कुछ स्पष्टीकरण। –

ठीक है, मुझे ec के रूप में दें – jezrael

आप इस्तेमाल कर सकते हैं और unstack

In [2]: df.set_index(['id','module'])['count'].unstack().add_suffix('_count').reset_index() 
Out[2]: 
module id general_count payroll_count tax_count 
0  2   53.0   5.0  NaN 
1  5   NaN   NaN  35.0

स्रोत

2017-10-15 08:23:36 Zero

श्रेणी के आधार पर पांडा डेटाफ्रेम पंक्तियों को कॉलम में कैसे परिवर्तित करें?

उत्तर

संबंधित मुद्दे