2016-09-27 28 views
5

मान लीजिए मैं पांडा dataframe के रूप में:Dask dataframe में कनवर्ट पांडा dataframe

from dask import dataframe as dd 
sd=dd.DataFrame(df.to_dict(),divisions=1,meta=pd.DataFrame(columns=df.columns,index=df.index)) 

TypeError: init() missing 1 required positional argument: 'name'

:

df=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]}) 

जब मैंने इसे dask dataframe में तब्दील क्या name और divisions पैरामीटर होने चाहिए संपादित करें: मान लीजिए कि मैं एक पांडा डेटाफ्रेम बना देता हूं जैसे:

pd.DataFrame({'a':[1,2,3],'b':[4,5,6]}) 

इसी dask dataframe बनाने का तरीका के रूप में यह name,divisions और meta के रूप में तीन अतिरिक्त तर्क की जरूरत है।

sd=dd.Dataframe({'a':[1,2,3],'b':[4,5,6]},name=,meta=,divisions=) 

आपके उत्तर के लिए धन्यवाद।

उत्तर

9

मुझे लगता है कि आप dask.dataframe.from_pandas उपयोग कर सकते हैं:

from dask import dataframe as dd 
sd = dd.from_pandas(df, npartitions=3) 
print (sd) 
dd.DataFrame<from_pa..., npartitions=2, divisions=(0, 1, 2)> 

संपादित करें:

मैं solution लगता है:

import pandas as pd 
import dask.dataframe as dd 
from dask.dataframe.utils import make_meta 

df=pd.DataFrame({'a':[1,2,3],'b':[4,5,6]}) 

dsk = {('x', 0): df} 

meta = make_meta({'a': 'i8', 'b': 'i8'}, index=pd.Index([], 'i8')) 
d = dd.DataFrame(dsk, name='x', meta=meta, divisions=[0, 1, 2]) 
print (d) 
dd.DataFrame<x, npartitions=2, divisions=(0, 1, 2)> 
+0

उत्तर के लिए धन्यवाद, लेकिन मैं क्या नाम और डिवीजनों पैरामीटर है करना चाहते हैं, जबकि डस्क डेटाफ्रेम बनाना। मैं प्रलेखन के माध्यम से चला गया है लेकिन समझ में नहीं आया। – rey

+0

मैं 'डॉक्टर' विशेषज्ञ नहीं हूं, लेकिन मुझे लगता है कि आपको [रोम-कच्चे-डस्क-ग्राफ] की आवश्यकता है (http://dask.pydata.org/en/latest/dataframe-create.html#from-raw-dask- ग्राफ)। लेकिन मुझे लगता है [डस्क के लेखक] (http://stackoverflow.com/users/616616/mrocklin) और समझाते हैं। – jezrael

+1

धन्यवाद, मैं इसे समझने की कोशिश करूंगा और अन्य उत्तरों की प्रतीक्षा करूंगा। – rey