मेरे पास एक एक्सेल फ़ाइल (.xlsx) है जिसमें लगभग 800 पंक्तियां और 128 कॉलम हैं जो ग्रिड में सुंदर घने डेटा के साथ हैं।डेटा फ्रेम पर पांड धीमा
xlsx = pandas.ExcelFile(filename)
frame = xlsx.parse(xlsx.sheet_names[0])
media_frame = frame[media_headers] # just get the cols that need replacing
from_filenames = get_from_filenames() # returns ~9500 filenames to replace in DF
to_filenames = get_to_filenames()
media_frame = media_frame.replace(from_filenames, to_filenames)
frame.update(media_frame)
frame.to_excel(filename)
replace()
60 सेकंड लेता है: वहाँ 9500 के बारे में कोशिकाओं है कि मैं पांडा डेटा फ्रेम का उपयोग करने का कक्ष मान बदलने के लिए कोशिश कर रहा हूँ कर रहे हैं। इसे गति देने का कोई तरीका? यह बड़ा डेटा या कार्य नहीं है, मैं उम्मीद कर रहा था कि पांडा बहुत तेज़ी से आगे बढ़ें। FYI करें मैं सीएसवी में एक ही फाइल के साथ एक ही प्रसंस्करण कर रही कोशिश की, लेकिन समय की बचत कम से कम (replace()
पर के बारे में 50 सेकंड)
'from_filenames' और' to_filenames' 'dicts' की 'सूचियां' है? – jezrael
@jezrael तारों की सिर्फ फ्लैट सूचियां नहीं। सेल मूल्य – Neil