मैं बहुत सारे सांख्यिकीय काम करता हूं और पाइथन का उपयोग अपनी मुख्य भाषा के रूप में करता हूं। कुछ डेटा सेट जो मैं काम करता हूं, हालांकि 20 जीबी मेमोरी ले सकता है, जो इन-मेमोरी फ़ंक्शंस का उपयोग करके निष्क्रिय, स्पीसी और पीआईआईएमएसएल में लगभग असंभव है। सांख्यिकीय विश्लेषण भाषा एसएएस का यहां एक बड़ा फायदा है कि यह सख्त डिस्क-मेमोरी प्रोसेसिंग के विपरीत हार्ड डिस्क से डेटा पर काम कर सकता है। लेकिन, मैं एसएएस (कई कारणों से) में बहुत सारे कोड लिखने से बचना चाहता हूं और इसलिए यह निर्धारित करने की कोशिश कर रहा हूं कि मेरे पास पाइथन के साथ कौन से विकल्प हैं (अधिक हार्डवेयर और मेमोरी खरीदने के अलावा)।पायथन में बड़े डेटा पर विश्लेषणात्मक काम करने के लिए h5py का उपयोग करने का अनुभव?
मैं स्पष्ट करना चाहिए कि ऐसा दृष्टिकोण नक्शा को कम मेरे काम के अधिकांश हिस्सों में मदद नहीं करेगा, क्योंकि मैं डेटा की पूरा सेट (जैसे quantiles कंप्यूटिंग या एक रसद प्रतिगमन मॉडल फिटिंग) पर संचालित करने की जरूरत है।
हाल ही में मैं h5py साथ खेलना शुरू कर दिया और लगता है कि यह सबसे अच्छा विकल्प मैं अजगर एसएएस की तरह काम करते हैं और डिस्क से (HDF5 फ़ाइलों के माध्यम से) डेटा पर संचालित करने के लिए, जबकि अभी भी लाभ उठाने के लिए सक्षम किया जा रहा अनुमति देने के लिए numpy/scipy/matplotlib पाया है है , आदि। मैं सुनना चाहूंगा कि किसी को भी इसी तरह की सेटिंग में पाइथन और एच 5py का उपयोग करने का अनुभव है और उन्हें क्या मिला है। क्या कोई भी एसएएस द्वारा प्रभुत्व वाले "बड़े डेटा" सेटिंग्स में पाइथन का उपयोग करने में सक्षम है?
संपादित करें: अधिक हार्डवेयर/मेमोरी ख़रीदना निश्चित रूप से मदद कर सकता है, लेकिन आईटी परिप्रेक्ष्य से मेरे लिए पाइथन को ऐसे संगठन में बेचना मुश्किल है, जिसमें पाइथन (या आर, या MATLAB आदि) को भारी डेटा सेट का विश्लेषण करने की आवश्यकता होती है स्मृति में डेटा पकड़ो। एसएएस के पास यहां एक मजबूत बिक्री बिंदु है क्योंकि डिस्क-आधारित एनालिटिक्स धीमा हो सकता है, आप आत्मविश्वास से बड़े डेटा सेट से निपट सकते हैं। इसलिए, मुझे उम्मीद है कि स्टैक ओवरफ्लो -र्स मुझे यह समझने में मदद कर सकते हैं कि पाइथन का उपयोग मुख्यधारा के बड़े डेटा एनालिटिक्स भाषा के रूप में कथित जोखिम को कम करने के तरीके को कैसे कम किया जाए।
यह वास्तव में एक प्रोग्रामिंग प्रश्न नहीं है, एक ऑनलाइन डेटिंग प्रश्न के अधिक। स्पष्ट रूप से एच 5 और पायथन का उपयोग करने वाले बहुत से लोग हैं क्योंकि एच 5py टीम कई सालों से विकास कर रही है। अनुलेख विज्ञान में पायथन का उपयोग छलांग और सीमाओं से बढ़ रहा है। –
क्या पुस्तकालय विकास में रहा है, वास्तव में उस सेटिंग में इसका उपयोग करने का संकेतक है जिसके बारे में मैं पूछ रहा हूं? स्पष्ट होने के लिए, मैं पहले से ही एक पाइथन प्रशंसक हूं और व्यवसायिक विश्लेषण में अपने काम के लिए और साथ ही साथ एक प्रमुख विश्वविद्यालय में वायु प्रदूषण मॉडलिंग के लिए इसका उपयोग करता हूं। मैं एक विशिष्ट उपयोग मामले के बारे में पूछ रहा हूं: ऐसी भाषा का उपयोग करना जो मेमोरी प्रोसेसिंग को विशाल डेटा सेट पर काम करने के लिए करता है, मैप-कम करने के लिए उपयुक्त नहीं है, और परंपरागत रूप से दशकों से एसएएस द्वारा निपटाया जाता है। –
कोई मजाक नहीं है, लेकिन क्या आपने हार्डवेयर को पर्याप्त स्मृति के साथ उपयोग करने के लिए माना है? – eat