मेरे पास एक बड़ा डेटासेट (सी। 40 जी) है जो मैं प्रयोगशाला में कुछ कंप्यूटरों पर कुछ एनएलपी (काफी हद तक शर्मनाक समानांतर) के लिए उपयोग करना चाहता हूं, जिसके लिए मैं नहीं में रूट पहुंच है, और उपयोगकर्ता का केवल 1 जी है अंतरिक्ष। मैंने हडूप के साथ प्रयोग किया, लेकिन निश्चित रूप से यह पानी में मृत था - डेटा बाहरी यूएसबी हार्ड ड्राइव पर संग्रहीत है, और मैं इसे 1 जी उपयोगकर्ता स्पेस कैप की वजह से डीएफएस पर लोड नहीं कर सकता। मैं अजगर आधारित विकल्प के एक जोड़े में देख किया गया है (के रूप में मैं नहीं बल्कि जावा के lingpipe के बजाय NLTK का उपयोग करता है, तो मैं इसे मदद कर सकते हैं), और ऐसा लगता वितरित गणना विकल्प की तरह लग रहे:जावा या पायथन ने कम्प्यूट जॉब वितरित किया (छात्र बजट पर)?
- IPython
- डिस्को
मेरे हैडूप अनुभव के बाद, मैं यह सुनिश्चित करने की कोशिश कर रहा हूं कि मैं कोशिश करता हूं और एक सूचित विकल्प देता हूं - जो भी अधिक उचित हो सकता है उस पर कोई भी सहायता की सराहना की जाएगी।
अमेज़ॅन की ईसी 2 आदि वास्तव में एक विकल्प नहीं है, क्योंकि मेरे पास कोई बजट नहीं है।
क्या आपने उस व्यक्ति से बात की है जिसकी मूल ज़िम्मेदारी है? – Carl