2010-05-16 4 views
5

मेरे पास एक बड़ा डेटासेट (सी। 40 जी) है जो मैं प्रयोगशाला में कुछ कंप्यूटरों पर कुछ एनएलपी (काफी हद तक शर्मनाक समानांतर) के लिए उपयोग करना चाहता हूं, जिसके लिए मैं नहीं में रूट पहुंच है, और उपयोगकर्ता का केवल 1 जी है अंतरिक्ष। मैंने हडूप के साथ प्रयोग किया, लेकिन निश्चित रूप से यह पानी में मृत था - डेटा बाहरी यूएसबी हार्ड ड्राइव पर संग्रहीत है, और मैं इसे 1 जी उपयोगकर्ता स्पेस कैप की वजह से डीएफएस पर लोड नहीं कर सकता। मैं अजगर आधारित विकल्प के एक जोड़े में देख किया गया है (के रूप में मैं नहीं बल्कि जावा के lingpipe के बजाय NLTK का उपयोग करता है, तो मैं इसे मदद कर सकते हैं), और ऐसा लगता वितरित गणना विकल्प की तरह लग रहे:जावा या पायथन ने कम्प्यूट जॉब वितरित किया (छात्र बजट पर)?

  • IPython
  • डिस्को

मेरे हैडूप अनुभव के बाद, मैं यह सुनिश्चित करने की कोशिश कर रहा हूं कि मैं कोशिश करता हूं और एक सूचित विकल्प देता हूं - जो भी अधिक उचित हो सकता है उस पर कोई भी सहायता की सराहना की जाएगी।

अमेज़ॅन की ईसी 2 आदि वास्तव में एक विकल्प नहीं है, क्योंकि मेरे पास कोई बजट नहीं है।

+7

क्या आपने उस व्यक्ति से बात की है जिसकी मूल ज़िम्मेदारी है? – Carl

उत्तर

1

कोई वास्तविक उत्तर नहीं; मैंने इसे एक टिप्पणी के रूप में रखा होगा लेकिन इस साइट पर आपको केवल जवाब देने के लिए मजबूर होना पड़ता है यदि आप अभी भी नोब

हैं, तो यह वास्तव में समानांतर है, और यह केवल कुछ कंप्यूटर है, क्या आप नहीं कर सकते डेटासेट को समय से पहले मैन्युअल रूप से विभाजित करें?

क्या आपने पुष्टि की है कि फ़ायरवॉल नहीं होने वाला है या ऐसा कुछ भी आपको इस तरह से रोक रहा है?

आपके पास केवल 1 जीबी उपयोगकर्ता स्पेस हो सकती है, लेकिन, यदि लिनक्स, तो/tmp के बारे में क्या है? (यदि खिड़कियां,% temp% के बारे में क्या?)

3

अपने स्कूल में आईटी विभाग के साथ बात करें (विशेष रूप से यदि आप कॉलेज में हैं), यदि यह एक असाइनमेंट या शोध के लिए है तो मुझे शर्त है कि वे देने से खुश होंगे आप अधिक डिस्क स्थान।

1

निश्चित रूप से अपने स्कूल में आईटी विभाग से बात करें। कंप्यूटर संसाधनों का उपयोग करना एक अच्छा विचार नहीं है जो आपके नहीं हैं।

मुझे JPPF मिला, जो किसी भी कंप्यूटर पर बड़ी प्रसंस्करण शक्ति आवश्यकताओं को चलाने के लिए सक्षम बनाता है। मुझे यकीन नहीं है कि आपको क्लाइंट मशीनों पर सॉफ़्टवेयर इंस्टॉल करने की आवश्यकता है, लेकिन कुछ बंदरगाहों को क्लाइंट मशीनों पर खोलने की आवश्यकता है।

0

यदि आपके कंप्यूटिंग विभाग में अधिक संसाधन नहीं हैं, तो आपको कोई भी काम करने से पहले अपने डेटा सेट को प्रबंधित करने योग्य हिस्सों में तोड़ने पर विचार करना होगा, विज्ञापन को सार्थक सेट में कम कर दें।

आईटी से अधिक संसाधन जाने का रास्ता होगा।

शुभकामनाएं!

बेन

संबंधित मुद्दे