2016-02-04 5 views
8

मैंने डायनेमोडीबी तालिका में आइटम लिखने के लिए एक प्रोग्राम लिखा है। अब मैं PySpark का उपयोग कर डायनेमो डीबी तालिका से सभी आइटम पढ़ना चाहता हूं। क्या स्पार्क में ऐसा करने के लिए कोई पुस्तकालय उपलब्ध है?पाइथन का उपयोग कर एक टेबल से सभी वस्तुओं को लोड करने के लिए स्पार्क प्रोग्राम से डायनामो डीबी कनेक्ट करना?

+0

हम आप ऐसा करने में सक्षम हैं? – rabz100

+0

नहीं, मैंने अभी तक स्पार्क के बिना बोटो दस्तावेज प्रदान किए हैं। –

+1

मैं इस कोड को ट्विक करने का प्रयास करूंगा - https://github.com/bchew/dynamodump –

उत्तर

1

आप parallel scans उपलब्ध का उपयोग कर सकते boto3 के माध्यम से DynamoDB API का हिस्सा है और समानांतर S3 फ़ाइल संसाधन अनुप्रयोग PySpark के लिए लिखा की तरह एक योजना के रूप में वर्णित here। असल में, सभी कुंजी ए-प्रीडी पढ़ने की बजाय, केवल map_func स्पार्क के लिए फ़ंक्शन में स्कैन के लिए सेगमेंट संख्याओं और हार्ड कोड की एक श्रृंखला बनाएं।

संबंधित मुद्दे

 संबंधित मुद्दे