के माध्यम से आगे बढ़ना और विश्लेषिकी प्रसंस्करण के लिए वेक्टर मैट्रिक्स बनाने के लिए स्पार्क डेटाफ्रेम से शुरू करना।स्पार्क आरडीडी
feature_matrix_vectors = feature_matrix1.map(lambda x: Vectors.dense(x)).cache()
feature_matrix_vectors.first()
आउटपुट वैक्टरों की एक सरणी है। उन वेक्टर से कुछ नहीं तो एक 1.
साथ, उन में एक अशक्त>>> DenseVector([1.0, 31.0, 5.0, 1935.0, 24.0])
...
>>> DenseVector([1.0, 1231.0, 15.0, 2008.0, null])
इस मैं वेक्टर मैट्रिक्स के माध्यम से पुनरावृति और 0 (शून्य) वेक्टर एक अशक्त है या नहीं के साथ एक LabeledPoint सरणी बनाना चाहते हैं से है
def f(row):
if row.contain(None):
LabeledPoint(1.0,row)
else:
LabeledPoint(0.0,row)
मैं
feature_matrix_labeledPoint = (f(row) for row in feature_matrix_vectors) # create a generator of row sums
next(feature_matrix_labeledPoint) # Run the iteration protocol
प्रयोग करके वेक्टर मैट्रिक्स के माध्यम से पुनरावृति करने की कोशिश की है, लेकिन यह काम नहीं करता।
TypeError: 'PipelinedRDD' object is not iterable
किसी भी मदद की बहुत अच्छा होगा
यह तो जवाब यह विवरण होता है http://stackoverflow.com/a/25296061/429476 –