मेरे डेटा प्रोसेसिंग में एक सामान्य पैटर्न कॉलम के कुछ सेट द्वारा समूह करना है, एक फ़िल्टर लागू करना है, फिर फिर से फ़्लैट करें। उदाहरण के लिए:अपाचे पिग: स्ट्रिप नेमस्पेस उपसर्ग (: :) समूह ऑपरेशन के बाद
my_data_grouped = group my_data by some_column;
my_data_grouped = filter my_data_grouped by <some expression>;
my_data = foreach my_data_grouped flatten(my_data);
समस्या यहाँ यह है कि अगर की तरह एक स्कीमा के साथ my_data
शुरू होता है (C1, C2, C3) इस ऑपरेशन के बाद यह (MyData :: सी 1, MyData :: c2, MyData की तरह एक स्कीमा होगा :: C3)। यदि स्तंभ अद्वितीय हैं तो "mydata ::" उपसर्ग को आसानी से बंद करने का कोई तरीका है?
मैं जानता हूँ कि मैं कुछ इस तरह कर सकते हैं:
my_data = foreach my_data generate c1 as c1, c2 as c2, c3 as c3;
हालांकि कि अजीब और स्तंभों के बहुत सारे के साथ डेटा सेट के लिए बनाए रखने के लिए कठिन हो जाता है और चर कॉलम के साथ डेटा सेट के लिए असंभव है।
इस यूडीएफ का उपयोग कैसे करें? अग्रिम में धन्यवाद। –