2017-10-29 28 views
6

स्पार्क से ओआरसी अनुक्रमण को सक्षम करने का विकल्प क्या है?मैं स्पार्क ओआरसी इंडेक्स का उपयोग कैसे करूं?

  df 
      .write() 
      .option("mode", "DROPMALFORMED") 
      .option("compression", "snappy") 
      .mode("overwrite") 
      .format("orc") 
      .option("index", "user_id") 
      .save(...); 

मैं .option("index", uid) बना रही हूँ, मैं Orc से सूचकांक कॉलम "user_id" करने के लिए वहाँ डाल करने के लिए क्या करना होगा।

उत्तर

2

क्या आपने कोशिश की है: .partitionBy("user_id")?

df 
     .write() 
     .option("mode", "DROPMALFORMED") 
     .option("compression", "snappy") 
     .mode("overwrite") 
     .format("orc") 
     .partitionBy("user_id") 
     .save(...) 
+0

मुझे लगता है कि विभाजन एक सूचकांक बनाने के बजाय प्रति उपयोगकर्ता एक नई फाइल तैयार करेगा। लेकिन आप केवल एक ही हैं जो उत्तर दिया है इसलिए मैं आपको बक्षीस देता हूं। – ForeverConfused

+0

@ForeverConfused मैं इस पर शोध कर रहा हूं। आपको जल्द ही बताएगा। – Achyuth

+0

@Achyuth, क्या आपको ORC फ़ाइल में अनुक्रमणिका बनाने के लिए कोई दृष्टिकोण मिला है? मुझे आज तक कुछ नहीं मिला। ऐसा लगता है कि ओआरसी फ़ाइल में इंडेक्स का लाभ उठाने का एकमात्र तरीका हाइव का उपयोग कर रहा है। अगर यह गलत है तो कृपया मुझे सही करें। धन्यवाद! –

संबंधित मुद्दे