मैं पांडों के साथ एक काफी बड़ी सीएसवी फ़ाइल पढ़ने की कोशिश कर रहा हूं और इसे दो यादृच्छिक हिस्सों में विभाजित कर रहा हूं, जिनमें से एक डेटा का 10% और दूसरा 90% है।पांडा: डेटाफ्रेम का नमूनाकरण
rows = data.index
row_count = len(rows)
random.shuffle(list(rows))
data.reindex(rows)
training_data = data[row_count // 10:]
testing_data = data[:row_count // 10]
किसी कारण से, sklearn
इस त्रुटि फेंकता है जब मैं एक SVM वर्गीकारक के अंदर इन जिसके परिणामस्वरूप DataFrame वस्तुओं में से एक का उपयोग करने का प्रयास करें:
IndexError: each subindex must be either a slice, an integer, Ellipsis, or newaxis
मुझे लगता है कि
यहाँ मेरे वर्तमान प्रयास है मैं यह गलत कर रहा हूँ। क्या ऐसा करने के लिए इससे अच्छा तरीका है?
संयोग से, इस बेतरतीब ढंग से सही ढंग से वैसे भी शफ़ल नहीं होता - समस्या 'random.shuffle (सूची (पंक्तियाँ))' है । 'shuffle' उस डेटा को बदलता है जिस पर यह चल रहा है, लेकिन जब आप' सूची (पंक्तियां) 'कहते हैं, तो आप' पंक्तियों 'की एक प्रति बनाते हैं जो बदल जाती है और फिर फेंक दी जाती है - अंतर्निहित पांडा श्रृंखला,' पंक्तियां 'अपरिवर्तित होती है। एक समाधान 'पंक्तियों = सूची (पंक्तियों)', फिर 'random.shuffle (पंक्तियां) 'और' data.reindex (पंक्तियां)' को कॉल करना है। –