मैं आर में knn का उपयोग करने की कोशिश कर रहा हूं (कई पैकेजों (knnflex
, class
) का उपयोग किया गया है) 8 चर के आधार पर डिफ़ॉल्ट की संभावना की भविष्यवाणी करने के लिए। डेटासेट 8 कॉलम की लगभग 100k लाइनें है, लेकिन मेरी मशीन को 10k लाइनों के नमूने के साथ कठिनाई हो रही है। किसी डेटासेट पर knn करने के लिए कोई सुझाव> 50 लाइनें (यानी iris
)?आर knn बड़े डेटासेट
संपादित करें:
स्पष्ट करने के लिए कुछ मुद्दे हैं।
1) class
और knnflex
संकुल में उदाहरण थोड़ा स्पष्ट नहीं कर रहे हैं और अगर वहाँ कुछ randomForest पैकेज जहां आप इसे आप भविष्यवाणी करने के लिए चाहते हैं चर देने के लिए और डेटा आप के लिए उपयोग करना चाहते हैं के लिए इसी तरह कार्यान्वयन था मैं उत्सुक था
RF <- randomForest(x, y, ntree, type,...)
तो बिलकुल पलट गया और परीक्षण डेटा सेट का उपयोग कर डेटा भविष्यवाणी करने के लिए मॉडल का उपयोग:
pred <- predict(RF, testData)
2) मैं वास्तव में नहीं समझ रहा हूँ क्यों knn
प्रशिक्षण चाहता मॉडल ट्रेन जी और मॉडल बनाने के लिए परीक्षण डेटा। जो मैं बता सकता हूं, पैकेज एक मैट्रिक्स ~ nrows(trainingData)^2
बनाता है जो अनुमानित डेटा के आकार पर ऊपरी सीमा भी प्रतीत होता है। मैंने 5000 पंक्तियों का उपयोग करके एक मॉडल बनाया (ऊपर # मुझे स्मृति आवंटन त्रुटियां मिलीं) और परीक्षण सेट> 5000 पंक्तियों की भविष्यवाणी करने में असमर्थ थी।
एक)) एक तरह से एक प्रशिक्षण में> 5000 लाइनों का उपयोग करने के लिए सेट
या
ख पूर्ण 100k तर्ज पर मॉडल का उपयोग करने के लिए एक रास्ता खोजने लगता है: इस प्रकार मैं या तो की आवश्यकता होगी।
बस सोच रहा है कि आप अंततः प्रशिक्षण सेट आकार के संदर्भ में इसे कितना दूर करने के लिए प्रबंधित करते हैं? – ktdrv
@ktdrv: मेरा मानना है कि मैं पूरा डेटा सेट करने में कामयाब रहा। मैं 2 कारणों से 'देखभाल' पैकेज में knn कार्यान्वयन की सिफारिश करेंगे। सबसे पहले यह 'के' पैरामीटर को ट्यून करने की अनुमति देता है। दूसरा, यह सबसे तेज़ knn मॉडल है जिसका मैंने उपयोग किया है और यह समांतरता के लिए अनुमति देता है (हालांकि मुझे knn सामान के लिए एक विशाल पिकअप नहीं देखा गया था)। यहां उठने और चलाने के लिए स्पष्टीकरण और उदाहरणों का एक अच्छा सेट है: http://www.jstatsoft.org/v28/i05/paper – screechOwl