में एक सांख्यिकीय मॉडल का मूल्यांकन करना मेरे पास एक बहुत बड़ा डेटा सेट है (ds
)। इसके कॉलम में से एक Popularity
है, factor
('हाई'/'लो') टाइप करें।आर
प्रशिक्षण सेट (ds_tr
) और एक परीक्षण सेट (ds_te
) बनाने के लिए मैंने डेटा को 70% और 30% तक विभाजित किया।
mdl <- glm(formula = popularity ~ . -url , family= "binomial", data = ds_tr)
तो मैं एक predict
वस्तु बनाया (ds_te
के लिए इसे फिर से करना होगा)
y_hat = predict(mdl, data = ds_tr - url , type = 'response')
मैं सटीक मूल्य लगाना चाहते हैं:
मैं निम्नलिखित मॉडल एक रसद प्रतिगमन उपयोग कर बनाई गई है जो 0.5 के कटऑफ थ्रेसहोल्ड से मेल खाता है और 0.5 का कटऑफ थ्रेसहोल्ड से मेल खाता है, इसलिए मैंने किया:
library(ROCR)
pred <- prediction(y_hat, ds_tr$popularity)
perf <- performance(pred, "prec", "rec")
परिणाम कई मूल्यों
str(perf)
Formal class 'performance' [package "ROCR"] with 6 slots
[email protected] x.name : chr "Recall"
[email protected] y.name : chr "Precision"
[email protected] alpha.name : chr "Cutoff"
[email protected] x.values :List of 1
.. ..$ : num [1:27779] 0.00 7.71e-05 7.71e-05 1.54e-04 2.31e-04 ...
[email protected] y.values :List of 1
.. ..$ : num [1:27779] NaN 1 0.5 0.667 0.75 ...
[email protected] alpha.values:List of 1
.. ..$ : num [1:27779] Inf 0.97 0.895 0.89 0.887 ...
मैं 0.5 के एक कटऑफ सीमा के लिए इसी विशिष्ट परिशुद्धता और याद मूल्यों कैसे प्राप्त कर सकता की एक तालिका है?
स्पष्टीकरण में सुधार है और अनुरोध किया मूल्य प्राप्त करने के लिए तरीके की व्याख्या। – PereG