पर एनोटेट आउटलाइजर्स संयुक्त रूप से "टिप्स" डेटासेट को ग्राफ़िंग करते हुए, मैं ग्राफ पर शीर्ष 10 आउटलायर (या टॉप-एन आउटलायर) को अपने सूचकांक द्वारा "टिप्स" डेटाफ्रेम से लेबल करना चाहता हूं। मैं आउटलाइजर्स खोजने के लिए अवशिष्ट (औसत रेखा से एक बिंदु की दूरी) की गणना करता हूं। कृपया इस बाहरी पहचान विधि की योग्यताओं को अनदेखा करें। मैं बस spec के अनुसार ग्राफ एनोटेट करना चाहता हूँ।सीबर्न जोनप्लॉट
import seaborn as sns
sns.set(style="darkgrid", color_codes=True)
tips = sns.load_dataset("tips")
model = pd.ols(y=tips.tip, x=tips.total_bill)
tips['resid'] = model.resid
#indices to annotate
tips.sort_values(by=['resid'], ascending=[False]).head(5)
tips.sort_values(by=['resid'], ascending=[False]).tail(5)
%matplotlib inline
g = sns.jointplot("total_bill", "tip", data=tips, kind="reg",
xlim=(0, 60), ylim=(0, 12), color="r", size=7)
मैं प्रत्येक बिंदु के सूचकांक मूल्य से ग्राफ पर शीर्ष 10 बाहरी कारकों के कारण (सबसे बड़ा और सबसे छोटा 5 5 बच) (सबसे बड़ा बच कैसे व्याख्या करते) यह है:
पुनरावृत्ति और पुनरावृत्तियों को 'सिर' और 'पूंछ' को छंटनी करना पुनरावृत्ति की संख्या में कटौती करने का एक अच्छा तरीका था, मेरे वास्तविक डेटासेट जैसे बड़े डेटाफ्रेम के लिए esp। धन्यवाद –
यह वास्तव में अच्छा है। अच्छा काम! – Charlie
मैंने पांडा के नए संस्करणों के समाधान के साथ उत्तर अद्यतन किया। – ImportanceOfBeingErnest