2014-10-14 2 views
28

जब हम प्रेसिजन और स्मॉल दोनों पर विचार करते हुए एफ-मेजर की गणना करते हैं, तो हम सरल अंकगणितीय माध्य के बजाय दो उपायों का हार्मोनिक माध्य लेते हैं।एफ-मेजर एक हार्मोनिक माध्य क्यों है और परिशुद्धता और याद करने के उपायों के अंकगणित अर्थ नहीं है?

हार्मोनिक माध्य लेने के पीछे सहज ज्ञान क्या है और एक साधारण औसत नहीं है?

+0

अंतर्ज्ञान सटीकता को संतुलित करने और याद करने के लिए है (आमतौर पर सबसे अच्छा माप, लेकिन कुछ मामलों में आप परिशुद्धता या याद करना अधिकतम करना चाहते हैं, जो एक अलग कहानी है)। यदि कोई भी बहुत कम है तो आपको उच्च एफ-स्कोर नहीं मिल सकता है। – greeness

+0

http://www.cse.unsw.edu.au/~teachadmin/info/harmonic3.html यह एचएम –

उत्तर

32

क्योंकि यह अत्यधिक मूल्यों को और अधिक दंडित करता है।

त्रिभुज विधि (उदा। हमेशा कक्षा ए वापस लौटना) पर विचार करें।

Precision: 0.0 
Recall: 1.0 

जब लेने अंकगणित मतलब है, यह 50% सही होगा: कक्षा बी के अनंत डेटा तत्वों, और कक्षा एक से एक भी तत्व हैं। सबसे खराब संभावित परिणाम होने के बावजूद! हरात्मक माध्य के साथ, एफ 1 नाप लेकर 0.

Arithmetic mean: 0.5 
Harmonic mean: 0.0 

दूसरे शब्दों में, एक उच्च एफ 1 के लिए है, तो आप की जरूरत है करने के लिए दोनों एक उच्च परिशुद्धता और याद है।

+0

को समझने के लिए एक अच्छा संसाधन है जब याद है 0.0 सटीकता 0.0 से अधिक होनी चाहिए? लेकिन मुझे आपके उदाहरण में बिंदु मिल गया है। अच्छी तरह से समझाया - धन्यवाद। –

+0

आपके उदाहरण में, कक्षा ए के लिए सटीकता 0 की बजाय 0.5 है और कक्षा ए की याद 1 है; कक्षा बी के लिए सटीकता 0 है और कक्षा बी की याद 0 है जैसा हम करेंगे। मुझे लगता है कि आपकी संतुलित कक्षा का मतलब है कि असली लेबल ए और बी हैं; प्रत्येक डेटा का 50% पर लागू होता है। – greeness

+0

चलिए कक्षा बी के अनंत तत्व बनाते हैं, और कक्षा ए के एक तत्व को बनाते हैं। यह F1 के पीछे गणित को नहीं बदलता है। –

34

व्याख्या करने के लिए, उदाहरण के लिए विचार करें, 30 मील प्रति घंटे और 40 मील प्रति घंटा क्या है? यदि आप प्रत्येक गति पर 1 घंटे के लिए ड्राइव करते हैं, तो 2 घंटों की औसत गति वास्तव में अंकगणित औसत, 35 मील प्रति घंटे है।

हालांकि यदि आप प्रत्येक गति पर एक ही दूरी के लिए ड्राइव करते हैं - 10 मील कहें - तो 20 मील की औसत गति 30 और 40 के हार्मोनिक माध्य है, लगभग 34.3 मील प्रति घंटे।

कारण यह है कि औसत वैध होने के लिए, आपको वास्तव में समान स्केल इकाइयों में होने वाले मानों की आवश्यकता होती है। प्रति घंटा मील की तुलना उसी घंटों की तुलना में की जानी चाहिए; उसी मील की तुलना में तुलना करने के लिए आपको प्रति मील प्रति घंटा औसत की आवश्यकता होती है, जो कि हार्मोनिक माध्य का बिल्कुल सही है।

प्रेसिजन और याद दोनों संख्यात्मक और विभिन्न संप्रदायों में सही सकारात्मक हैं। उन्हें औसत करने के लिए यह वास्तव में केवल अपने पारस्परिक औसत, इस प्रकार हार्मोनिक मतलब औसत करने के लिए समझ में आता है।

+4

धन्यवाद, यह एक अच्छा तर्क है कि यह सिद्धांत से क्यों समर्थित है; मेरा जवाब व्यावहारिक पक्ष पर अधिक था। –

12

हार्मोनिक माध्य अंकगणितीय माध्य द्वारा औसत मात्राओं के पारस्परिक अर्थ के समतुल्य माध्य के बराबर है। अधिक सटीक रूप से, हार्मोनिक माध्य के साथ, आप अपने सभी नंबरों को "औसत" फ़ॉर्म (पारस्परिक रूप से ले कर) में बदल देते हैं, आप अपना अंकगणितीय अर्थ लेते हैं और फिर परिणाम को मूल प्रतिनिधित्व में बदलते हैं (पारस्परिक रूप से फिर से ले कर)।

प्रेसिजन और याद "स्वाभाविक रूप से" पारस्परिक हैं क्योंकि उनके अंकक समान हैं और उनके denominators अलग हैं। जब उनके समान गुणक होते हैं तो अंकगणित औसत द्वारा औसत के लिए फ्रैक्शंस अधिक समझदार होते हैं।

अधिक अंतर्ज्ञान के लिए, मान लीजिए कि हम वास्तविक सकारात्मक वस्तुओं की संख्या निरंतर रखते हैं। फिर परिशुद्धता और याद के हार्मोनिक माध्य को लेकर, आप झूठी सकारात्मक और झूठी नकारात्मकताओं के अंकगणितीय अर्थ को स्पष्ट रूप से लेते हैं। इसका मूल रूप से मतलब है कि वास्तविक सकारात्मक और झूठे नकारात्मक आपके लिए समान रूप से महत्वपूर्ण होते हैं जब वास्तविक सकारात्मक समान रहते हैं। यदि एक एल्गोरिदम में एन अधिक झूठी सकारात्मक वस्तुएं होती हैं लेकिन एन कम झूठी नकारात्मक (समान सत्य सकारात्मक होने पर), एफ-उपाय वही रहता है।

दूसरे शब्दों में, एफ उपाय उपयुक्त है जब:

  1. गलतियों समान रूप से बुरा कर रहे हैं, चाहे वे झूठे सकारात्मक या मिथ्या नकारात्मक
  2. हैं गलतियों की संख्या सच की संख्या के सापेक्ष मापा जाता है सकारात्मक
  3. सच नकारात्मक अरुचिकर हैं

प्वाइंट 1 या सच नहीं हो सकता है, वहाँ एफ उपाय के वेरिएंट कि इस्तेमाल किया जा सकता आकलन किया जाता है हो सकता है यदि इस धारणा है सच नहीं है प्वाइंट 2 काफी स्वाभाविक है क्योंकि हम परिणामों को स्केल करने की उम्मीद कर सकते हैं अगर हम अधिक से अधिक अंक वर्गीकृत करते हैं। सापेक्ष संख्याएं वही रहनी चाहिए।

प्वाइंट 3 काफी रोचक है। कई अनुप्रयोगों में नकारात्मक प्राकृतिक डिफॉल्ट होते हैं और यह निर्दिष्ट करने के लिए कठिन या मनमाना भी हो सकता है कि वास्तव में वास्तविक नकारात्मक के रूप में क्या मायने रखता है। उदाहरण के लिए एक अग्नि अलार्म हर सेकेंड, हर नैनोसेकंद, हर बार एक प्लैंक समय बीत चुका है आदि। एक चट्टान का एक टुकड़ा हर समय इन वास्तविक नकारात्मक अग्नि-पहचान घटनाओं में होता है।

या चेहरे का पता लगाने के मामले में, अधिकांश समय में आप सही ढंग से "छवि में अरबों संभावित क्षेत्रों को वापस नहीं करते हैं लेकिन यह दिलचस्प नहीं है। दिलचस्प मामले तब होते हैं जब आप एक प्रस्तावित पहचान वापस करते हैं या जब आप इसे वापस कर देते हैं।

इसके विपरीत वर्गीकरण सटीकता वास्तविक सकारात्मक और वास्तविक नकारात्मक के बारे में समान रूप से परवाह करती है और नमूने (वर्गीकरण घटनाओं) की कुल संख्या अच्छी तरह से परिभाषित और अपेक्षाकृत अधिक उपयुक्त है।

+0

बहुत अच्छी तरह से समझाया! –

संबंधित मुद्दे