टेक्स्ट सारांशकरण मूल्यांकन - बीएलईयू बनाम रूज

दो अलग सारांश प्रणालियों (sys1 और sys2) और समान संदर्भ सारांश के परिणामों के साथ, मैंने उन्हें BLEU और ROUGE दोनों के साथ मूल्यांकन किया। समस्या यह है कि सभी नियमों का स्कोर sys2 (ROUGE-1, ROUGE-2, ROUGE-3, ROUGE-4, ROUGE-L, ROUGE-SU4, ...) से अधिक था, लेकिन sys1 का BLEU स्कोर कम था sys2 के बीएलईयू स्कोर (काफी ज्यादा) से।टेक्स्ट सारांशकरण मूल्यांकन - बीएलईयू बनाम रूज

तो मेरा सवाल यह है कि: रूज और बीएलईयू दोनों सिस्टम के सारांश और मानव के सारांश के बीच समान मापने के लिए एन-ग्राम पर आधारित हैं। तो ऐसे मूल्यांकन के परिणामों में मतभेद क्यों हैं? और इस मुद्दे को समझाने के लिए रूज बनाम बीएलईयू का मुख्य अंतर क्या है?

कोई सलाह और सुझावों की बहुत सराहना की जाएगी! धन्यवाद!

स्रोत

2016-06-27 Chelsea_cole

सामान्य में:

Bleu परिशुद्धता उपायों: कितना शब्द (और/या एन-ग्राम) मशीन उत्पन्न सारांश में मानव संदर्भ के सारांश में दिखाई दिया।

रूज उपायों याद: कितना शब्द (और/या एन-ग्राम) मानव संदर्भ के सारांश में मशीन उत्पन्न सारांश में दिखाई दिया।

स्वाभाविक रूप से - ये परिणाम पूरक हैं, जैसा अक्सर सटीक बनाम याद में होता है। यदि आपके पास मानव संदर्भों में दिखाई देने वाले सिस्टम परिणामों से कई शब्द हैं तो आपके पास उच्च ब्लू होगा, और यदि आपके पास सिस्टम परिणामों में दिखाई देने वाले मानव संदर्भों से कई शब्द हैं तो आपके पास उच्च रूज होगा।

आपके मामले में ऐसा लगता है कि sys1 में sys2 की तुलना में अधिक रूज है क्योंकि sys1 में परिणामों में मानव संदर्भ से लगातार अधिक शब्द sys2 के परिणामों की तुलना में दिखाई देते हैं। हालांकि, चूंकि आपके ब्ली स्कोर ने दिखाया है कि sys1 को sys2 की तुलना में कम याद है, यह सुझाव देगा कि sys2 के संबंध में आपके sys1 परिणामों के इतने सारे शब्द मानव संदर्भ में प्रकट नहीं हुए हैं।

यह उदाहरण के लिए हो सकता है यदि आपका sys1 परिणामों को आउटपुट कर रहा है जिसमें संदर्भों (रूज को ऊपर उठाना) से शब्द शामिल हैं, लेकिन कई शब्द जिनमें संदर्भ शामिल नहीं हैं (ब्लू को कम करना)। जैसा कि लगता है, sys2, परिणाम दे रहा है जिसके लिए अधिकांश शब्द मानव संदर्भ (ब्लू को ऊपर उठाना) में प्रकट होते हैं, लेकिन इसके परिणामों से कई शब्द भी गायब होते हैं जो मानव संदर्भों में दिखाई देते हैं।

बीटीडब्लू, ब्रेवटी पेनल्टी नामक कुछ है, जो काफी महत्वपूर्ण है और मानक ब्लू कार्यान्वयन में पहले से ही जोड़ा जा चुका है। यह सिस्टम परिणामों को दंडित करता है जो संदर्भ की सामान्य लंबाई की तुलना में कम हैं (इसके बारे में here के बारे में और पढ़ें)। यह एन-ग्राम मीट्रिक व्यवहार को पूरा करता है जो प्रभावी रूप से संदर्भ परिणामों से अधिक दंडित करता है, क्योंकि denominator लंबे समय तक सिस्टम परिणाम होता है।

तुम भी रूज के लिए कुछ इसी तरह लागू कर सकता है, लेकिन इस बार प्रणाली परिणाम जो कर रहे हैं अब सामान्य संदर्भ लंबाई, जो अन्यथा कृत्रिम रूप से उच्च रूज स्कोर (परिणाम प्राप्त करने के लिए लंबे समय तक के बाद से उन्हें सक्षम होगा की तुलना में को दंडित, उच्च मौका आप संदर्भ में कुछ शब्द दिखाई देंगे)। रूज में हम मानव संदर्भों की लंबाई से विभाजित होते हैं, इसलिए हमें लंबे सिस्टम परिणामों के लिए अतिरिक्त दंड की आवश्यकता होगी जो कृत्रिम रूप से अपने रूज स्कोर को बढ़ा सकता है।

अंत में, आप मीट्रिक पर एक साथ काम करने के लिए एफ 1 उपाय इस्तेमाल कर सकते हैं: एफ 1 = 2 * (ब्लू * रूज)/(ब्लू + रूज)

स्रोत

2016-08-28 10:35:06

आपने दो प्रश्नों का सही उत्तर पोस्ट किया है। यदि आपको लगता है कि उनमें से एक दूसरे का डुप्लिकेट है, तो आपको उन्हें इस तरह चिह्नित करना चाहिए (और दो बार एक ही जवाब पोस्ट नहीं करना चाहिए)। – Jaap

उत्तर बिल्कुल वही नहीं हैं, और प्रश्न बिल्कुल समान नहीं हैं .. यह सही है कि उत्तरों में से एक दूसरे में शामिल है, लेकिन मैं दो प्रश्नों को अभिसरण करने का स्पष्ट तरीका नहीं देख सकता हूं। –

* 'अन्य' * उत्तर को डुप्लिकेट आईएमओ के रूप में चिह्नित किया जाना चाहिए। – Jaap

दोनों रूज और BLEU पर आधारित होते हैं एन-ग्राम सिस्टम के सारांश और मानव के सारांश के बीच समान मापने के लिए। तो ऐसे मूल्यांकन के परिणामों में मतभेद क्यों हैं? और इस मुद्दे को समझाने के लिए रूज बनाम बीएलईयू का मुख्य अंतर क्या है?

रूज-एन परिशुद्धता और रूज-एन सटीक याद दोनों मौजूद हैं। रूज {3} पेश किए गए पेपर से मूल रूज कार्यान्वयन दोनों के साथ-साथ परिणामी एफ 1-स्कोर की गणना करता है।

से http://text-analytics101.rxnlp.com/2017/01/how-rouge-works-for-evaluation-of.html (mirror):

ROUGE वापस करना:

ROUGE परिशुद्धता:

(मूल ROUGE कागज कि ROUGE {शुरू की से कार्यान्वयन 1} कुछ मो प्रदर्शन कर सकते हैं चीजें जैसे स्टेमिंग।)

बीएलईयू के विपरीत, ROUGE-n परिशुद्धता और याद करना आसान है (Interpreting ROUGE scores देखें)।

रूज-एन परिशुद्धता और बीएलईयू के बीच का अंतर यह है कि बीएलईयू एक शराब की सजा अवधि का परिचय देता है, और एन-ग्राम के कई आकारों के लिए एन-ग्राम मैच की गणना भी करता है (ROUGE-n के विपरीत, जहां केवल एक है चयनित एन-ग्राम आकार)। स्टैक ओवरफ़्लो लाटेक्स का समर्थन नहीं करता है इसलिए मैं BLEU के विरुद्ध तुलना करने के लिए और सूत्रों में नहीं जाऊंगा। {2} स्पष्ट रूप से बीएलईयू बताता है।

संदर्भ:

{1} लिन, चिन-यू। "रूज: सारांश के स्वचालित मूल्यांकन के लिए एक पैकेज।" टेक्स्ट संक्षेप में शाखाएं बाहर: एसीएल -4 कार्यशाला की कार्यवाही, वॉल्यूम। 8. 2004. https://scholar.google.com/scholar?cluster=2397172516759442154&hl=en&as_sdt=0,5; http://anthology.aclweb.org/W/W04/W04-1013.pdf
{2} कैलिसन-बर्च, क्रिस, माइल्स ओसबोर्न और फिलिप कोहेन। "मशीन अनुवाद अनुसंधान में ब्ली की भूमिका का पुनर्मूल्यांकन।" ईएसीएल में, वॉल्यूम। 6, पीपी 24 9-256। 2006. https://scholar.google.com/scholar?cluster=8900239586727494087&hl=en&as_sdt=0,5;

स्रोत

2017-11-07 02:01:33

टेक्स्ट सारांशकरण मूल्यांकन - बीएलईयू बनाम रूज

उत्तर

संबंधित मुद्दे