2008-11-13 10 views
20

क्या किसी को एल्गोरिदम का पता है जिसे मैं किसी वीडियो के लिए "दिलचस्प" प्रतिनिधि थंबनेल खोजने के लिए उपयोग कर सकता हूं?वीडियो में एक दिलचस्प फ्रेम ढूंढना

मैंने 30 बिटमैप कहा है और मैं वीडियो थंबनेल के रूप में सबसे अधिक प्रतिनिधि चुनना चाहता हूं।

स्पष्ट पहला कदम सभी काले फ्रेम को खत्म कर देगा। फिर शायद विभिन्न फ्रेम के बीच "दूरी" की तलाश करें और औसत के करीब कुछ चुनें।

यहां कोई भी विचार या प्रकाशित कागजात जो मदद कर सकते हैं?

+1

आपको आरंभिक 30 बिटमैप्स कैसे प्राप्त हुए; क्या वे यादृच्छिक या हस्तनिर्मित हैं? – Unreason

उत्तर

19

यदि वीडियो में संरचना है, यानी कई शॉट्स हैं, तो वीडियो सारांश के लिए मानक तकनीकों में शामिल हैं (ए) शॉट डिटेक्शन, फिर (बी) प्रत्येक शॉट का प्रतिनिधित्व करने के लिए पहले, मध्य या एनएच फ्रेम का उपयोग करें। देखें [1]।

हालांकि, मान लीजिए कि आप एक कैमरा स्रोत से ली गई फ्रेमों की एक सतत स्ट्रीम में एक दिलचस्प फ्रेम खोजना चाहते हैं। अर्थात। एक दृश्य। यह "मुख्य फ्रेम पहचान" समस्या है जिसे आईआर/सीवी (सूचना पुनर्प्राप्ति, कंप्यूटर विजन) ग्रंथों में व्यापक रूप से चर्चा की जाती है। कुछ चित्रकारी दृष्टिकोण:

  • [2] एक फ्रेम रंग हिस्टोग्राम की गणना सभी फ्रेमों के लिए की जाती है और कुंजी-फ्रेम निकटतम हिस्टोग्राम के साथ होता है। अर्थात। हम इसके रंग वितरण के मामले में सबसे अच्छा फ्रेम चुनते हैं।
  • [3] में हम मानते हैं कि कैमरा स्थिरता फ्रेम महत्व का संकेतक है। जैसा कि उपरोक्त बिस्तरों द्वारा सुझाया गया है। हम ऑप्टिक-प्रवाह का उपयोग करके अभी भी फ्रेम चुनते हैं और इसका उपयोग करते हैं।
  • [4] प्रत्येक फ्रेम को कुछ उच्च आयामी सामग्री स्थान में पेश किया जाता है, हम उन फ्रेमों को अंतरिक्ष के कोनों पर पाते हैं और वीडियो का प्रतिनिधित्व करने के लिए उनका उपयोग करते हैं।
  • [5] फ्रेम में सामग्री की जगह में उनकी लंबाई और नवीनता का उपयोग करके महत्व के लिए मूल्यांकन किया जाता है।

सामान्यतः, यह एक बड़ा क्षेत्र है और बहुत सारे दृष्टिकोण हैं। आप नवीनतम विचारों के लिए छवि और वीडियो पुनर्प्राप्ति (सीआईवीआर) पर अंतर्राष्ट्रीय सम्मेलन जैसे अकादमिक सम्मेलनों को देख सकते हैं। मुझे लगता है कि [6] वीडियो अबास्ट्रक्शन (कुंजी-फ्रेम पहचान और संक्षेपण) का एक उपयोगी विस्तृत सारांश प्रस्तुत करता है।

आपके "30 बिटमैप्स का सर्वश्रेष्ठ खोज" समस्या के लिए मैं [2] जैसे दृष्टिकोण का उपयोग करूंगा। एक फ्रेम प्रतिनिधित्व स्थान की गणना करें (उदाहरण के लिए फ्रेम के लिए रंग हिस्टोग्राम), सभी फ्रेम का प्रतिनिधित्व करने के लिए एक हिस्टोग्राम की गणना करें, और दोनों के बीच न्यूनतम दूरी के साथ फ्रेम का उपयोग करें (उदाहरण के लिए एक दूरी मीट्रिक चुनें जो आपके स्थान के लिए सबसे अच्छा है। मैं पृथ्वी की कोशिश करूंगा प्रेमी की दूरी)।

  1. एमएस ल्यू। दृश्य सूचना पुनर्प्राप्ति के सिद्धांत। स्प्रिंगर वेरलाग, 2001।
  2. बी गनसेल, वाई फू, और एएम। Tekalp। पदानुक्रमित अस्थायी वीडियो विभाजन और सामग्री विशेषता। मल्टीमीडिया स्टोरेज एंड आर्काइविंग सिस्टम्स II, एसपीआईई, 3229: 46-55, 1 99 7।
  3. डब्ल्यू वुल्फ। गति विश्लेषण द्वारा कुंजी फ्रेम चयन। ध्वनिक, भाषण, और सिग्नल प्रोसेसिंग पर आईईईई अंतर्राष्ट्रीय सम्मेलन में, पृष्ठ 1228-1231, 1 99 6।
  4. एल झाओ, डब्ल्यू क्यूई, एसजेड। ली, एसक्यू यांग, और एच जे झांग। निकटतम फ़ीचर लाइन का उपयोग करके कुंजी-फ्रेम निष्कर्षण और शॉट पुनर्प्राप्ति। आईडब्ल्यू-एमआईआर, एसीएम एमएम, पेज 217-220, 2000.
  5. एस उचिहाशी। वीडियो मंगा: अर्थात् अर्थपूर्ण वीडियो सारांश उत्पन्न करना। प्रो में । एसीएम मल्टीमीडिया 99, ऑरलैंडो, एफएल, नवंबर, पेज 383-292, 1 999।
  6. वाई ली, टी झांग, और डी। ट्रेटर। वीडियो एब्स्ट्रक्शन तकनीक का एक सिंहावलोकन। तकनीकी रिपोर्ट, हिमाचल प्रदेश प्रयोगशाला, जुलाई 2001
+0

+1 के हिस्से के रूप में उनका उपयोग करने के बारे में सोच रहा था, मुझे लगता है कि मेरे प्रोजेक्ट के लिए सबसे अच्छा जवाब हिस्टोग्राम और गति का पता लगाने का मिश्रण है, क्योंकि मैं वीडियो से निपट रहा हूं –

+1

I यदि वीडियो में एक है तो साउंडट्रैक का विश्लेषण करने का भी सुझाव मिलेगा - यह दृश्य/शॉट्स शुरू होने और समाप्त होने पर संकेत प्रदान कर सकता है। – Unreason

0

वाह, क्या एक अच्छा सवाल है - मुझे लगता है कि दूसरा कदम फ्रेम को तुरंत हटाने के लिए होगा जहां इसके और उसके उत्तराधिकारी के बीच बहुत कम या कोई बदलाव नहीं है। लेकिन आप वास्तव में कर रहे हैं संभावित दिलचस्प फ्रेम के सेट को कम कर रहा है। आप वास्तव में "रोचकता" निर्धारित करते हैं, विशेष सॉस मुझे लगता है कि आपके पास फ़्लिकर की तरह भरोसा करने के लिए उपयोगकर्ता इंटरैक्शन आंकड़े नहीं हैं।

0

निदेशक कभी-कभी विशेष रूप से 'insteresting' या सुंदर शॉट पर आते हैं तो 5 सेकंड सेक्शन को खोजने के बारे में कैसे नहीं बदला जाता है और फिर उन वर्गों को हटा दिया जाता है जो लगभग काले होते हैं?

3

मुझे लगता है कि आपको केवल मुख्य फ्रेम देखना चाहिए।

यदि वीडियो कुंजी फ्रेम पर आधारित संपीड़न का उपयोग करके एन्कोड नहीं किया गया है, तो आप निम्न आलेख के आधार पर एक एल्गोरिदम बनाते हैं: Key frame selection by motion analysis

वीडियो के संपीड़न के आधार पर आप प्रत्येक 2 सेकंड या 30 सेकंड में मुख्य फ्रेम प्राप्त कर सकते हैं। मुझे लगता है कि आपको सभी कुंजी फ्रेमों में से "सबसे अधिक" कीफ्रेम खोजने के लिए आलेख में एल्गोरिदम का उपयोग करना चाहिए।

5

आपने कागजात मांगे ताकि मुझे कुछ मिले। यदि आप परिसर में नहीं हैं या परिसर में वीपीएन कनेक्शन पर हैं तो इन कागजात तक पहुंचना मुश्किल हो सकता है।

PanoramaExcerpts: वीडियो ब्राउज़िंग

http://portal.acm.org/citation.cfm?id=266396

के लिए निकालने और पैकिंग पैनोरमा यह एक एक comicbook शैली-फ़्रेम प्रतिनिधित्व पैदा करने के लिए एक विधि बताते हैं।

सार:

इस पत्र स्वचालित रूप से सचित्र वीडियो सारांश कि ble हास्य किताबें resem- बनाने के लिए तरीके प्रस्तुत करता है। वीडियो सेगमेंट का सापेक्ष महत्व उनकी लंबाई और नवीनता से गणना की जाती है। छवि और ऑडियो विश्लेषण का उपयोग स्वचालित रूप से पहचानने और अर्थपूर्ण घटनाओं पर जोर देने के लिए किया जाता है। इस महत्व के आधार पर, हम निश्चित कुंजीफ्रेम चुनते हैं। चयनित कीफ्रेम को महत्व के आधार पर आकार दिया जाता है, और फिर कुशलतापूर्वक एक चित्रमय सारांश में पैक किया जाता है। हम एक मात्रात्मक माप प्रस्तुत करते हैं कि सारांश में वीडियो में प्रमुख घटनाओं को कैप्चर किया जाता है, और यह दिखाता है कि इसका उपयोग हमारे सारांशों को बेहतर बनाने के लिए कैसे किया जा सकता है। नतीजा एक कॉम्पैक्ट और दृष्टि से आकर्षक सारांश है जो अर्थात् महत्वपूर्ण घटनाओं को कैप्चर करता है, और प्रिंटिंग या वेब एक्सेस के लिए उपयुक्त है। इस तरह के सारांश को ओसीआर या अन्य तरीकों से प्राप्त टेक्स्ट कैप्शन समेत आगे बढ़ाया जा सकता है। हम वर्णन करते हैं कि वीडियो के बड़े संग्रह तक पहुंच को सरल बनाने के लिए स्वचालित रूप से जेनरेट की गई राशि का उपयोग कैसे किया जाता है।

प्रतिनिधि मुख्य-फ़्रेम का स्वत: निकासी scenecontent पर

http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=751008

सार आधारित:

फिल्मों के लिए सूचकांक जनरेट कर रहा है एक कठिन और महंगी प्रक्रिया है जो हम स्वचालित करने के लिए की तलाश है। जबकि दृश्य सीमाओं को खोजने के लिए एल्गोरिदम आसानी से उपलब्ध हैं, दृश्य दृश्य का संक्षेप में प्रतिनिधित्व करने के लिए अलग-अलग फ्रेम चुनने पर बहुत कम काम किया गया है। इस पेपर में हम दृश्य सामग्री के आधार पर प्रतिनिधि कीफ्रेम के स्वचालित चयन के लिए उपन्यास एल्गोरिदम प्रस्तुत करते हैं। कई एल्गोरिदम के विस्तृत विवरण के बाद विश्लेषण किया जाता है कि मनुष्यों को चयनित फ्रेम दृश्य का प्रतिनिधित्व करने में कितनी अच्छी तरह से महसूस करते हैं। अंत में हम पता लगाते हैं कि दृश्य सीमाओं को खोजने के लिए इन एल्गोरिदम को मौजूदा एल्गोरिदम के साथ कैसे एकीकृत किया जा सकता है।

+0

धन्यवाद! आशा है कि –

1

यह सौंदर्यपूर्ण रूप से प्रसन्न होने वाले फ्रेम के पक्ष में भी फायदेमंद हो सकता है। यही है, फोटोग्राफी के सामान्य गुणों की तलाश करें - पहलू अनुपात, विपरीत, संतुलन, आदि

यदि आप नहीं जानते कि आप क्या खोज रहे हैं तो प्रतिनिधि शॉट ढूंढना मुश्किल होगा। लेकिन कुछ ह्युरिस्टिक्स और मेरे सुझाव के साथ, कम से कम आप कुछ अच्छी लग रही हो सकती है।

+0

हाँ, मैं हिस्टोग्राम की गणना करने और एल्गोरिदम –

1

मैं हाल ही में एक परियोजना पर काम जहाँ हम कुछ वीडियो प्रसंस्करण किया था, और हम OpenCV इस्तेमाल किया जहाँ तक वीडियो प्रोसेसिंग का संबंध था बड़े कार्य करने करने के लिए। हमें फ्रेम निकालना था, मतभेदों की गणना करना, चेहरे निकालना आदि। ओपनसीवी में कुछ अंतर्निर्मित एल्गोरिदम हैं जो फ्रेम के बीच मतभेदों की गणना करेंगे। यह विभिन्न प्रकार के वीडियो और छवि प्रारूपों के साथ काम करता है।

संबंधित मुद्दे