मैं एक ऐसा एप्लीकेशन विकसित करने के लिए एफएमओडी का उपयोग कर रहा हूं जो तुरंत अगली/पिछली वाक्य की रिकॉर्डिंग को एमपी 3 फ़ाइल में शुरू करने से शुरू कर देगा जिसमें संगीत के बिना भाषण होता है, जब उपयोगकर्ता ने अगला/पिछला बटन क्लिक किया था। मैं ध्वनि बुला :: ताला द्वारा एक एमपी 3 फ़ाइल का पीसीएम डेटा है, लेकिन ध्वनि :: getFormat केवल मुझे यह, "16bit पूर्णांक पीसीएम डेटा" था कह चाहे वह पर हस्ताक्षर किए या अहस्ताक्षरित था बिना कहा था। मैं उसे कैसे जानूंगा?क्या "16 बिट पूर्णांक पीसीएम डेटा" का अर्थ यह हस्ताक्षरित या हस्ताक्षरित है?
इंटरनेट पर कुछ लेख कहते हैं कि लगभग सभी 16-बिट पूर्णांक पीसीएम डेटा पर हस्ताक्षर किए गए हैं। यदि मेरा पीसीएम डेटा पर हस्ताक्षर किया गया है, तो मूल्यों की कौन सी रेंज मौन का प्रतिनिधित्व करती है, 0 के करीब के मान (उदा। -10 ~ 10), या -32768 (उदा। -32768 ~ -32750) के करीब के मान? यदि वे 0 के करीब मान हैं, तो क्या इसका मतलब यह है कि -32767 और 32767 जैसे विपरीत संख्याओं के बीच अर्थ में कोई अंतर नहीं है?
मुझे उन मौनों का पता लगाने की आवश्यकता है जो काफी लंबे हैं, उदा। 500ms से अधिक, यह निर्धारित करने के लिए कि भाषण में प्रत्येक वाक्य कहां से शुरू होता है।
क्या कोई मुझे वाक्यों के बीच चुप्पी का पता लगाने के बारे में कोई सुझाव दे सकता है?
आपको बहुत धन्यवाद, टॉमी। मैंने सोचा कि मुझे केवल पीसीएम डेटा की तुलना वाक्यों के बीच विराम खोजने के लिए सीधे एक संख्या के साथ करने की आवश्यकता होगी। मेरी अज्ञानता क्षमा करें, लेकिन "नल" का क्या अर्थ है? 37 नल क्यों होनी चाहिए?क्या सरणी इनपुटवेव [] पीसीएम डेटा को संदर्भित करता है जैसे मैंने 16-बिट पूर्णांक का उल्लेख किया है? और क्या आपका उदाहरण कोड यह निर्धारित करने के लिए है कि नमूना इनपुटवेव [सी] चुप्पी का प्रतिनिधित्व करता है या नहीं? बहुत सारे प्रश्नों और मेरी गरीब अंग्रेजी के लिए खेद है। – xiaokaoy
टैप्स इनपुट नमूने की संख्या के लिए सिग्नल प्रोसेसिंग शब्द है जो एक आउटपुट नमूना करने के लिए संयुक्त होते हैं। यह चीजों के हार्डवेयर परंपरा पक्ष से अधिक आता है। इसे 37 होने की आवश्यकता नहीं है, यह उस पृष्ठ पर सिर्फ डिफ़ॉल्ट है। आपको आमतौर पर व्यक्तिपरक प्रदर्शन के आधार पर चुनना चाहिए - अधिक = बेहतर, आमतौर पर। सीपीयू प्रदर्शन के रूप में, पूरी चीज के लिए अपने प्रोसेसर की सिमड इकाई का उपयोग करने में देखें (जिसका मतलब है कि युगल के बजाय निश्चित बिंदु शॉर्ट्स का उपयोग करना हो सकता है लेकिन जो भी हो)। आउटपुट एक फ़िल्टर की लहर है। आप इसे सीधे सुन सकते हैं। चुप्पी खोजने के लिए 0 के करीब लंबी अवधि की तलाश करें। – Tommy