मेरे पास एक फ़ाइल है जिसमें "सीधी" (सामान्य, ASCII) उद्धरण शामिल हैं, और मैं उन्हें वास्तविक quotation mark glyphs ("घुंघराले" उद्धरण, यू + 2018 से यू + में परिवर्तित करने की कोशिश कर रहा हूं। 201D)। चूंकि दो अलग-अलग कोट वर्णों में से एक में परिवर्तन पहली जगह में हानिकारक रहा है, जाहिर है कि इस रूपांतरण को स्वचालित रूप से करने का कोई तरीका नहीं है; फिर भी मुझे संदेह है कि कुछ ह्यूरिस्टिक्स ज्यादातर मामलों को कवर करेंगे। प्रत्येक सीधे उद्धरण कैरेक्टर के लिए,सीधे उद्धरणों को घुमावदार उद्धरणों में परिवर्तित करने के विचार
- अनुमान जो घुंघराले उद्धरण कैरेक्टर उपयोग करने के लिए, यदि संभव हो तो
- उपयोगकर्ता पूछना (मुझे) पुष्टि करने के लिए: तो योजना एक स्क्रिप्ट (Emacs में) जो निम्न की तरह कुछ करता है , या एक विकल्प
यह सवाल पहले कदम के बारे में है: क्या एक अच्छा एल्गोरिथ्म (heuristics का एक सेट है, और अधिक की तरह) होगा उपयोग करने के लिए, सामान्य अंग्रेजी पाठ के लिए (एक उपन्यास, उदाहरण के लिए)?
- एक दोहरे-उद्धरण एक पंक्ति के आरंभ में है, तो लगता है कि यह एक उद्घाटन उद्धरण है: यहाँ कुछ प्रारंभिक विचारों, जो मैं (! जवाबी स्वागत है) डबल उद्धरण के लिए काम का मानना है कि कर रहे हैं।
- यदि एक पंक्ति के अंत में एक डबल-कोट है, तो एक समापन उद्धरण का अनुमान लगाएं।
- यदि किसी स्थान से डबल-कोट पहले होता है, तो एक उद्घाटन उद्धरण का अनुमान लगाएं।
- यदि किसी स्थान द्वारा डबल-कोट का पालन किया जाता है, तो एक समापन उद्धरण का अनुमान लगाएं।
- यदि कोई डबल-कोट उपर्युक्त श्रेणियों में से किसी एक में फिट नहीं होता है, तो अनुमान लगाएं कि यह हाल ही में उपयोग किए जाने वाले डबल-कोट के "विपरीत" है।
एकल उद्धरण, जटिल काम है, क्योंकि एक '
या तो एक खोलने बोली, बंद करने बोली, या apostrophe हो सकता है, और हम अक्षर लोप अकेला छोड़ने के लिए (नहीं लिखना चाहिए "नहीं करना चाहिए") चाहते हैं। उपर्युक्त नियमों में से कुछ नियम लागू होते हैं, लेकिन 'संभवतः धर्मप्रवाह शब्द (या रेखाओं) की शुरुआत में होते हैं, हालांकि यह अतीत में' twas 'से कम आम है। मैं उन नियमों के बारे में सोच नहीं सकता जो उचित रूप से ["मुझे पसंद है '' 70 'शो' जैसे टुकड़ों को संभाल लेंगे। इसे सिर्फ पड़ोसी पात्रों से अधिक देखने की आवश्यकता हो सकती है, और उद्धरणों के बीच दूरी की गणना करनी पड़ सकती है, उदाहरण के लिए ...
कोई और विचार? यह ठीक है अगर सभी संभावित मामलों को कवर नहीं किया गया है; लक्ष्य जितना संभव हो उतना बुद्धिमान होना है लेकिन आगे नहीं। :-)
संपादित: कुछ और चीजें हैं जो के बारे में सोच के लायक हो सकता है (या अप्रासंगिक यकीन नहीं हो सकता है,):
- उद्धरण हमेशा जोड़े मिलान में नहीं हो सकता है: एकल उद्धरण के लिए यह स्पष्ट है कि उपरोक्त के रूप में क्यों। लेकिन यहां तक कि डबल कोट्स के लिए, जब एक उद्धरण होता है जो एक से अधिक अनुच्छेदों के लिए विस्तारित होता है, सामान्य टाइपोग्राफिक सम्मेलन (मुझे क्यों नहीं पूछें) प्रत्येक अनुच्छेद को उद्धरण चिह्न के साथ शुरू करना है, भले ही यह पिछले में बंद नहीं हुआ हो एक। तो बस एक राज्य मशीन को रखकर जो दो राज्यों के बीच वैकल्पिक होगा काम नहीं करेगा!
- नेस्टेड उद्धरण (उपरोक्त उदाहरण "मुझे पसंद है" में उल्लिखित "मुझे पसंद है": यह किसी भी तरह का उद्धरण किसी स्थान से पहले या उसके बाद हो सकता है।
- ब्रिटिश/अमेरिकी विराम चिह्न शैली: उद्धरण या बाहर के अंदर अल्पविराम हैं?
- कई शब्द प्रोसेसर (जैसे माइक्रोसॉफ्ट वर्ड) पहले से ही इस तरह के कुछ रूपांतरण करते हैं। हालांकि वे सही नहीं हैं और अक्सर कष्टप्रद हो सकता है, यह जानने के लिए वे कैसे काम करते शिक्षाप्रद हो सकती है ...
मैं अंत में वास्तविक दस्तावेज पर रूपांतरण किया था। पहले चार नियम सभी को कवर किया डबल कोट्स। सिंगल कोट्स के लिए, "तुरंत कॉमा या फुल स्टॉप का पालन करता है" कई समापन उद्धरणों को संभाला जाता है, और बाकी सभी को मैन्युअल रूप से संभालना पड़ता है। – ShreevatsaR