मैं पाइथन में एनएलटीके से टोकनेज़र का उपयोग कर रहा हूं।विराम चिह्न को कैसे हटाया जाए?
पहले से ही मंच पर विराम चिह्नों को हटाने के लिए उत्तर के पूरे समूह हैं। हालांकि, उनमें से कोई भी निम्न समस्याओं में से सभी को एक साथ संबोधित करें:
- अधिक एक एक पंक्ति में प्रतीक से। उदाहरण के लिए, वाक्य: उन्होंने कहा, "यह है।" चूंकि उद्धरण चिह्न के बाद एक अल्पविराम है, तो टोकननाइज़र नहीं हटाएगा। "वाक्य में। टोकनिज़र ['वह', 'कहा', ',' '', '' '' ',' '' है। '] के बजाय [' वह ',' कहा ',' वह ',' एस ',' यह ']। कुछ अन्य उदाहरणों में '...', '-', '!?', ',' ', और इतने पर शामिल हैं।
- वाक्य वाक्य के अंत में प्रतीक निकालें। यानी वाक्य: हैलो वर्ल्ड। टोकननाइज़र ['हैलो', 'वर्ल्ड'] के बजाय ['हैलो', 'वर्ल्ड'] दे देगा। 'वर्ल्ड' शब्द के अंत में अवधि की सूचना दें। कुछ अन्य उदाहरणों में '-', ', '
- शुरुआत, मध्य, या किसी भी चरित्र के अंत में। सामने और के बाद प्रतीकों के साथ वर्ण निकाल दें। यानी
'*u*', '''','""'
दोनों समस्याओं को हल करने की एक सुंदर तरीका है?
क्या कठिनाइयों आप इन आवश्यकताओं को लागू करने में क्या है? कोड के आपके वर्तमान संस्करण के साथ आपके पास क्या समस्याएं हैं? – jfs
बीटीडब्ल्यू, ऐसे कई प्रश्न हैं जिनके पास उत्तर हैं जो सभी आवश्यकताओं को पूरा करते हैं उदाहरण के लिए, [यूनिकोड स्वरूपित तारों से पेंचरेशन निकालें] (http://stackoverflow.com/q/11066400/4279) – jfs
[जवाब देने के सर्वोत्तम तरीके] पायथन में एक स्ट्रिंग से विराम चिह्न] (http://stackoverflow.com/q/265960/4279) आपको असफल कर देता है? – jfs