मेरे पास एक टेक्स्ट है और इसे शब्दों में विभाजित करने के लिए इस सरल रेगेक्स का उपयोग करना: [ \n]
। यह टेक्स्ट को रिक्त स्थान और लाइन-ब्रेक का उपयोग करके शब्दों में विभाजित करता है।रेगेक्स का उपयोग करके टेक्स्ट को कैसे विभाजित करें, लेकिन विभाजित शब्द रेगेक्स विभाजक को जारी रखते रहेंगे?
मैं जानना चाहता हूं कि स्प्लिटेड शब्द में व्हाइटस्पेस या लाइन ब्रेक रखने का कोई तरीका है, क्योंकि मैं इसे कुछ प्रोसेसिंग के बाद एक साधारण वाक्य पहचान के लिए उपयोग करूंगा।
मैं String#split
विधि का उपयोग कर रहा हूं।
क्या आपके \ n का मतलब कुछ विशेष (वाक्य का अंत) है? आप "।" के साथ कई पंक्तियों पर सामान्य पैराग्राफ संसाधित नहीं कर रहे हैं। वाक्य के अंत के रूप में? – toto2
@ toto2 विराम चिह्न का उपयोग वाक्य के अंत को निर्धारित करने के लिए भी किया जाता है, लेकिन सामग्री HTML सामग्री से आती है, इसलिए शीर्षक जैसे कई वाक्यों में विराम चिह्न नहीं होता है कि वाक्य कहां समाप्त होता है, केवल लाइन ब्रेक होता है। –
मुझे यकीन नहीं है कि आपको HTML पर प्रोसेस करते समय \ n पर भरोसा करना चाहिए, क्योंकि आपके पास एक सिंगल \ n के बिना बिल्कुल सही दस्तावेज़ हो सकता है। – toto2