रेगेक्स न्यूलाइन अक्षरों के उत्थान पर विभाजित करने के लिए

मैं न्यूलाइन अक्षरों (विंडोज़, ओएस एक्स, और यूनिक्स टेक्स्ट फ़ाइल न्यूलाइन अक्षरों के लिए खानपान) पर एक स्ट्रिंग को विभाजित करने की कोशिश कर रहा हूं। यदि इनमें से कोई उत्तराधिकार है, तो मैं उस पर भी विभाजित करना चाहता हूं और परिणाम में कोई शामिल नहीं करना चाहता हूं।रेगेक्स न्यूलाइन अक्षरों के उत्थान पर विभाजित करने के लिए

तो, के लिए बंटवारे जब निम्न:

"Foo\r\n\r\nDouble Windows\r\rDouble OS X\n\nDouble Unix\r\nWindows\rOS X\nUnix"

परिणाम होगा:

['Foo', 'Double Windows', 'Double OS X', 'Double Unix', 'Windows', 'OS X', 'Unix']

मैं क्या regex का उपयोग करना चाहिए?

स्रोत

2010-04-08 Humphrey Bogart

आप अन्य खड़ी खाली स्थान के बारे में चिंतित हैं? \ r \ n डॉस है, लेकिन अभी भी लंबवत टैब और यूनिकोड एनबीएसपी, पीएस, एलएस, एनएनबीएसपी जैसे अन्य संभावित वर्टिकल व्हाइटस्पेस हैं। आप यह जांचना चाहेंगे कि पाइथन जेनेरिक न्यूलाइन की अवधारणा का समर्थन करता है या नहीं। पर्ल में \ v और \ R है जो क्रमशः किसी सामान्य जेनेरिक व्हाइटसाइट या लाइनफीड से मेल खाता है। यदि नहीं, तो यदि आप यूनिकोड वर्ण चाहते हैं, तो उनको अपने चरित्र वर्गों में जोड़ें [\ r \ n] + और पाइथन उन यूनिकोड वर्णों को ढूंढने के बराबर। – dawg

re.split(r'[\n\r]+', line)

स्रोत

2010-04-08 00:22:43

इस उद्देश्य के लिए सबसे सरल पैटर्न r'[\r\n]+' जो आप के रूप में "एक या अधिक गाड़ी-वापसी या नई पंक्ति वर्ण" उच्चारण कर सकते हैं।

स्रोत

2010-04-08 00:23:27

यूप। यह काम करता है। Splitlines के लिए – dawg

>>> s="Foo\r\n\r\nDouble Windows\r\rDouble OS X\n\nDouble Unix\r\nWindows\rOS X\nUnix" 
>>> import re 
>>> re.split("[\r\n]+",s) 
['Foo', 'Double Windows', 'Double OS X', 'Double Unix', 'Windows', 'OS X', 'Unix']

स्रोत

2010-04-08 00:34:50 ghostdog74

अगर वहाँ शुरू होता है या लाइनों के सिरों पर कोई रिक्त स्थान हैं, तो आप कोई तर्क के साथ line.split() उपयोग कर सकते हैं। यह युगल हटा देगा। । यदि नहीं, तो आप [a for a a.split("\r\n") if a] का उपयोग कर सकते हैं।

संपादित करें: str प्रकार में "स्प्लिटलाइन" नामक एक विधि भी है।

"Foo\r\n\r\nDouble Windows\r\rDouble OS X\n\nDouble Unix\r\nWindows\rOS X\nUnix".splitlines()

स्रोत

2010-04-08 03:19:33 magcius

+1 –

पैटर्न के लिए लालच नियमों पर ध्यान देना:

pattern = re.compile(r'(\r\n){2,}|(\n\r){2,}|(\r){2,}|(\n){2,}') 
paragraphs = pattern.split(text)

स्रोत

2015-09-17 16:44:55 jlettvin

रेगेक्स न्यूलाइन अक्षरों के उत्थान पर विभाजित करने के लिए

उत्तर

संबंधित मुद्दे