मैं लगता है कि यह पर्याप्त होना चाहिए: "। पाठ"
#!python
import re
pattern = re.compile(r'<title>([^<]*)</title>', re.MULTILINE|re.IGNORECASE)
pattern.search(text)
... यह सोचते हैं कि अपने पाठ (एचटीएमएल) नाम के एक चर में है
यह भी मानता है कि अन्य HTML टैग नहीं हैं जिन्हें एक HTML TITLE टैग के अंदर कानूनी रूप से एम्बेड किया जा सकता है और किसी भी कंटेनर/ब्लॉक के भीतर किसी अन्य < चरित्र को कानूनी रूप से एम्बेड करने का कोई तरीका नहीं है।
हालांकि ...
अजगर में HTML पार्स के लिए रेगुलर एक्सप्रेशन का उपयोग न करें। एक HTML पार्सर का प्रयोग करें! (आप एक पूर्ण पार्सर, जो अतिरिक्त काम का एक होगा जब विभिन्न एचटीएमएल, एसजीएमएल और एक्सएमएल पारसर्स मानक पुस्तकालयों में पहले से ही कर रहे हैं लिखने के लिए जा रहे हैं जब तक।
यदि आपका हैंडलिंग "वास्तविक दुनिया" टैग सूप एचटीएमएल । (जो अक्सर है गैर-अनुरूप किसी भी SGML/सत्यापनकर्ता करने के लिए) तो BeautifulSoup पैकेज का उपयोग यह मानक पुस्तकालयों (अभी तक) में नहीं है, लेकिन विस्तृत इस उद्देश्य के लिए सिफारिश की है
एक अन्य विकल्प है:। lxml .. जो कि उचित रूप से संरचित (मानकों अनुरूप) एचटीएमएल के लिए लिखा गया है। लेकिन इसमें सुंदरसप का उपयोग पार्सर के रूप में करने का विकल्प है: ElementSoup।
स्रोत
2009-08-25 10:35:29
वाह मैं एक सरल शीर्षक निकालने के लिए पूरे HTML पृष्ठ को पार्स करने के लिए बुलाए गए सभी प्रतिक्रियाओं पर विश्वास नहीं कर सकता। क्या अधिक है! – hoju
प्रश्न शीर्षक यह सब कहता है - उदाहरण _happens_ को HTML होने के लिए दिया गया है, लेकिन सामान्य समस्या है ... सामान्य। – Phil