वहाँ कम से XML और HTML चरित्र संदर्भ की एक सूची है।परिवर्तित एक्सएमएल अवैध और UTF8 करने के लिए चार अजगर
लेकिन वहाँ चीजें हैं जो उस सूची में सब पर परिभाषित नहीं कर रहे हैं लेकिन वे बड़े एचटीएमएल लिपियों में इस्तेमाल किया गया। जब मैं डेटासेट http://www.d.umn.edu/~tpederse/data.html से संसाधित कर रहा हूं, तो मुझे निम्न शब्दों का सामना करना पड़ता है जहां यह मेरी स्क्रिप्ट को तोड़ता है जिसने डेटा को पार्स करने के लिए xml.et.elementTree
का उपयोग करने का प्रयास किया।
इन शब्दों में से यूनिकोड तुल्यता क्या हैं?
&and.
&and.A
&and.B
&and.D
&and.L's
&backquote.alim)
&backquote.ulema
&dash
&dash.
&dash."
&dashq.
°ree.
°ree.C
&ellip
&ellip.
&ellip.0
&ellip.1
&ellip.11
&ellip.2
&ellip.23
&ellip.28
&ellip.38
&ellip.4
&ellip.6
&ellip.64
&ellip.?"
&ellip.two
×.
मेरी स्क्रिप्ट:
Traceback (most recent call last):
File "senseval.py", line 4, in <module>
tree = et.parse(s1)
File "/usr/lib/python2.7/xml/etree/ElementTree.py", line 1182, in parse
tree.parse(source, parser)
File "/usr/lib/python2.7/xml/etree/ElementTree.py", line 656, in parse
parser.feed(data)
File "/usr/lib/python2.7/xml/etree/ElementTree.py", line 1642, in feed
self._raiseerror(v)
File "/usr/lib/python2.7/xml/etree/ElementTree.py", line 1506, in _raiseerror
raise err
xml.etree.ElementTree.ParseError: not well-formed (invalid token): line 41, column 113
उन एक्सएमएल संस्थाओं नहीं कर रहे हैं ठीक करने के लिए, तिनका एक को समाप्त करना चाहिए 'अगर;' है, न कि '.'। इकाई संदर्भ: http://www.w3.org/TR/xml-entity-names/ – mata
कोई विचार है कि वे क्या हैं? – alvas
वास्तव में नहीं। 'dash' एक [html5 वर्ण इकाई] (http://dev.w3.org/html5/html-author/charref) हो सकता है, लेकिन दूसरी ओर 'ellip' कहीं भी एक मान्य इकाई नहीं है जिसे मैं पा सकता हूं, न तो 'डिग्री' है ... – mata