2011-06-04 11 views
5

मैं PHP के साथ Word.dOC फ़ाइल से टेक्स्ट निकालने का प्रयास करता हूं। सब ठीक लगता है, लेकिन एकमात्र परेशानीयूटीएफ -8 और एचटीएमएल इकाइयां

СУДОВА БУХГАЛТЕРІЯ 

रूसी पाठ के बजाय कुछ है। मैंने html_entity_decode और utf8_encode का उपयोग करने का प्रयास किया है, लेकिन उन्होंने मदद नहीं की। क्या कोई आसान समाधान है?

उत्तर

4

html_entity_decode (जब तक आप PHP 5.3.3 का उपयोग कर रहे या बाद में) उचित मानकों के साथ काम करना चाहिए:

html_entity_decode($str, ENT_QUOTES, 'UTF-8') 

यह UTF-8 में केरेक्टर सन्दर्भ में परिवर्तित कर देंगे। PHP 5.3.3 से पहले, वर्णसेट पैरामीटर का डिफ़ॉल्ट मान ISO-8859-1 था। उस स्थिति में सिरिलिक वर्णों को ISO 8859-1 character set के रूप में परिवर्तित नहीं किया जा सकता है।

+0

हाँ, यह काम करता है। धन्यवाद। – Ximik

+0

पी। मैं 10 मिनट देरी के बाद आपका जवाब स्वीकार करूंगा :) – Ximik

संबंधित मुद्दे