2013-05-27 17 views
5

मेरे पास एक वेबपृष्ठ है जो CSV फ़ाइलों को स्वीकार करता है। ये फाइलें विभिन्न स्थानों पर बनाई जा सकती हैं। (मुझे लगता है) एक CSV फ़ाइल में एन्कोडिंग निर्दिष्ट करने का कोई तरीका नहीं है - इसलिए मैं उन सभी को विश्वसनीय रूप से utf-8 या किसी अन्य एन्कोडिंग के रूप में नहीं मान सकता।क्या कैरेक्टर एन्कोडिंग "स्नीफ" करना संभव है?

क्या मुझे समझने वाले सीएसवी के एन्कोडिंग का समझदारी से अनुमान लगाने का कोई तरीका है? मैं पाइथन के साथ काम कर रहा हूं, लेकिन भाषा अज्ञेय तरीकों के साथ भी काम करने को तैयार हूं।

+2

तरीके हैं जब तक आप कर सकते गलत-विचलन के साथ रहते हैं, क्योंकि एन्कोडिंग का अनुमान लगाने के लिए कोई 100% निश्चित-अग्नि तरीका नहीं है। –

+0

संभावित डुप्लिकेट [क्या कोई पायथन लाइब्रेरी फ़ंक्शन है जो कुछ बाइट्स के वर्ण-एन्कोडिंग का अनुमान लगाने का प्रयास करता है?] (Http://stackoverflow.com/questions/269060/is-there-a-python-library-function-which -टैप्ट्स-टू-अनुमान-द-कैरेक्टर-एन्कोडिन) –

+0

यदि आप इन फ़ाइलों में भाषा जानते हैं तो आप एन्कोडिंग को बहुत भरोसेमंद तरीके से पहचान सकते हैं - क्या आप? – georg

उत्तर

6

केवल फ़ाइल स्वयं को देख कर एक फ़ाइल की एन्कोडिंग निर्धारित करने के लिए कोई सही तरीका नहीं है, लेकिन आप कुछ heuristics आधारित समाधान का उपयोग कर सकते है, जैसे .: chardet

संबंधित मुद्दे