2009-08-20 10 views
6

मुझे अभी स्टैक ओवरफ्लो data dump पर अपना हाथ मिला है, और मैं यह देखने से निराश हूं कि पोस्ट का बॉडी फील्ड मार्कडाउन के बजाय HTML में है। मुझे संदेह है कि मूल डेटाबेस में मार्कडाउन है क्योंकि अगर मैं उत्तर संपादित करने का प्रयास करता हूं तो मैं यही देखता हूं।एचटीएमएल से वापस मार्कडाउन में एसओ डेटा डंप को परिवर्तित करने का सबसे आसान तरीका क्या है?

मैं मार्कडाउन को उत्तर के बड़े सेट से पुनर्प्राप्त करना चाहता हूं। मैं कमांड लाइन उपकरण या किसी प्रकार की लुआ या सी लाइब्रेरी का उपयोग करके बैच मोड में सैकड़ों प्रविष्टियों को संसाधित कर रहा हूं, इसलिए wmd Markdown editor जैसे एक इंटरैक्टिव टूल उपयुक्त नहीं है। क्या लोग स्टैक ओवरफ्लो डेटा डंप से मार्कडाउन पुनर्प्राप्त करने में मेरी सहायता के लिए कौन से टूल्स उपलब्ध हैं?


(संबंधित प्रश्न, एक नकली नहीं:। Convert HTML back to Markdown within wmd)

उत्तर

5

Markdownify Markdown करने के लिए HTML बदल देता है।

देखें इसके अलावा: MetaSO/Can Markdown be recovered from the SO data dump?

+0

नॉर्मन पता होना चाहिए, वह उस प्रश्न पूछा भी! :) –

+0

जब कमांड लाइन पर PHP का उपयोग करने की बात आती है, तो मैं एक ट्रोग्लोडीट हूं। फ़ाइल की पूरी सामग्री को पढ़ने के लिए लाइब्रेरी फ़ंक्शन होने पर मुझे मैन्युअल से पता लगाना प्रतीत नहीं होता है। सही ट्रैक पर dio_read (STDIN) है? –

+0

यदि आप किसी फ़ाइल की सामग्री को पढ़ना चाहते हैं, तो कई तरीके हैं - एक सरल फ़ंक्शन जो यह करता है 'file_get_contents(); ' – Sampson

2

pandoc पर एक नज़र डालें: http://johnmacfarlane.net/pandoc/

एक html2markdown उपकरण pandoc कि बहुत अच्छी तरह से काम करता है के साथ शामिल है, और कार्यक्रम कमांड लाइन से चलाया जाता है, बैच रूपांतरण काफी अच्छा बना रहा है।

यहाँ आदमी पृष्ठ है: http://johnmacfarlane.net/pandoc/html2markdown.1.html

+0

भयानक लग रहा है! मैं निश्चित रूप से इसकी जाँच करूँगा। –

संबंधित मुद्दे

 संबंधित मुद्दे