स्क्रिप्ट के लिए बहुत सारे पार्सर्स और लेक्सर्स हैं (यानी संरचित कंप्यूटर भाषाएं)। लेकिन मैं एक ऐसे व्यक्ति की तलाश में हूं जो एक (लगभग) गैर-संरचित टेक्स्ट दस्तावेज़ को बड़े वर्गों में विभाजित कर सके। अध्याय, अनुच्छेद, आदिलेक्सर्स/पार्सर्स (अन) संरचित टेक्स्ट दस्तावेज़
किसी व्यक्ति के लिए यह पहचानना अपेक्षाकृत आसान है: जहां सामग्री, स्वीकृतियां, या जहां मुख्य निकाय शुरू होता है और इनमें से कुछ की पहचान करने के लिए नियम आधारित सिस्टम बनाना संभव है (जैसे पैराग्राफ के रूप में)।
मुझे उम्मीद नहीं है कि यह सही होगा, लेकिन क्या कोई इस तरह के व्यापक 'ब्लॉक आधारित' लेजर/पार्सर के बारे में जानता है? या क्या आप मुझे साहित्य की दिशा में इंगित कर सकते हैं जो मदद कर सकता है?
मैं पॉड के बारे में भूल गया था! मुझे वास्तव में जो चाहिए वह पीओडी, मार्कडाउन और रीस्ट्रक्चरर्ड टेक्स्ट का संयोजन है। उन्होंने निश्चित रूप से मुझे कुछ पॉइंटर्स दिए। ऐसा लगता है कि मुझे अपना खुद का निर्माण करना है। – wilson32
क्या आपके पास पहले से टेक्स्ट है या आप स्क्रैच से शुरू करना चाहते हैं? शायद आप अपने मौजूदा दस्तावेज़ (यदि आपके पास एक है) को रीस्ट या कुछ में परिवर्तित कर सकते हैं और स्टॉक पार्सर का उपयोग कर सकते हैं? –
समस्या यह है कि हमें नहीं पता कि नया आने वाला दस्तावेज़ कैसा दिखता है।हम जानते हैं कि हम जिस प्रक्रिया पर विचार करते हैं वह केवल अर्द्ध स्वचालित होगा। मुझे संदेह है कि मूल की प्रतिलिपि से एक पारदर्शी दस्तावेज़ बनाना आसान होगा जिसे हम किसी भी प्रासंगिक फॉर्मेटर – wilson32