मैं डोम दस्तावेज़ का उपयोग करता है इस तरह डेटाबेस से एचटीएमएल लोड करने के लिए अनदेखी हो रही textContent:पीएचपी Dom दस्तावेज: स्क्रिप्ट टैग और टिप्पणियों
$doc = new DOMDocument();
@$doc->loadHTML($data);
$doc->encoding = 'utf-8';
$doc->saveHTML();
तो मैं इन करके शरीर पाठ मिलता है:
$bodyNodes = $doc->getElementsByTagName("body");
$words = htmlspecialchars($bodyNodes->item(0)->textContent);
जिन शब्दों को मैंने प्राप्त किया है उनमें <body>
में सबकुछ शामिल है। <scripts>
जैसी चीजें भी शामिल थीं। मैं उन्हें कैसे हटा सकता हूं और केवल वास्तविक पाठ सामग्री को कैसे रखूं?
आप '
में हर तत्व' की पुनरावर्ती निकालने पाठ सामग्री मतलब है? –यैप केवल टेक्स्ट सामग्री जो सार्थक हैं, जावास्क्रिप्ट या अन्य HTML टिप्पणियां या आदि को छोड़कर जो उपयोगी डेटा नहीं हैं। – nuttynibbles