मैं PHP में एक सादे पाठ दस्तावेज़ को पार्स करने का प्रयास कर रहा हूं लेकिन मुझे यह नहीं पता कि इसे सही तरीके से कैसे किया जाए। मैं प्रत्येक शब्द को अलग करना चाहता हूं, उन्हें एक आईडी असाइन करना चाहता हूं और परिणाम JSON प्रारूप में सहेजना चाहता हूं।टेक्स्ट दस्तावेज़ को पार्स करने का सबसे अच्छा तरीका
नमूना पाठ:
"Hello, how are you (today)"
यह वही है im पल में कर रही है:
$document_array = explode(' ', $document_text);
json_encode($document_array);
जिसके परिणामस्वरूप JSON
[["Hello,"],["how"],["are"],["you"],["(today)"]]
है मैं कैसे सुनिश्चित करूँ कि रिक्त स्थान में रखा जाता है जगह और उन प्रतीकों को शब्दों के साथ शामिल नहीं किया गया है ...
[["Hello"],[", "],["how"],[" "],["are"],[" "],["you"],[" ("],["today"],[")"]]
मुझे यकीन है कि कुछ प्रकार के रेगेक्स की आवश्यकता है ... लेकिन यह नहीं पता कि सभी मामलों से निपटने के लिए किस तरह का पैटर्न लागू करना है ... कोई सुझाव लोग?
हां, एक 3 पार्टी समाधान शायद सबसे अच्छा विकल्प होगा ... मुझे यकीन है कि वे साल इन मुद्दों से निपटने के लिए अधिक काफी जटिल नियम बनाया है हूँ। कोई सुझाव? –
PHP संख्या में। जावा में एक संख्या है: ओपन एनएलपी, स्टैनफोर्ड एनएलपी, ल्यूसीन टोकनिसर, और एनएलटीके पायथन में। –
अजगर एक और वेब आधारित भाषा ... यह पहले इस्तेमाल नहीं किया है, लेकिन मैं मैं अजगर में पदव्याख्यायित्र लागू सकता है, तो JSON पीएचपी करने के लिए वापस भेज लगता है ... किसी भी तरह –