मैं PHP में एक सरल आगे सूचकांक को लागू करने के लिए देख रहा हूँ। हां, मैं समझता हूं कि PHP कार्य के लिए शायद ही सबसे अच्छा उपकरण है, लेकिन मैं इसे वैसे भी करना चाहता हूं। इसके पीछे तर्क सरल है: मुझे एक और PHP में चाहिए।PHP में अग्रेषित इंडेक्स को लागू करने के बारे में कोई कैसे जा सकता है?
हमें कुछ बुनियादी मान्यताओं करते हैं:
पूरे Interweb के बारे में पाँच हजार HTML और/या सादे-पाठ दस्तावेजों होते हैं। प्रत्येक दस्तावेज़ किसी विशेष डोमेन (यूआईडी) के भीतर रहता है। हमारे काल्पनिक गुफाओं के बीच इंटरवेब में कोई अन्य स्वामित्व/आर्केन प्रारूप मौजूद नहीं है।
हमारे भयानक पीएचपी आधारित आगे अनुक्रमण एल्गोरिथ्म के परिणाम की तर्ज पर किया जाना चाहिए:
UID1 -> index.html -> हेलेन, वह था, चैंपियन,, freckles
साथ UID1 -> foo.html -> चिकन, किसानों, जाना, घर, खाने, भेड़
UID2 -> blah.html -> अगले, सप्ताह, badgerwatch पर,
UID2 -> gah.txt -> एक, एक, और, एक, है, नहीं, संख्या
आदर्श रूप से, मुझे अपने सबसे प्राथमिक, टोकननाइजेशन/शब्द सीमा असंबद्धता/अंश-भाषण-टैगिंग की अवधारणाओं पर भी ध्यान में रखना चाहिए। बेशक, मुझे पता है कि यह इच्छाधारी सोच है, और इसलिए द्वारा पार्स पर किसी भी योग्य प्रयास काल्पनिक दस्तावेजों विनम्र ने कहा:
- क्रम में शब्दों की एक सूची के रूप में दस्तावेज़ भीतर वास्तविक शाब्दिक सामग्री सामान निकाला जा रहा है में जो उन्हें प्रस्तुत किया गया है।
- हर समय, एक UIDs का (जो हो सकता है, उदाहरण के लिए, एक डोमेन,) दस्तावेज़ का नाम (डोमेन के भीतर संसाधन) के बाद सूची और अंत में सूची की गणना करने के लिए किसी भी कचरा ऐसे
<script>
के रूप में और<html>
टैग अनदेखी उस दस्तावेज़ के लिए शब्दों का। मुझे एहसास है कि एचटीएमएल टैग दस्तावेज़ के भीतर पाठ के अर्थपूर्ण प्लेसमेंट में एक महत्वपूर्ण भूमिका निभाते हैं, लेकिन इस चरण में मैं परवाह नहीं करता। - शब्दों को ध्यान में रखें जो शब्दों को सूची बना सकता है जब दस्तावेज़ दस्तावेज़ को पढ़ना कूलर है जिसे पहले पूरे दस्तावेज़ में पढ़ने की आवश्यकता है।
इस चरण में, मुझे स्टोरेज या स्टोरेज के बारे में परवाह नहीं है। यहां तक कि 'प्रिंट' कथन का एक प्राथमिक सेट पर्याप्त होगा।
अग्रिम धन्यवाद, उम्मीद है कि यह पर्याप्त स्पष्ट था।
+1 भयानक नमूना ग्रंथों के लिए +1 – Artelius
क्या यह आपका होमवर्क है? ऐसा लगता है कि आप बस एक साधारण फ़ाइल पार्सर चाहते हैं .. – Louis
@Lou होमवर्क? – karim79