2011-06-29 11 views
5

यदि मेरे पास टेक्स्ट की महत्वपूर्ण मात्रा है और मैं अक्सर टेम्पलेट्स को खोजने की कोशिश कर रहा हूं, तो मैं एन-ग्राम दृष्टिकोण का उपयोग करके इसे हल करने की सोच रहा था और वास्तव में इसे this प्रश्न में भी समाधान के रूप में सुझाव दिया गया था लेकिन मेरी आवश्यकता है थोड़ा अलग। बस स्पष्ट करने के लिए, मैं इस तरह कुछ पाठ है:किसी दिए गए पाठ में "टेम्पलेट्स" की खोज करना?

I wake up every day morning and read the newspaper and then go to work 
I wake up every day morning and eat my breakfast and then go to work 
I am not sure that this is the solution but I will try 
I am not sure that this is the answer but I will try 
I am not feeling well today but I will get the work done and deliver it tomorrow 
I was not feeling well yesterday but I will get the work done and let you know by tomorrow 

और "टेम्पलेट्स" इस तरह निकालने के लिए कोशिश कर रहा हूँ: मैं एक दृष्टिकोण है कि की लाइनों की लाख पैमाने पर कर सकते हैं रहा हूँ

I wake up every day morning and ... and then go to work 
I am not sure that this is the ... but I will try 
I ... not feeling well ... but I will get the work done and ... tomorrow 

पाठ तो मैं बस सोच रहा था कि क्या मैं इस समस्या को हल करने के लिए एक ही एन-ग्राम दृष्टिकोण को अनुकूलित कर सकता हूं या क्या कोई विकल्प है?

उत्तर

5

पाठ की पंक्तियों के लाखों एक बहुत बड़ी संख्या :)

क्या आप देख रहे हैं कम से कम मोरचा खोज के समान है नहीं है। आप एन-ग्राम पर बिंदुवार पारस्परिक जानकारी की गणना करने का प्रयास कर सकते हैं। इस समस्या के लिए और अन्य दृष्टिकोणों के लिए Manning & Schütze (1999) देखें।

+0

आपके सुझावों के लिए धन्यवाद। अंततः मुझे किताब मिल गई :) – Legend

संबंधित मुद्दे