2008-08-24 17 views
10

मैं सामग्री को सारांशित या पैराफ्रेश करने के लिए मौजूदा पुस्तकालय की तलाश में हूं (मैं ब्लॉग पोस्ट पर लक्ष्य रख रहा हूं) - मौजूदा प्राकृतिक भाषा प्रसंस्करण पुस्तकालयों के साथ कोई अनुभव?पैराफ्रेशिंग के लिए उपयोग करने के लिए एक अच्छी प्राकृतिक भाषा लाइब्रेरी क्या है?

मैं विभिन्न भाषाओं के लिए खुला हूं, इसलिए मैं क्षमता & सटीकता में अधिक रुचि रखता हूं।

उत्तर

0

आप वास्तव में दूर एआई प्रकार डोमेन में हो रहे हैं। मैंने मुख्य रूप से एटम्प्टो नियंत्रित अंग्रेजी का उपयोग करके मशीन ज्ञान में पाठ परिवर्तन में व्यापक कार्य किया है (देखें: http://attempto.ifi.uzh.ch/site/), यह एक प्राकृतिक भाषा (अंग्रेजी) है जो ओडब्लूएलएल जैसे कई अलग-अलग औपचारिकताओं में पूरी तरह से कंप्यूटर संसाधित है।

कि तरह लगता होगा हम जिस तरह से overkill हालांकि ...

वहाँ सिर्फ अपने ब्लॉग पोस्ट के पहले कुछ वाक्य लेने और फिर अपने सारांश के लिए एक अंडाकार नहीं जोड़ के लिए एक कारण है?

0

उन लिंक के लिए धन्यवाद। ऐसा लगता है कि GROK मर चुका है - लेकिन यह अभी भी मेरे उद्देश्यों के लिए काम कर सकता है।

2 और अधिक लिंक:

नियंत्रित प्राकृतिक अंग्रेजी एक दिलचस्प अवधारणा है: के रूप में यह समस्या को देखने का एक पूरी तरह से रिवर्स रास्ता नहीं है। मैं जो करने की कोशिश कर रहा हूं उसके लिए वास्तव में व्यावहारिक नहीं है।

@mmattax कुछ वाक्यों को लेने के सुझाव के लिए - मैं सारांश प्रस्तुत करने की कोशिश नहीं कर रहा हूं: अन्यथा यह एक अच्छा judo समाधान होगा। मैं वास्तव में अन्य मूल्यांकन उद्देश्यों के लिए उपयोग करने के लिए सामग्री को सारांशित करना चाहता हूं।

0

गेट या बंद स्रोत, स्वामित्व और महंगा TextAnalyst COM एपीआई

5

मैं वह स्वत: टीका जो कुछ भी यह था ब्लॉग इस प्रणाली की निगरानी है द्वारा ब्लॉग पोस्ट उत्पन्न करने के लिए चाहता है की कोशिश कर सकते हैं।

यह वास्तव में दिलचस्प होगा यदि आप समान रूप से 2 से 10 ब्लॉग पोस्ट जोड़ सकते हैं, लेकिन विभिन्न स्रोतों से और फिर स्वचालित रूप से एक "वास्तविक" सारांश (1 ब्लॉग पोस्ट का आकार) कर सकते हैं।

यह होमवर्क के लिए भी बहुत अच्छा हो सकता है। दुर्भाग्य से ऐसा करना इतना आसान नहीं है।

एकमात्र तरीका जिसे मैं देख सकता था वह है कि प्रत्येक वाक्य को "अर्थ" में विघटित करने में सक्षम होना चाहिए, और उसके बाद वाक्य संरचना और अर्थ को बनाए रखने वाले कुछ शब्दों को यादृच्छिक रूप से बदलना है।

ये वाक्य एक ही मतलब है:

  • मैं इस आदमी से नफरत है, वह इतना गूंगा है।
  • यह लड़का बेवकूफ है, मैं उससे नफरत करता हूं।
  • मैं इस गूंगा लड़के को तुच्छ जानता हूं।
  • वह गूंगा है, मैं उससे नफरत करता हूं।

इन वाक्यों में से किसी एक को दूसरों को बदलने के लिए एक प्रोग्राम लिखना नॉनट्रिविअल होगा, और ये सरल वाक्य हैं, ब्लॉग से वास्तविक वाक्य अधिक जटिल हैं।

9

ग्रोक के बारे में कुछ चर्चा हुई। इसे अब ओपनसीसीजी के रूप में समर्थित किया गया है, और ओपनएनएलपी में भी इसे फिर से कार्यान्वित किया जाएगा।

आप http://openccg.sourceforge.net/ पर ओपनसीसीजी पा सकते हैं। मैं यहां उपलब्ध कुरान और क्लार्क सीसीजी पार्सर का भी सुझाव दूंगा: http://svn.ask.it.usyd.edu.au/trac/candc/wiki

मूल रूप से, पैराफ्रेश के लिए, आपको जो कुछ करने की आवश्यकता होगी, वह लिखना है जो पहले ब्लॉग पोस्ट के वाक्यों को पार करता है, इनमें से अर्थपूर्ण अर्थ निकालता है पोस्ट, और उसके बाद vocab शब्दों की जगह के माध्यम से खोज करता है जो रचनात्मक रूप से वही अर्थपूर्ण अर्थ बनाते हैं, और फिर वह चुनें जो वर्तमान वाक्य से मेल नहीं खाता है। इसमें काफी समय लगेगा और यह बहुत समझ में नहीं आता है। यह मत भूलना कि ऐसा करने के लिए, आपको निकट-परिपूर्ण एनाफोरा रिज़ॉल्यूशन और व्याख्यान-स्तर के संदर्भों को लेने की क्षमता की आवश्यकता होगी।

यदि आप केवल ब्लॉग पोस्ट करना चाहते हैं जिसमें मशीन-पहचान योग्य डुप्लिकेट सामग्री नहीं है, तो आप हमेशा विषय का उपयोग कर सकते हैं और फोकस ट्रांसफॉर्मेशन और वर्डनेट समानार्थी शब्द का उपयोग कर सकते हैं। निश्चित रूप से ऐसी साइटें हैं जिन्होंने AdWords से पैसा कमाया है जो पहले ऐसा कर चुके हैं।

संबंधित मुद्दे