2011-08-17 15 views
5

तो मेरी समस्या यहां है। मेरे पास टेक्स्ट के दो पैराग्राफ हैं और मुझे यह देखने की ज़रूरत है कि वे समान हैं या नहीं। स्ट्रिंग मेट्रिक्स के अर्थ में नहीं बल्कि अर्थ में। निम्नलिखित दो पैराग्राफ संबंधित हैं लेकिन मुझे यह पता लगाना होगा कि क्या वे 'समान' विषय को कवर करते हैं। इस समस्या को हल करने के लिए कोई मदद या दिशा बहुत सराहना की जाएगी।समानता के लिए दो अंग्रेजी तारों की तुलना

जीवाश्म ईंधन प्राकृतिक प्रक्रियाओं द्वारा गठित ईंधन हैं जैसे कि एनारोबिक दफन मृत जीवों का अपघटन। जीवों की उम्र और उनके परिणामी जीवाश्म ईंधन आमतौर पर लाखों साल होते हैं, और कभी-कभी 650 मिलियन वर्ष से अधिक हो जाते हैं। जीवाश्म ईंधन, जिसमें कार्बन के उच्च प्रतिशत होते हैं, में कोयला, पेट्रोलियम और प्राकृतिक गैस शामिल है। जीवाश्म ईंधन कम कार्बन के साथ अस्थिर सामग्री से है: हाइड्रोजन मीथेन जैसे अनुपात, तरल पेट्रोलियम से गैर-अस्थिर सामग्री एंथ्रासाइट कोयले जैसे लगभग शुद्ध कार्बन से बना है। मीथेन हो सकता है, जो हाइड्रोकार्बन क्षेत्रों में अकेले, तेल से जुड़ा हुआ है, या मीथेन क्लैथ्रेट्स के रूप में पाया जा सकता है। आम तौर पर यह स्वीकार किया जाता है कि उन्होंने गर्मी के संपर्क में मृत पौधों के जीवाश्म अवशेषों से और लाखों वर्षों से पृथ्वी की परत में दबाव डाला। यह बायोजेनिक सिद्धांत पहली बार जॉर्ज एग्रीगोला द्वारा 1556 में और बाद में मिखाइल लोमोनोसोव द्वारा 18 वीं शताब्दी में पेश किया गया था।

दूसरा:

जीवाश्म ईंधन में सुधार जैसे कि प्राकृतिक गैस जैसे जीवाश्म ईंधनों से हाइड्रोजन या अन्य उपयोगी उत्पादों के उत्पादन की एक विधि है। यह एक प्रोसेसिंग डिवाइस में प्राप्त एक प्रोसेसिंग डिवाइस में प्राप्त किया गया है जो जीवाश्म ईंधन के साथ उच्च तापमान पर स्टीम पर प्रतिक्रिया करता है। स्टीम मीथेन सुधारक उद्योग में हाइड्रोजन बनाने के लिए व्यापक रूप से उपयोग किया जाता है। में भी रुचि है पर समान तकनीक के आधार पर बहुत छोटी इकाइयों का विकास ईंधन कोशिकाओं के लिए फीडस्टॉक के रूप में हाइड्रोजन का उत्पादन करता है। छोटे पैमाने पर भाप ईंधन कोशिकाओं की आपूर्ति के लिए इकाइयों में सुधार वर्तमान में अनुसंधान और विकास का विषय है, आमतौर पर मेथनॉल या प्राकृतिक गैस के सुधार को शामिल करता है लेकिन अन्य ईंधन को पर प्रोपेन, गैसोलीन, ऑटोगास, डीजल ईंधन, और इथेनॉल।

उत्तर

3

आम तौर पर, मेरा मानना ​​है कि यह अभी भी एक खुली समस्या है। प्राकृतिक भाषा प्रसंस्करण अभी भी एक नवजात क्षेत्र है और जब हम कुछ चीजें वास्तव में अच्छी तरह से कर सकते हैं, तब भी इस तरह के वर्गीकरण और वर्गीकरण करना बेहद मुश्किल है।

मैं एनएलपी में एक विशेषज्ञ नहीं हूं, लेकिन आप these lecture slides को देखना चाहते हैं जो भावनात्मक विश्लेषण और लेखकत्व का पता लगाने पर चर्चा करता है। जिन तकनीकों का आप उपयोग कर सकते हैं, उनके साथ तुलना करने वाली तकनीकों का उपयोग उन तकनीकों से संबंधित है जो आप उपरोक्त विश्लेषणों के लिए उपयोग करेंगे, और आपको यह एक अच्छा प्रारंभिक बिंदु माना जा सकता है।

आशा है कि इससे मदद मिलती है!

5

यह एक लंबा आदेश है। अगर मैं आप थे, तो मैं प्राकृतिक भाषा प्रसंस्करण पर पढ़ना शुरू कर दूंगा। एनएलपी एक काफी बड़ा क्षेत्र है - मैं विशेष रूप से विकिपीडिया टेक्स्ट Analytics लेख के "Processes" section में उल्लिखित चीजों पर विशेष रूप से देखने की अनुशंसा करता हूं।

मुझे लगता है कि यदि आप information retrieval, named entity recognition, और sentiment analysis का उपयोग करते हैं, तो आपको अपने रास्ते पर अच्छा होना चाहिए।

2

आप मशीन सीखने में लेटेंट ड्रिचलेट आवंटन (एलडीए) मॉडल पर भी एक नज़र डाल सकते हैं। विचार है कि प्रत्येक दस्तावेज़ (या पैराग्राफ) का निम्न-आयामी प्रतिनिधित्व, बस कुछ 'विषयों' पर वितरण के रूप में होता है। मॉडल को दस्तावेजों/अनुच्छेदों के संग्रह का उपयोग करके एक असुरक्षित फैशन में प्रशिक्षित किया जाता है।

यदि आप अपने अनुच्छेदों के संग्रह पर एलडीए चलाते हैं, तो छुपे हुए विषयों वेक्टर की समानता को देखते हुए, आप पाते हैं कि दिए गए दो पैराग्राफ संबंधित हैं या नहीं।

बेशक, आधार रेखा एलडीए का उपयोग नहीं करना है, और इसके बजाय समानता (वेक्टर स्पेस मॉडल) को मापने के लिए शब्द आवृत्तियों (टीएफ/आईडीएफ के साथ संवर्धित) का उपयोग करना है।

संबंधित मुद्दे