दिलचस्प एनएलपी/मशीन-लर्निंग स्टाइल प्रोजेक्ट - गोपनीयता नीतियों का विश्लेषण

मुझे एक दिलचस्प समस्या पर कुछ इनपुट चाहिए जो मुझे सौंपा गया है। कार्य गोपनीयता नीतियों के सैकड़ों, और अंततः हजारों का विश्लेषण करना और उनमें से मूल विशेषताओं की पहचान करना है। उदाहरण के लिए, क्या वे उपयोगकर्ता का स्थान लेते हैं ?, क्या वे तीसरे पक्ष के साथ साझा/बेचते हैं ?, आदिदिलचस्प एनएलपी/मशीन-लर्निंग स्टाइल प्रोजेक्ट - गोपनीयता नीतियों का विश्लेषण

मैंने कुछ लोगों से बात की है, गोपनीयता नीतियों के बारे में बहुत कुछ पढ़ा है, और इस बारे में सोचा है। यहां हमले की मेरी वर्तमान योजना है:

सबसे पहले, बहुत सारी गोपनीयता पढ़ें और प्रमुख "संकेत" या संकेतक खोजें जो एक निश्चित विशेषता से मुलाकात की जाती हैं। उदाहरण के लिए, यदि सैकड़ों गोपनीयता नीतियों में एक ही पंक्ति है: "हम आपका स्थान लेंगे।", यह पंक्ति 100% आत्मविश्वास के साथ एक क्यू हो सकती है कि उस गोपनीयता नीति में उपयोगकर्ता के स्थान को शामिल करना शामिल है। अन्य संकेत एक निश्चित विशेषता के बारे में आत्मविश्वास की बहुत छोटी डिग्री देंगे .. उदाहरण के लिए, "स्थान" शब्द की उपस्थिति से उपयोगकर्ता की स्थिति 25% तक की संभावना बढ़ सकती है।

विचार इन संकेतों को विकसित करना होगा, और उनके उचित आत्मविश्वास अंतराल पर उस बिंदु पर जहां मैं उच्च गोपनीयता वाले सभी गोपनीयता नीतियों को वर्गीकृत कर सकता हूं। यहां एक समानता ईमेल-स्पैम पकड़ने वाली प्रणालियों के लिए बनाई जा सकती है जो बेयसियन फ़िल्टर का उपयोग यह पहचानने के लिए करते हैं कि कौन सा मेल वाणिज्यिक और अनचाहे हो सकता है।

मैं पूछना चाहता था कि क्या आप सोचते हैं कि यह इस समस्या का एक अच्छा दृष्टिकोण है। आप इस तरह की समस्या से कैसे संपर्क करेंगे? इसके अलावा, क्या कोई विशिष्ट उपकरण या ढांचे हैं जिनका उपयोग आप अनुशंसा करते हैं। कोई इनपुट स्वागत है। यह मेरी पहली बार एक परियोजना कर रही है जो कृत्रिम बुद्धि, विशेष रूप से मशीन लर्निंग और एनएलपी पर छूती है।

स्रोत

2012-03-14 babonk

समस्या वास्तव में दस्तावेज़ वर्गीकरण नहीं है। आप प्रत्येक दस्तावेज़ को टुकड़ों में विभाजित करना चाहते हैं, फिर प्रत्येक खंड को लेबल/वर्गीकृत/सारांशित करना चाहते हैं। एक निष्पक्ष दृष्टिकोण प्रत्येक पैराग्राफ या व्याकरण वाक्य को एक खंड के रूप में देख सकता है, लेकिन यह बहुत कच्चा हो सकता है। – tripleee

हालांकि कुछ पैराग्राफ वास्तव में एक विशिष्ट उपयोगकर्ता की गोपनीयता के लिए मुख्य हैं। मुझे "हॉट-बटन" मुद्दों में दिलचस्पी है, जैसे स्थान पकड़ना, तीसरे पक्षों को बेचना आदि। मानक बॉयलरप्लेट अप्रासंगिक है। – babonk

उन बिंदुओं में से एक जो मैंने करने की कोशिश की है, यह है कि इस तरह की प्रणाली के लिए यह एक गंभीर त्रुटि होगी क्योंकि "मुझे पता है कि यह क्या है, और मैं इसे अनदेखा कर सकता हूं" और "मुझे नहीं पता कि यह क्या है है"। इसलिए मुझे लगता है कि वास्तव में आपको "मानक बॉयलरप्लेट" कहने की आवश्यकता है। यदि वास्तव में यह मानक और बॉयलरप्लेट है, तो यह मुख्य कार्य की तुलना में आसान होना चाहिए। – tripleee

विचार इन संकेतों को विकसित करना होगा, और उनके उचित आत्मविश्वास अंतराल पर होगा जहां मैं उच्च गोपनीयता वाले सभी गोपनीयता नीतियों को वर्गीकृत कर सकता हूं। यहां एक समानता ईमेल-स्पैम पकड़ने वाली प्रणालियों के लिए बनाई जा सकती है जो बेयसियन फ़िल्टर का उपयोग यह पहचानने के लिए करते हैं कि कौन सा मेल वाणिज्यिक और अनचाहे हो सकता है।

यह text classification है। यह देखते हुए कि आपके पास प्रति दस्तावेज़ एकाधिक आउटपुट श्रेणियां हैं, यह वास्तव में multilabel classification है। मानक दृष्टिकोण manually label उन वर्गों/लेबलों के साथ दस्तावेज़ों का एक सेट है, जिन्हें आप भविष्यवाणी करना चाहते हैं, फिर दस्तावेज़ों की विशेषताओं पर वर्गीकरण को प्रशिक्षित करें; आम तौर पर शब्द या एन-ग्राम घटनाएं या गणना, संभवतः टीएफ-आईडीएफ द्वारा भारित।

दस्तावेज़ वर्गीकरण के लिए लोकप्रिय शिक्षण एल्गोरिदम में बेवकूफ बेयस और रैखिक एसवीएम शामिल हैं, हालांकि अन्य वर्गीकृत शिक्षार्थियों भी काम कर सकते हैं। किसी भी वर्गीकरण को one-vs.-rest (ओवीआर) निर्माण द्वारा एक मल्टीलाबेल में बढ़ाया जा सकता है।

स्रोत

2012-03-14 21:18:41

वास्तव में एक बहुत ही रोचक समस्या है!

उच्च स्तर पर, आप क्या चाहते हैं summarization - एक दस्तावेज़ को कुछ प्रमुख वाक्यांशों में कम किया जाना चाहिए। यह एक हल समस्या से दूर है। मुख्य वाक्यांशों के विपरीत कीवर्ड की खोज करना एक आसान तरीका होगा। विषय मॉडलिंग के लिए आप प्रत्येक दस्तावेज़ के बारे में क्या पता लगाने के लिए एलडीए की तरह कुछ कोशिश कर सकते हैं। फिर आप सभी दस्तावेजों में मौजूद विषयों की खोज कर सकते हैं- मुझे संदेह है कि लाइसेंस, स्थान, कॉपीराइट इत्यादि के साथ क्या करना होगा। MALLET में एलडीए का उपयोग में आसान उपयोग है।

स्रोत

2012-03-14 20:09:43 mbatchkarov

मैं इसे मशीन सीखने की समस्या के रूप में संपर्क करूंगा जहां आप कई तरीकों से चीजों को वर्गीकृत करने की कोशिश कर रहे हैं- यानी स्थान चाहता है, एसएसएन चाहता है आदि।

आपको उन विशेषताओं को गिनने की आवश्यकता होगी जिन्हें आप उपयोग करना चाहते हैं (स्थान, एसएसएन), और फिर प्रत्येक दस्तावेज़ के लिए यह कहें कि वह दस्तावेज़ उस जानकारी का उपयोग करता है या नहीं। अपनी विशेषताओं का चयन करें, अपने डेटा को प्रशिक्षित करें और फिर वर्गीकृत करें और परीक्षण करें।

मुझे लगता है कि शब्दों और एन-ग्राम जैसी सरल सुविधाएं शायद आपकी सुंदरता प्राप्त करेंगी, और एसएसएन या स्थान जैसी सामग्री से संबंधित शब्दों का एक शब्दकोश इसे अच्छी तरह खत्म कर देगा।

अपनी पसंद के मशीन लर्निंग एल्गोरिदम का उपयोग करें- बेवकूफ बेयस लागू करने और उपयोग करने में बहुत आसान है और समस्या पर पहले स्टैब के रूप में ठीक काम करेगा।

स्रोत

2012-03-15 04:14:33 nflacco

दिलचस्प एनएलपी/मशीन-लर्निंग स्टाइल प्रोजेक्ट - गोपनीयता नीतियों का विश्लेषण

उत्तर

संबंधित मुद्दे