6

मुझे एक दिलचस्प समस्या पर कुछ इनपुट चाहिए जो मुझे सौंपा गया है। कार्य गोपनीयता नीतियों के सैकड़ों, और अंततः हजारों का विश्लेषण करना और उनमें से मूल विशेषताओं की पहचान करना है। उदाहरण के लिए, क्या वे उपयोगकर्ता का स्थान लेते हैं ?, क्या वे तीसरे पक्ष के साथ साझा/बेचते हैं ?, आदिदिलचस्प एनएलपी/मशीन-लर्निंग स्टाइल प्रोजेक्ट - गोपनीयता नीतियों का विश्लेषण

मैंने कुछ लोगों से बात की है, गोपनीयता नीतियों के बारे में बहुत कुछ पढ़ा है, और इस बारे में सोचा है। यहां हमले की मेरी वर्तमान योजना है:

सबसे पहले, बहुत सारी गोपनीयता पढ़ें और प्रमुख "संकेत" या संकेतक खोजें जो एक निश्चित विशेषता से मुलाकात की जाती हैं। उदाहरण के लिए, यदि सैकड़ों गोपनीयता नीतियों में एक ही पंक्ति है: "हम आपका स्थान लेंगे।", यह पंक्ति 100% आत्मविश्वास के साथ एक क्यू हो सकती है कि उस गोपनीयता नीति में उपयोगकर्ता के स्थान को शामिल करना शामिल है। अन्य संकेत एक निश्चित विशेषता के बारे में आत्मविश्वास की बहुत छोटी डिग्री देंगे .. उदाहरण के लिए, "स्थान" शब्द की उपस्थिति से उपयोगकर्ता की स्थिति 25% तक की संभावना बढ़ सकती है।

विचार इन संकेतों को विकसित करना होगा, और उनके उचित आत्मविश्वास अंतराल पर उस बिंदु पर जहां मैं उच्च गोपनीयता वाले सभी गोपनीयता नीतियों को वर्गीकृत कर सकता हूं। यहां एक समानता ईमेल-स्पैम पकड़ने वाली प्रणालियों के लिए बनाई जा सकती है जो बेयसियन फ़िल्टर का उपयोग यह पहचानने के लिए करते हैं कि कौन सा मेल वाणिज्यिक और अनचाहे हो सकता है।

मैं पूछना चाहता था कि क्या आप सोचते हैं कि यह इस समस्या का एक अच्छा दृष्टिकोण है। आप इस तरह की समस्या से कैसे संपर्क करेंगे? इसके अलावा, क्या कोई विशिष्ट उपकरण या ढांचे हैं जिनका उपयोग आप अनुशंसा करते हैं। कोई इनपुट स्वागत है। यह मेरी पहली बार एक परियोजना कर रही है जो कृत्रिम बुद्धि, विशेष रूप से मशीन लर्निंग और एनएलपी पर छूती है।

+0

समस्या वास्तव में दस्तावेज़ वर्गीकरण नहीं है। आप प्रत्येक दस्तावेज़ को टुकड़ों में विभाजित करना चाहते हैं, फिर प्रत्येक खंड को लेबल/वर्गीकृत/सारांशित करना चाहते हैं। एक निष्पक्ष दृष्टिकोण प्रत्येक पैराग्राफ या व्याकरण वाक्य को एक खंड के रूप में देख सकता है, लेकिन यह बहुत कच्चा हो सकता है। – tripleee

+0

हालांकि कुछ पैराग्राफ वास्तव में एक विशिष्ट उपयोगकर्ता की गोपनीयता के लिए मुख्य हैं। मुझे "हॉट-बटन" मुद्दों में दिलचस्पी है, जैसे स्थान पकड़ना, तीसरे पक्षों को बेचना आदि। मानक बॉयलरप्लेट अप्रासंगिक है। – babonk

+0

उन बिंदुओं में से एक जो मैंने करने की कोशिश की है, यह है कि इस तरह की प्रणाली के लिए यह एक गंभीर त्रुटि होगी क्योंकि "मुझे पता है कि यह क्या है, और मैं इसे अनदेखा कर सकता हूं" और "मुझे नहीं पता कि यह क्या है है"। इसलिए मुझे लगता है कि वास्तव में आपको "मानक बॉयलरप्लेट" कहने की आवश्यकता है। यदि वास्तव में यह मानक और बॉयलरप्लेट है, तो यह मुख्य कार्य की तुलना में आसान होना चाहिए। – tripleee

उत्तर

4

विचार इन संकेतों को विकसित करना होगा, और उनके उचित आत्मविश्वास अंतराल पर होगा जहां मैं उच्च गोपनीयता वाले सभी गोपनीयता नीतियों को वर्गीकृत कर सकता हूं। यहां एक समानता ईमेल-स्पैम पकड़ने वाली प्रणालियों के लिए बनाई जा सकती है जो बेयसियन फ़िल्टर का उपयोग यह पहचानने के लिए करते हैं कि कौन सा मेल वाणिज्यिक और अनचाहे हो सकता है।

यह text classification है। यह देखते हुए कि आपके पास प्रति दस्तावेज़ एकाधिक आउटपुट श्रेणियां हैं, यह वास्तव में multilabel classification है। मानक दृष्टिकोण manually label उन वर्गों/लेबलों के साथ दस्तावेज़ों का एक सेट है, जिन्हें आप भविष्यवाणी करना चाहते हैं, फिर दस्तावेज़ों की विशेषताओं पर वर्गीकरण को प्रशिक्षित करें; आम तौर पर शब्द या एन-ग्राम घटनाएं या गणना, संभवतः टीएफ-आईडीएफ द्वारा भारित।

दस्तावेज़ वर्गीकरण के लिए लोकप्रिय शिक्षण एल्गोरिदम में बेवकूफ बेयस और रैखिक एसवीएम शामिल हैं, हालांकि अन्य वर्गीकृत शिक्षार्थियों भी काम कर सकते हैं। किसी भी वर्गीकरण को one-vs.-rest (ओवीआर) निर्माण द्वारा एक मल्टीलाबेल में बढ़ाया जा सकता है।

2

वास्तव में एक बहुत ही रोचक समस्या है!

उच्च स्तर पर, आप क्या चाहते हैं summarization - एक दस्तावेज़ को कुछ प्रमुख वाक्यांशों में कम किया जाना चाहिए। यह एक हल समस्या से दूर है। मुख्य वाक्यांशों के विपरीत कीवर्ड की खोज करना एक आसान तरीका होगा। विषय मॉडलिंग के लिए आप प्रत्येक दस्तावेज़ के बारे में क्या पता लगाने के लिए एलडीए की तरह कुछ कोशिश कर सकते हैं। फिर आप सभी दस्तावेजों में मौजूद विषयों की खोज कर सकते हैं- मुझे संदेह है कि लाइसेंस, स्थान, कॉपीराइट इत्यादि के साथ क्या करना होगा। MALLET में एलडीए का उपयोग में आसान उपयोग है।

0

मैं इसे मशीन सीखने की समस्या के रूप में संपर्क करूंगा जहां आप कई तरीकों से चीजों को वर्गीकृत करने की कोशिश कर रहे हैं- यानी स्थान चाहता है, एसएसएन चाहता है आदि।

आपको उन विशेषताओं को गिनने की आवश्यकता होगी जिन्हें आप उपयोग करना चाहते हैं (स्थान, एसएसएन), और फिर प्रत्येक दस्तावेज़ के लिए यह कहें कि वह दस्तावेज़ उस जानकारी का उपयोग करता है या नहीं। अपनी विशेषताओं का चयन करें, अपने डेटा को प्रशिक्षित करें और फिर वर्गीकृत करें और परीक्षण करें।

मुझे लगता है कि शब्दों और एन-ग्राम जैसी सरल सुविधाएं शायद आपकी सुंदरता प्राप्त करेंगी, और एसएसएन या स्थान जैसी सामग्री से संबंधित शब्दों का एक शब्दकोश इसे अच्छी तरह खत्म कर देगा।

अपनी पसंद के मशीन लर्निंग एल्गोरिदम का उपयोग करें- बेवकूफ बेयस लागू करने और उपयोग करने में बहुत आसान है और समस्या पर पहले स्टैब के रूप में ठीक काम करेगा।

संबंधित मुद्दे