2014-06-13 6 views
8

पृष्ठभूमितकनीक संकुल डेटा अंधेरा करना और आर

मैं कुछ निजी सर्वेक्षण डेटा कि गोपनीय सूचना के एक कॉलम होता है में गोपनीयता की रक्षा करने के लिए: सर्वेक्षण उत्तरदाताओं का भौगोलिक स्थिति। किसी भी परिस्थिति में यह जानकारी जारी नहीं की जा सकती है।

के रूप में सर्वेक्षण अनुसंधान के क्षेत्र में आम है, उपयोगकर्ताओं को सही ढंग से मेरी सर्वेक्षण डेटा सेट पर एक विचरण की गणना करने के लिए में, उन उपयोगकर्ताओं या तो आवश्यकता होगी कि भौगोलिक स्थान (अस्वीकार्य) या वैकल्पिक रूप replicate weights का एक सेट। मैं प्रतिलिपि वजन के उस सेट को बना सकता हूं; हालांकि, उन वजनों और बैक-गणना के बीच सहसंबंधों को देखना बहुत आसान है, सर्वेक्षण सर्वेक्षणकर्ताओं में से कौन सा भौगोलिक स्थान साझा करता है। यह भी अस्वीकार्य है।

इस प्रश्न के साथ मेरी सहायता करने के लिए, आपको replicate weights से परिचित होने की आवश्यकता नहीं है - बस उन्हें दृढ़ता से संबंधित क्लस्टर डेटा के कुछ कॉलम के रूप में सोचें।

मैं समझता हूं कि अगर मैं उस क्लस्टरिंग को बनाए रखना चाहता हूं, तो एक बुरा डेटा उपयोगकर्ता हमेशा भौगोलिक स्थानों को साझा करने वाले अर्ध-सभ्य अनुमान लगाएगा; मैं बस उस अनुमान लगाने खेल को कम सटीक बनाना चाहता हूं। गैर-obfuscated प्रतिकृति वजन पर, एक बुरा डेटा उपयोगकर्ता 100% मामलों का पता लगा सकते हैं।

अनुरोध

मैं एक तकनीक है कि

  • आसानी से अपने को दोहराने वजन चर
  • करता है के बीच परस्पर संबंध के बंद साझा भौगोलिक स्थिति बात का अनुमान लगाना से सार्वजनिक उपयोग फ़ाइल उपयोगकर्ताओं को रोकता रहा हूँ डेटा के मेरे कॉलम (प्रतिलिपि वजन चर) के बीच सहसंबंध को समाप्त न करें
  • आरपर लागू किया जा सकता है क्योंकि जहां स्थान है बुराई उपयोगकर्ता पता नहीं हो सकता है एक प्रमुख समय निवेश

मैं कहना के बिना 10 वस्तु साझा है, लेकिन वे अगर दो सर्वेक्षण उत्तरदाताओं एक ही स्थान से कर रहे हैं पता हो सकता है - एक अस्वीकार्य संभावना।

क्या मैं

मैं नहीं है वास्तव में पहिया यहां पुन: आविष्कार करने के लिए चाहते हैं की कोशिश की है। मैं आर सिंटैक्स, एक आर पैकेज, या कुछ भी तलाश रहा हूं जो कार्यान्वित करने के लिए अपेक्षाकृत सरल होगा। मुझे one, two, three, four उन तकनीकों का वर्णन करने वाले कागजात मिले हैं जो सभी मेरे उद्देश्यों के लिए उपयुक्त होंगे; दुर्भाग्य से, लेखकों में से कोई भी उन्हें लागू करने के लिए वास्तविक कोड साझा करने के इच्छुक नहीं है।

मैं सामान्य वितरण के अनुसार अपने प्रतिलिपि वजन कॉलम में यादृच्छिक मूल्यों को जोड़ने और घटाने जैसी सरल चीजें कर सकता हूं, लेकिन मैं किसी ऐसे व्यक्ति के काम पर भरोसा करना पसंद करता हूं जो गोपनीयता मुद्दों को मेरे से बेहतर समझता है।

धन्यवाद !!!!

+1

'sdcMicro' पैकेज में देखने का प्रयास – James

+1

आप नहीं कर सकते। एक से अधिक डेटा वैज्ञानिक/सॉफ्टवेयर गुरु ने दिखाया है कि कथित रूप से अज्ञात बड़े डेटा क्लंप से व्यक्तिगत पहचान निकालना आसान है। आपकी पसंद या तो, जैसा कि आपने नोट किया है, किसी के लिए जिओडाटा का पुनर्निर्माण करने या पूरी तरह से जिओडाटा को हटाने और किसी अन्य कारक के आधार पर अपना विश्लेषण करने के लिए पथ छोड़ने के लिए। –

+3

यूनाइटेड स्टेट्स जनगणना ब्यूरो नियमित रूप से करता है जो मैं अपने सख्त गोपनीयता नियमों के बावजूद करता हूं। आइए बार को कम करें और कहें, "यदि यह जनगणना के लिए पर्याप्त है, तो यह मेरे लिए काफी अच्छा है।" मैं इस प्रकार एक नया शब्द परिभाषित कर रहा हूं: डब्ल्यूडब्ल्यूसीडी? धन्यवाद –

उत्तर

2

मैंने अपने स्वयं के प्रश्न का उत्तर देने के प्रयास में प्रक्रिया के माध्यम से चलने के लिए यह नौ-चरण ट्यूटोरियल लिखा है। मैं गोपनीयता/गोपनीयता के क्षेत्र में एक विशेषज्ञ नहीं हूं और इस विचार और अन्य विचारों के बारे में दोनों प्रतिक्रियाओं को सुनना पसंद करूंगा। धन्यवाद!

http://www.asdfree.com/2014/09/how-to-provide-variance-calculation-on.html

संबंधित मुद्दे