2011-01-02 8 views
13

मैं एक खोज इंजन (अध्ययन के लिए) बना रहा हूं और मैं जानना चाहता हूं कि कैसे Google वयस्क सामग्री और छवियों को Safesearch (http://en.wikipedia.org/wiki/Safesearch) से पहचानता है।Google वयस्क सामग्री को सुरक्षित खोज के साथ कैसे पहचानता है?

प्रोग्राम भाषा कोई फर्क नहीं पड़ता, मैं केवल एक सामान्य प्रोग्राम भाषा के लिए दृष्टिकोण जानना चाहता हूं।

+0

कौन भी स्थानीय होने के लिए इस बंद करने के लिए मतदान कर रहा है? यह भी स्थानीयकृत कैसे है? – marcog

+0

यदि भाषा कोई फर्क नहीं पड़ता है, तो आपने इसे दो भाषा टैग के साथ क्यों टैग किया है? – sbi

+0

@ एसबीआई: * शायद * ये उनकी पसंदीदा भाषाएं हैं। मैं उन्हें फिर से टैग होगा, लेकिन मैं उसकी कार्रवाई के लिए इंतजार कर पसंद करते हैं;) –

उत्तर

14

तो सामग्री फ़िल्टर किसी भी प्रकार के लिए नियमों को फिल्टर के माध्यम से उस सामग्री को प्राप्त करने की कोशिश लोगों के हाथों में चला गया, फिल्टर अप्रभावी हो जाएगा।

तो मुझे कल्पना है कि Google के नियम (1) सार्वजनिक रूप से उपलब्ध नहीं हैं और (2) अक्सर बदलते हैं।

कहा कि, वयस्क साइटों की एक छोटी काली सूची के साथ शुरू और निम्न जावक लिंक (और/या काली सूची में डाल साइटों के लिंक के साथ साइटों की खोज) शायद वयस्क साइटों की एक बड़ी संख्या पाता है। लेकिन किसी भी तरह से, आप कुछ प्रकार के पाठ प्रसंस्करण और छवि पहचान एल्गोरिदम चाहते हैं।

नोट: एक लोकप्रिय सिद्धांत यह है कि वयस्क सामग्री प्रदाता लोगों को stackoverflow.com पर प्रश्न पूछने के लिए भुगतान करते हैं ताकि जॉन स्कीट और मार्क ग्रेवेल के पास सुरक्षित खोज फ़िल्टर अपडेट करने में कम समय लगे। हालांकि, यह आसानी से दिखाया गया है कि जॉन और मार्क इस तरह की उच्च दर पर सवालों का जवाब देते हैं कि ऐसी कोई भी रणनीति आर्थिक रूप से व्यवहार्य नहीं होगी।

+2

** अगला प्रश्न: ** स्टोन ओवरफ्लो प्रश्नों को उत्पन्न करने में कौन सा एल्गोरिदम उपयोगी साबित हुआ है जो जॉन स्कीट और मार्क ग्रेवल का उत्तर देगा? – Xeoncross

+1

@Xeoncross: उनके प्रोफाइल पेज दिखाते हैं कि टैग 'C# ',' .net', 'java', और' linq' में से एक को लागू करने की संभावना है। इनमें से एक से अधिक टैग का उपयोग करने से भी बेहतर परिणाम मिल सकते हैं, या आपके कंप्यूटर को हैक किया जा सकता है और Google borg क्लाउड में शामिल किया जा सकता है। अपने जोखिम पार इस्तेमाल करें। –

2

मैं शर्त लगाता हूं कि यह बहुत जटिल है।

शायद पाठ के साथ वे n या n% वयस्क संबंधित शब्दों से अधिक पृष्ठों को फ़िल्टर करते हैं।

और छवियों के साथ, हो सकता है वे फ़ाइल नाम और पेज प्रत्येक छवि मिला था पर आसपास के पाठ को देखें, और यह फ़िल्टर कर वयस्क शब्दों से भरा हुआ है। वे वास्तव में मांस टोन और नग्न लोगों की तलाश में छवियों को स्कैन भी कर सकते थे।

3

बेन का उत्तर सभी बिंदुओं के बारे में सही है, लेकिन मैं अपने विचार जोड़ना चाहता हूं।

छवि मान्यता के बारे में: आप नग्न स्तनों, penises और उनमें से इस तरह के अंदर पैटर्न मान्यता का उपयोग कर की तरह वस्तुओं की पहचान करने, बहुत आसान मिलेगा छवियों के एक बड़े सेट को देखते हुए।

हालांकि, सभी कृत्रिम बुद्धिमान एल्गोरिदम कमजोर बिंदु हैं। आप अनुभव कर सकते हैं कि इस्तेमाल किए गए वर्गीकरण की गुणवत्ता के आधार पर आपकी छवियों का एक निश्चित प्रतिशत गलत वर्गीकृत है।

फिर, आपको छवि प्रसंस्करण की तुलना में अन्य मानदंडों को लागू करना होगा। निश्चित रूप से Google के मानदंड सार्वजनिक नहीं हैं, लेकिन आप वयस्क सामग्री, टेक्स्ट प्रोसेसिंग और क्रॉस-डोमेन लिंक के रूप में कुछ सामग्री को क्रमशः चिह्नित करने के लिए आईसीआरए टैग पर विचार करना चाहते हैं। अगर मैं सफेसर्च का निर्माता था, तो मैंने निम्नलिखित पैटर्न को अपनाया होगा: वयस्क साइटें अक्सर लिंक का आदान-प्रदान करती हैं, इसलिए आपको वयस्क साइटों के समूह के बीच लिंक ग्राफ़ में बहुत से अंतरण मिलेंगे।

यह सब एक साथ रखें, एक अच्छा वर्गीकरण दृष्टिकोण कई छोटे मापदंड का उपयोग करता है, स्कोरिंग उन्हें निर्धारित करने के लिए एक छवि एक वयस्क छवि है या नहीं।

2

संभावित रूप से स्पैम फ़िल्टर करने के तरीके के समान तरीके से।

प्रथम चरण, एक प्रशिक्षण सेट बनाने के लिए जाना जाता वयस्क साइटों पर आधारित है, और उनमें से सुविधाओं को निकालने के लिए है।ये कीवर्ड, छवियों में इस्तेमाल किए जाने वाले रंग, डोमेन नाम संरचना, जोइस विवरण, जो कुछ भी हो सकता है। गैर-वयस्क सामग्री की तुलना में कुछ भी जो वयस्क सामग्री के लिए विशेष रूप से अलग हो सकता है।

अगला कदम है कि करने के लिए सांख्यिकीय मॉडल के कुछ प्रकार लागू करने के लिए है। बेयसियन मॉडल स्पैम के लिए अच्छी तरह से काम करते प्रतीत होते हैं, लेकिन वयस्क सामान के लिए नहीं हो सकता है।

Support vector machines एक अच्छा फिट की तरह लगता है, लेकिन यह है कि एक बहुत अधिक जटिल है और मैं वास्तव में अपने आप से परिचित नहीं हूँ।

संबंधित मुद्दे