2008-12-04 11 views
7

इस हफ्ते स्टैक ओवरफ्लो पॉडकास्ट पर, जेफ ने उल्लेख किया कि 2004 में उन्होंने एक स्क्रिप्ट लिखी जिसने 110,000 अंग्रेजी शब्दों के साथ Google से पूछताछ की और प्रत्येक शब्द के लिए हिट की संख्या वाले डेटाबेस को एकत्रित किया। वे इसे स्टैक ओवरफ्लो पर उपयोग करते हैं उदा। प्रत्येक प्रश्न पृष्ठ के दाईं ओर "संबंधित" सूची के लिए।Google शब्द आवृत्तियों का मुफ्त डेटाबेस?

चूंकि आज इनमें से एक को एक समान लिपि के साथ बनाना मुश्किल होगा (जैसा कि जोएल ने उल्लेख किया है, "30,000 शब्दों में आपको अपने दरवाजे पर दस्तक मिलती है"), मैं सोच रहा था कि क्या कोई और अद्यतित है , Google शब्द आवृत्तियों का मुफ्त डेटाबेस (उदाहरण के लिए आईटी शब्दों के लिए जो निश्चित रूप से तब से बदल गए हैं जैसे jquery, ruby, azure, आदि)।

+0

प्रासंगिक पॉडकास्ट का एक लिंक दिलचस्प होगा। – hippietrail

उत्तर

4

एक त्वरित Google खोज (!) कुछ हिट बदल जाती है। यह link आशाजनक लग रहा है:

लेकिन यह आईटी शब्दों पर लक्षित नहीं है।

0

आप अपने दोस्तों/कॉलेग्यूज़ के बीच एक सूची विभाजित कर सकते हैं और पर्याप्त बड़े टाइमआउट का उपयोग कर सकते हैं ताकि आप प्रत्येक आईपी प्रति दिन 50,000 से अधिक अनुरोध न करें और फिर परिणामों को विलय कर सकें। मुझे इस दृष्टिकोण की वैधता के बारे में निश्चित नहीं है, लेकिन इस विधि का उपयोग करके Google लोगों को "आपके दरवाजे पर दस्तक देने" की संभावना बहुत कम है।

नोट: Skuta

1

द्वारा प्रदान की गूगल के अनुसार, आप एक आईपी प्रति दिन प्रति 50,000 प्रश्नों भेज सकते हैं आंकड़ों के अनुसार संपादित। मुझे सच में नहीं लगता कि इसे अपने दोस्तों के बीच विभाजित करना अवैध है ..

मुझे प्रति दिन प्रति आईपी पूछताछ के साथ समान समस्या थी, लेकिन हमने इसे पूरी तरह से अलग दृष्टिकोण से हल किया।

+0

क्या आप इस "अलग" दृष्टिकोण को साझा करना चाहते हैं? –

2

शायद इसका उत्तर देने में देर हो चुकी है लेकिन मैं आपको अलग-अलग तरीके से प्रस्तावित कर सकता हूं। अपने द्वारा कुछ अनुमानों की गणना करने के लिए Google से "हिट की संख्या" प्राप्त करने के बजाय। टेक्स्ट पेजों (कॉर्पस) का बड़ा संग्रह प्राप्त करें और इसमें प्रत्येक शब्द की संख्या गिनें। मैंने इसे विकिपीडिया के साथ किया है। सभी विकी पृष्ठों का एक डंप है। आपको पाठ निकालने और शब्दों की गिनती करने के लिए बस एक पार्सर लिखना होगा। परिणाम 110K शब्दों (कम से कम 2 एम -3 एम) की एक सूची है। यदि आपको वास्तव में Google खोज परिणाम में संख्याओं की आवश्यकता है तो आप शब्दों का कुछ नमूना प्राप्त कर सकते हैं और Google से पूछ सकते हैं और फिर Google मानों से मेल खाने के लिए गणना मूल्यों का कुछ सामान्यीकरण कर सकते हैं। मुझे उम्मीद है कि यह मदद करता है।

संबंधित मुद्दे