2012-06-29 21 views
20

मैं अपनी परियोजना के लिए Google 2-ग्राम का उपयोग करना चाहता हूं; लेकिन डेटा आकार गति और भंडारण दोनों के मामले में महंगा खोज प्रदान करता है।
क्या इस उद्देश्य के लिए कोई वेब-एपीआई उपलब्ध है (किसी भी भाषा में)? वेबसाइट http://books.google.com/ngrams/graph एक छवि प्रस्तुत करता है, क्या मुझे डेटा मान मिल सकते हैं?Google एन-ग्राम वेब एपीआई

उत्तर

13

ठीक है, मुझे Google BigQuery
का उपयोग करके, ऐसा करने के तरीके के बारे में एक गोल मिला, उसमें, ट्रिग्राम सार्वजनिक डोमेन में उपलब्ध हैं। Command line access का उपयोग करके मेरे लिए काम किया। माइक्रोसॉफ्ट वेब एन-ग्राम

यह REST interface के माध्यम से एक straighforward प्राप्त कॉल सहित विभिन्न तरीकों से पूछे जा सकता है:

+0

आप ngram डेटा तक कैसे पहुंचे? मैं इसे नमूना डेटासेट में नहीं देख सका! – metdos

+12

खुला https://bigquery.cloud.google.com/?pli=1, (और नियम और शर्तों को स्वीकार करें और जो अभी तक नहीं किया गया है और लिंक को वापस खोलें), फिर बाईं तरफ पैनल में, "ट्रिग्राम" चुनें "पब्लिकडाटा" के तहत: नमूने " – Five

+1

एक और विकल्प एक वेब सेवा है जिसे [फ्रेशफिंडर] (http://phrasefinder.io) –

8

मैं एक महान विकल्प मिल गया। उदाहरण के लिए, यूआरएल बुला:

http://weblm.research.microsoft.com/weblm/rest.svc/bing-body/apr10/1/jp?u={YOUR_TOKEN}&p=red+panda 

रिटर्न

-9.005 

जो वाक्यांश red panda का लॉग संभावना है।

इसके अलावा, यह Google एन-ग्राम्स की तुलना में आसान है, क्योंकि किसी दिए गए वाक्यांश के लिए यह केवल अपनी पूर्ण आवृत्ति को आउटपुट नहीं करता है, लेकिन यह इसकी संयुक्त संभावना, सशर्त संभावना और यहां तक ​​कि सबसे अधिक संभावित शब्दों का भी पालन कर सकता है।

अस्वीकरण: मैं एक माइक्रोसॉफ्ट कर्मचारी नहीं हूं, मुझे लगता है कि मुझे बस एक शानदार सेवा मिली है।

+0

कहा जाता है मैंने अभी एमएस से एपीआई कुंजी का अनुरोध किया है। पंजीकरण करने की पेशकश की जाने वाली एकमात्र तंत्र एक ईमेल भेजकर है। मुझे लगता है कि माइक्रोसॉफ्ट सेवा के लिए कोई स्वचालित पंजीकरण नहीं है। – knb

+0

यह सच है। मैंने यह भी पाया कि एक अजीब पसंद है। – Alphaaa

+0

हम्म। web-ngram.research.microsoft.com ने जवाब देने में बहुत लंबा समय लगाया। –

संबंधित मुद्दे