2009-09-20 2 views
7

मुझे "बिल", "गॉर्डन", "जेन" इत्यादि जैसे लोगों के लिए आम नामों की एक सूची की आवश्यकता है। क्या मुझे उनको टाइप करने के बजाय कई ज्ञात नामों की कुछ मुफ्त सूची है? उदाहरण के लिए एक सरणी भरने के लिए मैं प्रोग्राम के साथ आसानी से विश्लेषण कर सकता हूं?सादा, कंप्यूटर के पहले नामों की पारदर्शी सूचियां?

मैं चिंतित के बारे में नहीं कर रहा हूँ:

  • यह जानते हुए कि अगर एक नाम मर्दाना या स्त्री (या दोनों)
  • डेटासेट झूठे सकारात्मक की एक पूरी ढेर है, तो
  • वहाँ के नाम कर रहे हैं कि इस पर नहीं हैं, जाहिर है इस तरह कोई डेटासेट पूरा नहीं होगा।
  • यदि 'डुप्लिकेट' हैं, यानी मुझे कोई परवाह नहीं है कि डेटासेट में "बिल" और "विलियम" और "बिली" अलग-अलग नाम हैं। मैं नहीं बल्कि कम से कम
  • मैं लोकप्रियता नाम

जानने के बारे में परवाह नहीं है मुझे पता है Wikipedia एक list of most popular given names है और अधिक डेटा होगा, लेकिन यह एक HTML पृष्ठ में सब है और भयानक विकी वाक्य रचना के साथ manged । स्क्रैप विकिपीडिया को स्क्रीन किए बिना इस तरह के कुछ नमूना डेटा प्राप्त करने का कोई बेहतर तरीका है?

उत्तर

25
  • General Register Office of Scotland से A CSV के साथ सभी forenames भी सीएसवी प्रारूप और SQL प्रारूप में में 2007.

  • Another large set of first names वहाँ पंजीकृत (लेकिन वे यह नहीं कहा जो DB एसक्यूएल फेंक दिया)।

  • GitHub page 1880 से 200 9 तक शीर्ष 1000 बच्चे के नामों के साथ, Social Security Administration से पहले से ही आपके लिए सीएसवी में पार्स किया गया है।

  • CSV of baby names and meanings प्रिंसटन सीएस पृष्ठ से।

यह आपको शुरू करने के लिए पर्याप्त होना चाहिए, मुझे लगता है।

5

आप विशिष्ट श्रेणी में पृष्ठों की सूची पुनर्प्राप्त करने के लिए आसानी से विकिपीडिया एपीआई (http://en.wikipedia.org/w/api.php) का उपभोग कर सकते हैं, जैसे श्रेणी: दिए गए नाम कुछ ऐसा है जो आप शुरू करना चाहते हैं।

http://en.wikipedia.org/w/api.php?action=query&list=categorymembers&cmnamespace=0&cmlimit=500&cmtitle=Category:Given_names 

इस URL से परिणाम का हिस्सा इस तरह दिखता है: एपीआई पर

<cm pageid="5797824" ns="0" title="Abdou" /> 
    <cm pageid="5797863" ns="0" title="Abdu" /> 
    <cm pageid="859035" ns="0" title="Abdul Aziz" /> 
    <cm pageid="6504818" ns="0" title="Abdul Qadir" /> 

देखो और उचित प्रारूप और क्वेरी पैरामीटर का चयन करें, और श्रेणियों की जाँच करें।

पीएस बीटीडब्ल्यू, आपके द्वारा लिंक किए गए पृष्ठ से विकी-पाठ में ऐसे रूप में नाम शामिल हैं जो regexp का उपयोग करके निकालने में आसान हैं ... साथ ही साथ प्रस्तुत किए गए HTML पृष्ठ में लिंक के शीर्षक "(नाम)" नाम से जुड़े हुए हैं ।

+0

क्वेरी में * cmlimit * विकल्प अनधिकृत उपयोगकर्ताओं को अधिकतम (500) की अनुमति है, और 5000 आइटम तक बढ़ाया जा सकता है। वैसे भी * cmcontinue * विकल्प का उपयोग करके सभी परिणामों को खंड से पुनर्प्राप्त करने के लिए ... –

6

Social Security Administration - Beyond the Top 1000 Names Data Files

ऊपर अमेरिका में उपयोग में पहला नाम की एक व्यापक सूची है। ज़िप फ़ाइलों में सीएसवी प्रारूप में जन्म के वर्ष तक राष्ट्रीय और राज्य स्तरीय डेटा होता है। इसमें घटनाओं की संख्या (न्यूनतम 5) और लिंग शामिल है।उदाहरण के लिए, 2010 के लिए राष्ट्रीय फ़ाइल में 33,838 बच्चे के नाम शामिल हैं।

संबंधित मुद्दे