2008-08-15 22 views
12

मैं हमेशा विभिन्न प्रकार के कार्यक्रमों का परीक्षण करने के लिए बड़े डेटा सेट की तलाश में हूं। क्या किसी के पास कोई सुझाव है?बड़े डेटा सेट

उत्तर

10

netflix contest देखें। मेरा मानना ​​है कि उन्होंने प्रतियोगिता को सुविधाजनक बनाने के लिए अपने डेटाबेस, या एक बड़े सबसेट का खुलासा किया।

अद्यतन: Their faq का कहना है कि आपके द्वारा डाउनलोड किए जा सकने वाले सबसेट में 100 मिलियन प्रविष्टियां हैं।

1

आप Fuzz Testing के लिए यादृच्छिक डेटा उत्पन्न करना चाहते हैं। इससे आपको टेस्ट डेटा की असीमित मात्रा मिल जाएगी, और आप किनारे के मामलों को हिट करने की अधिक संभावना रखते हैं।

शायद आप किस प्रकार का टेस्ट डेटा चाहते हैं, किस प्रारूप और किस प्रकार के अनुप्रयोगों के बारे में कुछ और जानकारी हो सकती है?

1

मुझे नहीं पता कि आपका लक्ष्य प्लेटफ़ॉर्म क्या है, लेकिन यदि आप किसी MSSQL डेटाबेस के विरुद्ध विकास कर रहे हैं तो Visual Studio for Database Professionals देखें। इसमें एक बहुत ही अच्छी सुविधा है जहां यह एक डेटा प्लान का उपयोग करके आपकी स्कीमा के लिए डेटा जेनरेट कर सकता है जिसे आप परिभाषित कर सकते हैं।

रेडगेट में एक डाटाबेसेशन टूल भी है, लेकिन मैंने इसका उपयोग नहीं किया है।

लाभ यह है कि आप डेटा जनरेशन योजना बना सकते हैं और अपने डेटाबेस को लगातार, बड़ी मात्रा में डेटा के साथ पॉप्युलेट करने के लिए इसका उपयोग कर सकते हैं जिसे आपकी स्कीमा के विशिष्ट क्षेत्रों का परीक्षण करने के लिए ट्यून किया जा सकता है।

1

आप हारून स्वर्टज़ द्वारा theinfo को भी देखना चाहेंगे। स्क्रेपर्स और क्रॉलर्स जो उन्हें एकत्रित करते हैं, शिक्षाविदों और विशेषज्ञों जो उन्हें संसाधित करते हैं, डिजाइनरों:

साइट

इस से बड़े डेटा सेट और लोग हैं, जो उन्हें प्यार के लिए एक साइट है और कलाकार जो उन्हें कल्पना करते हैं। यह एक जगह है जहां वे युक्तियों और चालों का आदान-प्रदान कर सकते हैं, एक साथ उपकरण विकसित और साझा करते हैं, और अपनी विशेष परियोजनाओं को एकीकृत करना शुरू करते हैं।

2

मैंने Wikimedia डाउनलोड सेट के साथ कुछ काम किया है, जो विशाल एक्सएमएल फाइलें हैं। दुर्भाग्यवश, उनके डाउनलोड सर्वर में वर्तमान में डिस्क स्पेस समस्याएं प्रतीत होती हैं, इसलिए कई डेटा सेट उपलब्ध नहीं हैं। लेकिन जब यह उपलब्ध हो, तो पूरे इतिहास के साथ सेट किया गया संपूर्ण अंग्रेजी विकिपीडिया डेटा 2.8 टीबी (18 जीबी संपीड़ित) है।

5

आप अमेरिकी सांख्यिकी एसोसिएशन data expo के लिए डेटा देखना चाहते हैं - यह पिछले 20 वर्षों से 120 मिलियन रिकॉर्ड, 11 गीगा डेटा के लिए अमेरिका में सभी वाणिज्यिक उड़ानों के लिए उड़ान विवरण है।

2

del.icio.us उपयोगकर्ता (स्वयं सहित) टैग पेज जिनमें "publicdata" टैग का उपयोग करके सार्वजनिक डेटा शामिल है। आप उस संग्रह here को संग्रहीत कर सकते हैं और उस टैग here के लिए एक आरएसएस फ़ीड की सदस्यता ले सकते हैं। फ़ीड की सदस्यता लें और आपको वेब पर पॉप-अप करने वाले रोचक डेटासेट की एक स्थिर स्ट्रीम दिखाई देगी।

उन सभी डेटासेट बड़े नहीं हैं, लेकिन वे अक्सर दिलचस्प होते हैं।

0

यदि आप जो डेटा प्राप्त कर रहे हैं उसे वैयक्तिकृत करने में रुचि रखते हैं, तो Kimono Labs देखें।यह वेब-स्क्रैपिंग सॉफ़्टवेयर है जिसका उपयोग आप किसी भी साइट के बारे में किसी भी साइट पर बिना किसी पंक्ति के लौटने के लिए मुफ्त में स्क्रैप करने के लिए कर सकते हैं। बस उस पर एक एपीआई स्थापित करें (आप एक बार में यूआरएल के गुच्छा को स्क्रैप करने के लिए अपने यूआरएल जनरेटर का उपयोग कर सकते हैं) और फिर अपने व्यक्तिगत डेटासेट को जेएसओएन, सीएसवी, या आरएसएस के रूप में उपयोग करें।

संबंधित मुद्दे