मैं पाइथन में एक क्रॉस-टैबलेशन लाइब्रेरी को अपने नए काम के लिए प्रोग्रामिंग अभ्यास के रूप में कार्यान्वित कर रहा हूं, और मुझे काम करता है लेकिन यह सुरुचिपूर्ण और अनावश्यक है। मैं इसके लिए एक बेहतर मॉडल चाहता हूं, कुछ ऐसा जो बेस मॉडल के बीच डेटा के एक अच्छे, स्वच्छ आवागमन की अनुमति देता है, फ्लैट फाइलों में टैब्यूलर डेटा के रूप में संग्रहीत किया जाता है, और इसके सभी सांख्यिकीय विश्लेषण परिणामों से पूछा जा सकता है।क्रॉस-टैबलेशन के लिए एक अच्छा डेटा मॉडल क्या है?
अभी, मेरे पास तालिका में प्रत्येक पंक्ति के लिए टुपल्स के सेट से एक प्रगति है, एक हिस्टोग्राम में, ब्याज के tuples की उपस्थिति की आवृत्तियों की गिनती, एक serializer करने के लिए - कुछ हद तक बेकार - compiles प्रदर्शन के लिए टेबल कोशिकाओं के एक सेट में आउटपुट। हालांकि, मैं तालिका में या हिस्टोग्राम में जितनी बार चाहूं उतनी बार वापस जाना चाहता हूं क्योंकि वहां पर्याप्त जानकारी नहीं है।
तो, कोई विचार?
संपादित करें: यहां कुछ डेटा का एक उदाहरण दिया गया है, और मैं से इसे बनाने में सक्षम होना चाहता हूं। ध्यान दें कि "।" कुछ 'गायब' डेटा को इंगित करता है, जो केवल सशर्त रूप से गिना जाता है।
1 . 1
1 0 3
1 0 3
1 2 3
2 . 1
2 0 .
2 2 2
2 2 4
2 2 .
अगर मैं कॉलम 0 और इसके बाद के संस्करण 2 के बीच संबंध पर देख रहे थे, इस तालिका है मैं होगा:
. 1 2 3 4
1 0 1 0 3 0
2 2 1 1 0 1
इसके अलावा, मैं अनुपात की गणना करने में सक्षम होना चाहते हैं आवृत्ति/कुल, आवृत्ति/subtotal, & सी।
यह मेरे लिए बहुत स्पष्ट तुम क्या करने की कोशिश कर रहे हैं क्या नहीं है। क्या आप या तो कुछ डेटा के साथ आवश्यकताओं का वर्णन कर सकते हैं या उदाहरण दे सकते हैं और उन परिवर्तनों को दिखा सकते हैं जिन्हें आप करना चाहते हैं? –
इस उदाहरण में आप कॉलम प्रमुख क्रम में इसे लिखना बेहतर होगा। – jonnii
जॉनी, मैं एक सांख्यिकीविद् ज्यादा नहीं हूं; क्या आप इसका स्पष्टीकरण दे सकते हैं कि इसका मतलब क्या है? –