मैं बड़े जैविक डेटासेट के साथ काम कर रहा हूं।सभी कॉलमों के बीच जोड़ी के सहसंबंध की गणना
मैं अपनी डेटा तालिका में सभी 2-कॉलम संयोजनों के पीसीसी (पीयर्सन सहसंबंध गुणांक) की गणना करना चाहता हूं और परिणाम को डेटाफ्रेम या सीएसवी फ़ाइल के रूप में सहेजना चाहता हूं।
डेटा तालिका नीचे की तरह है: कॉलम जीन का नाम हैं, और पंक्तियां डेटासेट का कोड हैं। फ्लोट संख्या का मतलब डेटासेट में जीन सक्रिय है।
GeneA GeneB GeneC ...
DataA 1.5 2.5 3.5 ...
DataB 5.5 6.5 7.5 ...
DataC 8.5 8.5 8.5 ...
...
एक उत्पादन के रूप में, मैं नीचे की तरह तालिका (DataFrame या csv फ़ाइल) का निर्माण करना चाहते हैं, क्योंकि scipy.stats.pearsonr समारोह रिटर्न (पीसीसी, पी-मूल्य)। मेरे उदाहरण में, एक्सएक्स और वाईवाई का अर्थ है पियरसनर ([1.5, 5.5, 8.5], [2.5, 6.5, 8.5]) के परिणाम। इसी तरह, जेडजेड और एए का मतलब पियरसनर ([1.5, 5.5, 8.5], [3.5, 7.5, 8.5] का परिणाम है। मुझे अपने परीक्षण में जीनबी_जीने या जीएनसी_जीनबी जैसे अनावश्यक डेटा की आवश्यकता नहीं है।
PCC P-value
GeneA_GeneB XX YY
GeneA_GeneC ZZ AA
GeneB_GeneC BB CC
...
कॉलम नामों या पंक्ति नामों का उपयोग करके कॉलम और पंक्तियों की संख्या कई (100 से अधिक) हैं और उनके नाम जटिल हैं।
विशेषज्ञों के लिए यह एक साधारण समस्या हो सकती है, मुझे नहीं पता कि इस प्रकार की मेज को पाइथन और पांडा पुस्तकालय से कैसे निपटना है। विशेष रूप से नया डेटाफ्रेम बनाना और परिणाम जोड़ना बहुत मुश्किल लगता है।
मेरी खराब व्याख्या के लिए खेद है, लेकिन मुझे उम्मीद है कि कोई मेरी मदद कर सकता है।
इसका उत्तर यहां दिया गया है: [link] (http://stackoverflow.com/questions/3949226/calculating-pearson-correlation-and-significance-in-python) – Glostas
आपकी टिप्पणी के लिए धन्यवाद। मुझे लगता है कि शीर्षक काफी अच्छा नहीं था। मैं क्या जानना चाहता हूं कि पीसीसी की गणना कैसे करें, लेकिन सभी कॉलम जोड़ी के पीसीसी की गणना करना, और परिणामों को एक नए डेटाफ्रेम के रूप में सहेजें। – z991