डेटाफ्रेम को देखते हुए, मैं डुप्लीकेट इंडेक्स प्राप्त करना चाहता हूं, जिसमें कॉलम में डुप्लिकेट मान नहीं हैं, और देखें कि कौन से मान अलग हैं।पांडा: डुप्लीकेट इंडेक्स प्राप्त करें
विशेष रूप से, मैं इस dataframe है:
import pandas as pd
wget https://www.dropbox.com/s/vmimze2g4lt4ud3/alt_exon_repeatmasker_intersect.bed
alt_exon_repeatmasker = pd.read_table('alt_exon_repeatmasker_intersect.bed', header=None, index_col=3)
In [74]: alt_exon_repeatmasker.index.is_unique
Out[74]: False
और अनुक्रमित के कुछ 9 स्तंभ (इस स्थान में डीएनए दोहराव तत्व के प्रकार) में डुप्लिकेट मानों है, और मुझे पता है कि कर रहे हैं चाहते हैं अलग-अलग स्थानों के लिए दोहराए जाने वाले तत्वों के विभिन्न प्रकार (प्रत्येक अनुक्रमणिका = एक जीनोम स्थान)।
मुझे लगता है कि इसे किसी प्रकार की groupby
की आवश्यकता होगी और उम्मीद है कि कुछ groupby
निंजा मेरी मदद कर सकता है।
आगे भी आसान बनाने के लिए, अगर हम केवल सूचकांक और दोहराने प्रकार है,
genome_location1 MIR3
genome_location1 AluJb
genome_location2 Tigger1
genome_location3 AT_rich
तो उत्पादन मैंने सभी डुप्लिकेट अनुक्रमित और उनके दोहराने प्रकार देखने के लिए, इस तरह के रूप चाहते हैं:
genome_location1 MIR3
genome_location1 AluJb
संपादित करें: जोड़ा खिलौना उदाहरण
हाय, आम तौर पर यह जितना संभव हो उतना सवाल को आसान बनाने और इनपुट और वांछित उत्पादन के साथ खिलौना उदाहरण बनाने के लिए अच्छी आदत है। इस तरह के एक प्रश्न का उत्तर बहुत तेज है और भविष्य के पाठकों के लिए उपयोगी होगा। –