2010-08-02 10 views
24

मैं इस csv फ़ाइल है:आर में एक .csv फ़ाइल कैसे प्राप्त करें?

ID,GRADES,GPA,Teacher,State 

3,"C",2,"Teacher3","MA" 

1,"A",4,"Teacher1","California" 

और मुझे क्या करना आर सांख्यिकीय सॉफ्टवेयर का उपयोग कर फ़ाइल में पढ़ सकते हैं और सूची या सरणी के कुछ प्रकार में हैडर में पढ़ा जाता है चाहता हूँ (मैं करने के लिए नया हूँ आर और यह करने के लिए देख रहे हैं कि यह कैसे करना है, लेकिन अब तक कोई भाग्य नहीं है)।

यहाँ मैं क्या करना चाहते हैं में से कुछ स्यूडोकोड है:

inputfile=read.csv("C:/somedirectory") 

for eachitem in row1:{ 

add eachitem to list 
} 

तब मैं प्रत्येक ऊर्ध्वाधर स्तंभ पर कॉल करने के लिए इतना है कि मैं गणना प्रदर्शन कर सकते हैं उन नामों का उपयोग करने में सक्षम होना चाहता हूँ।

मैं एक घंटे के लिए Google पर scouring रहा है, यह पता लगाने की कोशिश कर रहा है कि यह कैसे है लेकिन शीर्षकों से निपटने पर बहुत कुछ नहीं है।

आपकी मदद के लिए धन्यवाद!

+5

Google को समय बिताते समय खर्च करने के बजाय, आपका समय आर के साथ आने वाले दस्तावेज को पढ़ने में बेहतर होता। विशेष रूप से, ['read.table पर भिन्नता' अनुभाग] (http://cran.r-project.org [doc/manuals/R-data.html#Variations-on-read_002etable) [आर डेटा आयात/निर्यात] में (http://cran.r-project.org/doc/manuals/R-data.html) और/या '? read.csv'। –

उत्तर

36

आप उल्लेख करते हैं कि आप प्रत्येक लंबवत कॉलम पर कॉल करेंगे ताकि आप गणना कर सकते हैं। मुझे लगता है कि आप बस प्रत्येक एकल चर की जांच करना चाहते हैं। यह निम्नलिखित के माध्यम से किया जा सकता है।

df <- read.csv("myRandomFile.csv", header=TRUE) 

df$ID 

df$GRADES 

df$GPA 

डेटा को एक चर के लिए असाइन करने में मददगार हो सकता है।

var3 <- df$GPA 
+0

हां, मैं प्रत्येक चर का उपयोग करना चाहता हूं, हालांकि मुझे हमेशा यह नहीं पता कि वे किस लेबल का उपयोग करते हैं ... मैं वास्तविक नाम की बजाय स्थिति के माध्यम से उनके माध्यम से लूप करने की उम्मीद कर रहा था। – Brian

+1

str (df) आपको डेटा सेट में प्रत्येक चर के लिए वेरिएबल नाम देगा। यदि आप प्रत्येक एकल चर के स्तरों को जानना चाहते हैं, जैसे कि जीपीए, या तो गुण (डीएफ $ var3) या स्तर (डीएफ $ var3) चलाएं – ATMathew

8

आपको read.csv("C:/somedirectory/some/file.csv") की आवश्यकता है और सामान्य रूप से यह नीचे दिए गए उदाहरण अनुभाग सहित सहायता पृष्ठ को देखने में कोई दिक्कत नहीं करता है।

6

जैसा कि डिर्क ने कहा था, आप जिस फ़ंक्शन के बाद हैं वह 'read.csv' है या अन्य read.table रूपों में से एक है। ऊपर अपने नमूना डेटा को देखते हुए, मुझे लगता है कि आप इस तरह से कुछ करना चाहता हूँ होगा:

setwd("c:/random/directory") 

df <- read.csv("myRandomFile.csv", header=TRUE) 

सभी हम ऊपर में किया था जहां अपनी .csv फ़ाइल है निर्देशिका स्थापित किया गया था और फिर एक dataframe में .csv पढ़ नाम डीएफ। आप देख सकते हैं कि डेटा के साथ वस्तु की संरचना की जाँच करके सही ढंग से लोड:

str(df) 

डेटा सही ढंग से लोड मान लिया जाये, तो आप अपने डेटा फ्रेम में डेटा के साथ सांख्यिकीय तरीकों के किसी भी संख्या को करने के लिए पर जाने के बारे में सोच सकते हैं। मुझे लगता है कि summary(df) शुरू करने के लिए एक अच्छी जगह होगी। आर में मदद का उपयोग करना सीखना बेहद उपयोगी होगा, और सीआरएएन पर मदद के माध्यम से एक त्वरित पढ़ने से आपको भविष्य में बहुत समय बचाएगा: http://cran.r-project.org/

3

आप

df <- read.csv("filename.csv", header=TRUE) 

# To loop each column 
for (i in 1:ncol(df)) 
    { 
    dosomething(df[,i]) 
    } 
# To loop each row 
for (i in 1:nrow(df)) 
    { 
    dosomething(df[i,]) 
    } 

भी उपयोग कर सकते हैं, तो आप apply समारोह (प्रकार ?apply या help(apply)) आप प्रत्येक पंक्ति/स्तंभ

पर एक ही समारोह उपयोग करना चाहते हैं के लिए देखने के लिए चाहते हो सकता है
1

इस बाहर की जाँच करें यदि यह आप

dfमें मदद करता है-read.csv ("एफ:/परीक्षण।सीएसवी ", हैडर = FALSE, nrows = 1) df V1 से V2 V3 V4 वी 5 1 आईडी ग्रेड जीपीए शिक्षक राज्य एक < -c (DF) एक [1] $ V1 [1] आईडी स्तर: आईडी

एक [2] $ V2 [1] ग्रेड स्तर: ग्रेड

एक [3] $ वी 3 [1] जीपीए स्तर: जीपीए

एक [4] $ V4 [1] शिक्षक स्तर: शिक्षक

एक [5] $ वी 5 [1] राज्य स्तर: राज्य

0

के बाद से आप कहते हैं कि आप का उपयोग करना चाहते हैं एक बार आपके डेटा को पढ़ने के बाद स्थिति में, आपको आर के सबसेटिंग/इंडेक्सिंग फ़ंक्शंस के बारे में पता होना चाहिए।

सबसे आसान

df[row,column] 
#example 
df[1:5,] #rows 1:5, all columns 
df[,5] #all rows, column 5. 

अन्य तरीकों here हो रहा है। मैं व्यक्तिगत रूप से सहज डेटा मैनिपुलेशन (स्थिति द्वारा नहीं) के लिए dplyr पैकेज का उपयोग करता हूं।

संबंधित मुद्दे