2017-01-23 7 views
8

मैं एक ऐसे क्षेत्रीय परीक्षण पर कुछ सांख्यिकीय विश्लेषण चलाने का प्रयास कर रहा हूं जो उसी बढ़ते मौसम में 2 साइटों पर बनाया गया था।ब्लॉक डिजाइन और बार-बार उपायों के साथ ANOVA

दोनों साइटों पर (Site, स्तरों: एचएफ | एनडब्ल्यू) प्रयोगात्मक डिजाइन के साथ एक RCBD था 4 (एन = 4) ब्लॉक (Block, स्तरों: 1 | 2 | 3 | प्रत्येक Site भीतर 4)। 4 उपचार थे - नाइट्रोजन उर्वरक के 3 विभिन्न रूप और एक नियंत्रण (नाइट्रोजन उर्वरक) (Treatment, स्तर: एएन, यू, आईयू, सी)। फील्ड परीक्षण के दौरान वहां 3 विशिष्ट अवधिएं थीं जो उर्वरक के साथ शुरू हुईं और घास की कटाई के साथ समाप्त हुईं। इन अवधियों को N_app कारक के तहत स्तर 1 | 2 | 3 दिया गया है।

माप है कि मैं पर निम्नलिखित शून्य परिकल्पना H0 परीक्षण करना चाहते हैं की एक श्रृंखला के होते हैं:

Treatment (H0) माप पर कोई प्रभाव नहीं

माप की दो मैं विशेष रूप से कर रहे हैं में दिलचस्पी थी : घास उपज और अमोनिया उत्सर्जन।

घास उपज (Dry_tonnes_ha) के रूप में दिखाया here, a nice balanced data set

डेटा निम्नलिखित कोड का उपयोग कर अनुसंधान में डाउनलोड किया जा सकता के साथ शुरू:

library(tidyverse) 

download.file('https://www.dropbox.com/s/w5ramntwdgpn0e3/HF_NW_grass_yield_data.csv?raw=1', destfile = "HF_NW_grass_yield_data.csv", method = "auto") 
raw_data <- read.csv("HF_NW_grass_yield_data.csv", stringsAsFactors = FALSE) 

HF_NW_grass <- raw_data %>% mutate_at(vars(Site, N_app, Block, Plot, Treatment), as.factor) %>% 
    mutate(Date = as.Date(Date, format = "%d/%m/%Y"), 
     Treatment = factor(Treatment, levels = c("AN", "U", "IU", "C"))) 

मैं इस का उपयोग करने पर एक एनोवा चल में एक जाना पड़ा है निम्नलिखित दृष्टिकोण:

model_1 <- aov(formula = Dry_tonnes_ha ~ Treatment * N_app + Site/Block, data = HF_NW_grass, projections = TRUE) 

मुझे इसके साथ कुछ चिंताएं हैं।

सबसे पहले, धारणाओं का परीक्षण करने का सबसे अच्छा तरीका क्या है? एक साधारण एक तरफा ANOVA के लिए मैं भिन्नता और विषमता की विषमता का आकलन करने के लिए निर्भर चर (Dry_tonnes_ha) पर shapiro.test() और bartlett.test() का उपयोग करूंगा। क्या मैं यहां एक ही दृष्टिकोण का उपयोग कर सकता हूं?

दूसरे, मैं चिंतित हूँ कि N_app एक दोहराया उपाय के रूप में एक ही माप 3 अलग अवधि में एक ही भूखंड से लिया जाता है है - क्या मॉडल में इस पुनरावृत्त मापन निर्माण करने के लिए सबसे अच्छा तरीका है?

तीसरा, मुझे Block घोंसला Site के सबसे अच्छे तरीके से सुनिश्चित नहीं है। दोनों साइटों पर Block के स्तर 1: 4 हैं। क्या मुझे प्रत्येक साइट के लिए अद्वितीय Block स्तरों की आवश्यकता है?

मेरे पास another data set for NH3 emissions here है। आर कोड डाउनलोड करने के लिए:

download.file('https://www.dropbox.com/s/0ax16x95m2z3fb5/HF_NW_NH3_emissions.csv?raw=1', destfile = "HF_NW_NH3_emissions.csv", method = "auto") 
raw_data_1 <- read.csv("HF_NW_NH3_emissions.csv", stringsAsFactors = FALSE) 

HF_NW_NH3 <- raw_data_1 %>% mutate_at(vars(Site, N_app, Block, Plot, Treatment), as.factor) %>% 
    mutate(Treatment = factor(Treatment, levels = c("AN", "U", "IU", "C"))) 

इसके लिए मेरे पास उपरोक्त सभी चिंताएं हैं जो डेटा सेट असंतुलित है। सभी N_app के स्तर के लिए N_app 1 n = 3 के लिए HF पर है, लेकिन 3 एन = 4 के लिए NW पर एन = 4। NF पर माप केवल Treatment स्तरों U और IU पर NW measuremnts Treatment स्तरों AN, U और IU

मैं जटिलता के इस जोड़ा स्तर से निपटने के लिए कैसे यकीन नहीं है पर किए गए थे पर किए गए थे। मैं सिर्फ 2 अलग-अलग साइट के रूप में विश्लेषण करने का लुत्फ उठा रहा हूं (तथ्य यह है कि N_app अवधि प्रत्येक साइट पर समान नहीं है, इस दृष्टिकोण को प्रोत्साहित कर सकती है)। क्या मैं यहाँ एक वर्ग iii योग वर्गों ANOVA का उपयोग कर सकता हूं?

मुझे यह सुझाव दिया गया है कि एक रैखिक मिश्रित मॉडलिंग दृष्टिकोण आगे बढ़ सकता है लेकिन मैं इनका उपयोग करने से परिचित नहीं हूं।

मैं उपर्युक्त में से किसी पर आपके विचारों का स्वागत करता हूं। आपके समय के लिए धन्यवाद।

रोरी

उत्तर

4

परीक्षण मान्यताओं का सबसे अच्छा तरीका पर अपना पहला सवाल का जवाब करने के लिए। जबकि आर में लागू एक और सांख्यिकीय परीक्षण का उपयोग करने का आपका प्रयास उचित है, मैं वास्तव में वितरण को कल्पना करता हूं और देखता हूं कि डेटा एनोवा धारणाओं को पूरा करता है या नहीं। यह दृष्टिकोण कुछ हद तक व्यक्तिपरक प्रतीत हो सकता है, लेकिन यह ज्यादातर मामलों में काम करता है।

  • स्वतंत्र रूप से, समान रूप से वितरित (i.i.d) डेटा: यह एक प्रश्न है कि आप अपने डेटा के बारे में कितना जानते हैं इसके आधार पर आपके पास पहले से ही एक उत्तर हो सकता है। आजादी निर्धारित करने के लिए ची-स्क्वायर टेस्ट का उपयोग करना संभव है (या नहीं)।
  • सामान्य रूप से वितरित डेटा: जांचने के लिए हिस्टोग्राम/क्यू क्यू प्लॉट का उपयोग करें। वितरण के आधार पर, मुझे लगता है कि थोड़ा बिमोडाल वितरण के बावजूद aov का उपयोग करना उचित है।

(ऐसा लगता है कि लॉग-परिवर्तन मदद आगे सामान्य धारणा को पूरा। यह कुछ आप विचार कर सकते हैं, विशेष रूप से नीचे की ओर विश्लेषण के लिए है।)

par(mfrow=c(2,2)) 
plot(density(HF_NW_grass$Dry_tonnes_ha), col="red", main="Density") 
qqnorm(HF_NW_grass$Dry_tonnes_ha, col="red", main="qqplot") 
qqline(HF_NW_grass$Dry_tonnes_ha) 

DTH_trans <- log10(HF_NW_grass$Dry_tonnes_ha) 
plot(density(DTH_trans), col="blue", main="transformed density") 
qqnorm(DTH_trans, col="blue", main="transformed density") 
qqline(DTH_trans) 

क्या निर्माण करने के लिए सबसे अच्छा तरीका है पर अपने दूसरे प्रश्न के बारे में मॉडल में दोहराए गए उपाय हैं: दुर्भाग्य से, इस तरह के "सर्वश्रेष्ठ" मॉडल को इंगित करना मुश्किल है, लेकिन मेरे ज्ञान (ज्यादातर जीनोमिक्स बड़े डेटा के माध्यम से) के आधार पर, आप एक रैखिक मिश्रित प्रभाव मॉडल का उपयोग करना चाह सकते हैं। इसे उदाहरण के लिए lme4 आर पैकेज के माध्यम से कार्यान्वित किया जा सकता है। चूंकि ऐसा प्रतीत होता है कि आप पहले ही जानते हैं कि आर में रैखिक मॉडल कैसे बनाया जाए, आपको lme4 फ़ंक्शंस लागू करने में कोई समस्या नहीं होनी चाहिए।

दो चर के घोंसले के बारे में आपका तीसरा सवाल मुश्किल है। अगर मैं आप थे, तो मैं Site और Block से शुरू करूंगा जैसे कि वे स्वतंत्र कारक थे। हालांकि, अगर आप जानते हैं कि वे स्वतंत्र नहीं हैं, तो आपको शायद उन्हें घोंसला करना चाहिए।

मुझे लगता है कि आपके प्रश्न और चिंताएं काफी खुली हैं। मेरी सिफारिश यह है कि जब तक आपके पास एक औचित्य औचित्य हो, तब तक आगे बढ़ें और आगे बढ़ें।

+0

आपकी प्रतिक्रिया के लिए धन्यवाद। अधिक जटिल आंकड़े अधिक विषयपरक प्रक्रिया प्रतीत होते हैं! धारणाओं पर महान जानकारी। अब मैं पूछताछ कर रहा हूं कि मुझे दोहराए गए उपायों की आवश्यकता है या नहीं। मैं जिन सभी मापों का विश्लेषण कर रहा हूं, वे प्रत्येक 'N_app' के लिए केवल एक बार होते हैं, वही' प्लॉट' का उपयोग 3 'एन_एपी' अवधि के लिए किया जाता है जो मुझे लगता है कि दोहराए गए उपायों की आवश्यकता है। रैखिक मिश्रित मॉडल में एक और नजर डालेंगे। मैं अलग-अलग दोनों साइटों को सरल और विश्लेषण भी कर सकता हूं। –

+0

मुझे लगता है कि रैखिक मिश्रित मॉडल असंतुलित डेटासेट के साथ भी मदद कर सकते हैं। हालांकि मुझे लगता है कि मैं टाइप iii एसएस के साथ 'अनोवा' का उपयोग कर सकता हूं? –

1

मैं दृश्य डायग्नोस्टिक्स के उपयोग पर @ डेविड सी से सहमत हूं। सरल QQ भूखंडों काम करना चाहिए

# dependent variable. 
par(mfrow=c(1,2)) 
qqnorm(dt[,dry_tonnes_ha]); qqline(dt[,dry_tonnes_ha], probs= c(0.15, 0.85)) 
qqnorm(log(dt[,dry_tonnes_ha])); qqline(log(dt[,dry_tonnes_ha]), probs= c(0.15, 0.85)) 

enter image description here

लॉग परिवर्तन मेरे लिए उचित लग रहा है।तुम भी घनत्व की साजिश है, जो लंबे पूंछ और कुछ हद तक द्वि-मोडल

par(mfrow=c(1,1)) 
plot(density(dt[,dry_tonnes_ha])) 

आप वैकल्पिक रूप से लाइनअप भूखंडों (Buja एट अल, 2009) इस्तेमाल कर सकते हैं यदि आप चाहें तो है से देख सकते हैं। मुझे यकीन नहीं है कि इस मामले में उनकी आवश्यकता है। Vignette provided

library(nullabor) 
# this may not be the best X variable. I'm not familiar with your data 
dt_l <- lineup(null_permute("dry_tonnes_ha"), dt) 
qplot(dry_tonnes_ha, treatment, data = dt_l) + facet_wrap(~ .sample) 

enter image description here

अन्य मान्यताओं के लिए, तुम सिर्फ lm

lm2 <- lm(log(dry_tonnes_ha) ~ treatment * n_app + site/block, data = dt) 
plot(lm2) 

मैं कुछ भी इन भूखंडों में भी परेशानी नहीं दिख रहा है से मानक नैदानिक ​​भूखंडों का उपयोग कर सकते हैं।

+0

धन्यवाद @ एलेक्स ने लाइनों को पहले प्लॉट नहीं देखा - हमेशा अधिक विकल्प रखने के लिए उपयोगी –

संबंधित मुद्दे