2015-10-07 7 views
7

ठीक है, इसलिए मैंने बहुत कुछ खोजा है और बिक्री डेटा पर नियम चलाने के लिए चाहते हैं। मुझे बस सही प्रारूप में डेटा ठीक से प्राप्त करने और सही "कारक" या "चर" और टोकरी के रूप में स्थापित करने की आवश्यकता है।नियमों के लिए टोकरी में लेनदेन डेटा कैसे तैयार करें

अभी मेरे पास ऑर्डर # और उसके बाद के आइटम के साथ बिक्री डेटा है। प्रत्येक आदेश अद्वितीय है (प्रत्येक नया ऑर्डर, एक नया # बनाया जाता है और भाग # शामिल होता है), लेकिन वही आइटम स्पष्ट रूप से कई ऑर्डर में दिखाई दे सकते हैं।

वर्तमान में, अपने डेटा इस तरह की स्थापना की है:

Order# Part# PartDescription
 
1   A  PartA 
1   B  PartB 
1   G  PartG 
2   R  PartR 
3   A  PartA 
3   B  PartB 
4   E  PartE 
5   Y  PartY 
6   A  PartA 
6   B  PartB 
6   F  PartF 
6   V  PartV 

तो, आर इस रूप में यह पसंद नहीं करता, और मैं के रूप में इसे पाने के लिए है कि arules और डेटा विश्लेषण स्वीकार करेंगे।

हाँ मैं इसे एक टेक्स्ट फ़ाइल के रूप में सहेजता हूं और एक .csv फ़ाइल की कोशिश की है, लेकिन अगर मैं इसे तैयार करने या RStudio में इसे कुशल बनाने के लिए चरण-दर-चरण निर्देश प्राप्त कर सकता हूं तो यह बहुत अच्छा होगा।

मैंने पढ़ा है कि यह इस तरह के रूप में एक टोकरी के रूप में होना लगता है ..

1 (ए, बी, जी)
2 (आर)
3 (ए, बी)
4 (ई)
5 (वाई)
6 (ए, बी, एफ, वी)

अगर वह सही नहीं है तो कृपया मुझे सही करें। मुझे विचार मिलता है लेकिन मुझे बस चरण-दर-चरण निर्देशों की आवश्यकता है जो मुझे कहीं भी नहीं मिल रहा है। मैंने dplyr और tidyr का उपयोग करने की कोशिश की है। मुझे डेटा विश्लेषण की अच्छी समझ है लेकिन मुझे रुस्टूडियो पर अधिक सीधी मदद की ज़रूरत है, इसलिए यदि मैं केवल उस कदम से कदम उठा सकता हूं तो मैं इसे और समझूंगा। आदेश द्वारा

library(arules) 
?transactions 

अपने प्रकार के लिए, आप split चाहते हैं, तो करने के लिए as का उपयोग करें:

+0

मैं भी, डाटा माइनिंग प्लगइन Excel के लिए है, इसलिए अगर मैं क्या कर सकते हैं वहां कोई तैयारी मुझे बताती है। धन्यवाद। – V1k1

+0

मुझे लगता है कि कम से कम डेटा को डेटा.फ्रेम के रूप में लोड किया गया है? यदि नहीं, तो 'डेटा <- read.csv ("myfile.csv", comment.char = "")' – jeremycg

+0

पर क्लिक करें, मैंने बस "आयात डेटासेट" पर क्लिक किया है और नीचे दी गई प्रतिक्रिया मेरे डेटा को सही टोकरी प्रारूप में डाल रही है। क्या मुझे इसे और समस्याओं से बचने के लिए डेटा.फ्रेम के रूप में लोड करने की ज़रूरत है? मैं इसे आर में कैसे सही तरीके से लोड करना चाहिए? यह एक्सेल से एक टेक्स्ट फ़ाइल है, क्या यह .csv होना चाहिए? मेरे पिता सही कॉलम/पंक्तियों में प्रकट होते हैं।मुझे किन आयात सेटिंग्स का चयन करना चाहिए? धन्यवाद! – V1k1

उत्तर

6

में अपने डेटा को प्राप्त करने के लिए कैसे पर उदाहरण के लिए "लेन-देन" डेटा प्रकार के लिए मदद पृष्ठ पर एक नजर डालें यह एक लेन-देन सूची में मिल:

trans <- as(split(data[,"Part"], data[,"Order"]), "transactions") 
inspect(trans) 
    items  transactionID 
1 {A,B,G} 1    
2 {R}  2    
3 {A,B}  3    
4 {E}  4    
5 {Y}  5    
6 {A,B,F,V} 6 
+0

धन्यवाद! यह परीक्षण डमी डेटा के साथ भाग गया। अब मैं इसे वास्तविक डेटा (282,292 प्रविष्टियों) पर चला रहा हूं। अगर मेरे पास तैयारी पर और प्रश्न हैं, तो मैं देखूंगा और अगर यहां कोई नहीं मिला तो मैं यहां वापस आऊंगा। लेकिन मुख्य प्रश्न का उत्तर मैं जो बता सकता हूं उससे उत्तर दिया जाता है। इसे अब के लिए बड़े डेटा सेट पर चलने देगा। धन्यवाद! मुझे आश्चर्य है कि मैं वास्तव में कहीं भी नहीं ढूंढ पाया। बहुत आसन! – V1k1

+0

तो, यह इस मंच पर किए गए परीक्षण डमी डेटा पर काम करता है। लेकिन मेरे वास्तविक डेटा का उपयोग करके, इसे वास्तविक डेटा का उपयोग करके, मुझे यह त्रुटि मिलती है, मुझे यह त्रुटि मिलती है "ASMethod (ऑब्जेक्ट) में त्रुटि: डुप्लिकेट किए गए आइटमों के साथ लेनदेन के साथ सूची को सहबद्ध नहीं कर सकता" मुझे क्यों नहीं मिलता है? डमी डेटा में डुप्लिकेट आइटम हैं, और यह मेरे लिए एक टोकरी में रखता है, तो यह मेरे डेटा के लिए ऐसा क्यों नहीं कर रहा है? मैंने सोचा कि यह डुप्लीकेट ऑर्डर # के आधार पर एक साथ टोकरी रखता है और भाग # में टोकरी में रखता है, बस मेरे डमी डेटा की तरह। यह सचमुच डमी डेटा के समान ही है। – V1k1

+0

रुको, मुझे पता चला कि भाग # में से एक ऑर्डर # में से एक है, इसलिए वे वहां डुप्लिकेट कर रहे हैं। मैंने ऑर्डर # और पार्ट डिस्क्रिप्शन पर ट्रांस कमांड चलाया और यह लंबे समय तक चलता है, लेकिन एक ही त्रुटि के साथ समाप्त होता है। मैंने Excel में यह देखने के लिए चेक किया कि भाग # ऑर्डर # के बराबर है और ऑर्डर # को एक अद्वितीय मान में बदल दिया है। मुझे अभी भी मेरी पिछली टिप्पणी में त्रुटि मिली है .. – V1k1

1

मैं (DataName, "लेन-देन" ..) के रूप में ', बलात्कार (जैसे के साथ परेशानी का एक बहुत कुछ मिला है

मैं झुठलाना। यह है कि यह इस तथ्य के कारण है कि मेरे पास डुप्लिकेट रिकॉर्ड हैं (यानी, एक ही आइटम एक ही ट्रांसलेशन में एक से अधिक बार खरीदा जाता है, जब डेटा 'सिंगल' प्रारूप में होता है)।

यह वही अंत में मेरे लिए काम किया है:

Transactions<- read.transactions("Data with tx ids, item names, in 
         single format.csv", 
         rm.duplicates= TRUE, sep=",", 
         format = "single", cols = c(7,9)); 

(स्तंभ 7 में tx आईडी, स्तंभ 9 में आइटम नाम)

संबंधित मुद्दे