2013-07-24 6 views
5

Google कहता है कि "कीवर्ड-वेक्टर एल्गोरिदम" का उपयोग लोकप्रिय कीवर्ड निर्धारित करने के लिए किया जा सकता है। मैंने http://en.wikipedia.org/wiki/Vector_space_model का अध्ययन किया है, लेकिन "शब्द-वेक्टर एल्गोरिदम" शब्द को समझ नहीं सकता है।"टर्म-वेक्टर एल्गोरिदम" क्या है?

कृपया इसे एक संक्षिप्त सारांश, बहुत सरल भाषा में समझाएं, जैसे कि पाठक एक बच्चा है।

मेरा मानना ​​है कि "वेक्टर" गणित परिभाषा को संदर्भित करता है, एक मात्रा जिसमें दिशा और साथ ही परिमाण भी होता है। यह कैसे है कि कीवर्ड की दिशा में एक मात्रा बढ़ रही है?

http://en.wikipedia.org/wiki/Vector_space_model कहता है "प्रत्येक आयाम एक अलग अवधि के अनुरूप है।" मैंने सोचा था कि आयाम कार्डिनिटी से संबंधित है, क्या यह सही है?

enter image description here

पुस्तक Hadoop अभ्यास में, एलेक्स होम्स द्वारा से

, पेज 12.

+0

मैंने आपके प्रश्न को उखाड़ फेंक दिया, लेकिन मुझे लगता है कि यह [programmers.se] (http://programmers.stackexchange.com) –

+1

के लिए अधिक उपयुक्त है, टी को सभी शब्दों का सेट होना चाहिए, जैसे वेब पेज पर मुख्य शब्द । एक शब्द वेक्टर एन^| टी | में एक स्पैस वेक्टर है जहां एन प्राकृतिक संख्या है। शब्द वेक्टर का प्रत्येक घटक इंगित कर सकता है कि यह शब्द किसी खोज या वेब पेज में होता है, या खोज या वेब पेज में कितनी बार होता है। – Paul

उत्तर

8

इसका मतलब है कि प्रत्येक शब्द एक अलग आयाम रूपों:

उदाहरण: (बेशर्म here से लिया गया)

एक मॉडल के लिए केवल तीन शब्द होते हैं:

dict = { dog, cat, lion } 

Document 1 
“cat cat” → (0,2,0) 

Document 2 
“cat cat cat” → (0,3,0) 

Document 3 
“lion cat” → (0,1,1) 

Document 4 
“cat lion” → (0,1,1) 
+0

तो इस मामले में वेक्टर का मतलब दिशा में चलने वाली मात्रा का मतलब नहीं है? – davidjhp

+0

@davidjhp नहीं, यह ज्यामितीय अर्थ में एक वेक्टर नहीं है। यदि आप सी ++ जानते हैं तो यह 'std :: vector' के समान अवधारणा है। – Thomas

0

MapReduce के लिए सबसे लोकप्रिय उदाहरण कार्य आवृत्ति की गणना करना है; अर्थात्, शब्द को 1 मान के साथ कुंजी के रूप में आउटपुट करने के लिए एक नक्शा चरण, और प्रत्येक शब्द के लिए संख्याओं को योग करने के लिए चरण कम करें। इसलिए यदि किसी वेब पेज में (संभावित रूप से डुप्लिकेट) शब्दों की एक सूची होती है, तो उस सूची में प्रत्येक शब्द 1 तक मानचित्र करता है। चरण कम करने के लिए अनिवार्य रूप से गणना होती है कि उस पृष्ठ में प्रत्येक शब्द कितनी बार होता है। आप इसे पृष्ठों, वेबसाइटों, या जो भी मानदंडों में कर सकते हैं। परिणामस्वरूप डेटा आवृत्ति के लिए एक शब्दकोष मैपिंग शब्द है जो प्रभावी रूप से एक शब्द आवृत्ति वेक्टर है।

Example document: "a be see be a" 
Resulting data: { 'a':2, 'be':2, 'see':1 } 
0

टर्म वेक्टर लगता है कि यह सिर्फ मतलब है कि प्रत्येक शब्द संलग्न, शायद बार इस शब्द का उल्लेख है की संख्या के लिए इसी एक वजन या नंबर महत्व है।

आप वेक्टर शब्द के ज्यामितीय अर्थ के बारे में सोच रहे हैं, लेकिन एक और गणितीय अर्थ है जिसका मतलब है कि एक्स, वाई, जेड कहने के बजाय एकाधिक वे आयाम अर्थात वेक्टर एक्स को बोल्ड में कहते हैं जिसमें एकाधिक आयाम x1, x2, x3 ... xn और कुछ मान। तो एक शब्द वेक्टर के लिए, वेक्टर शब्द होता है और यह फॉर्म टर्म 1 लेता है, टर्म 2 शब्द टर्म एन तक ले जाता है। प्रत्येक के पास एक मान हो सकता है, जैसे x, y, या z के पास एक मान है।

एक उदाहरण शब्द 1 के रूप में कुत्ता हो सकता है, शब्द 2 बिल्ली, टर्म 3 शेर और प्रत्येक के पास वजन, 2, 3, 1 होता है, जिसका अर्थ है कि कुत्ता शब्द दो बार प्रकट होता है, बिल्ली 3 बार और शेर 1 बार होता है।

संबंधित मुद्दे