"टर्म-वेक्टर एल्गोरिदम" क्या है?

Google कहता है कि "कीवर्ड-वेक्टर एल्गोरिदम" का उपयोग लोकप्रिय कीवर्ड निर्धारित करने के लिए किया जा सकता है। मैंने http://en.wikipedia.org/wiki/Vector_space_model का अध्ययन किया है, लेकिन "शब्द-वेक्टर एल्गोरिदम" शब्द को समझ नहीं सकता है।"टर्म-वेक्टर एल्गोरिदम" क्या है?

कृपया इसे एक संक्षिप्त सारांश, बहुत सरल भाषा में समझाएं, जैसे कि पाठक एक बच्चा है।

मेरा मानना है कि "वेक्टर" गणित परिभाषा को संदर्भित करता है, एक मात्रा जिसमें दिशा और साथ ही परिमाण भी होता है। यह कैसे है कि कीवर्ड की दिशा में एक मात्रा बढ़ रही है?

http://en.wikipedia.org/wiki/Vector_space_model कहता है "प्रत्येक आयाम एक अलग अवधि के अनुरूप है।" मैंने सोचा था कि आयाम कार्डिनिटी से संबंधित है, क्या यह सही है?

enter image description here

पुस्तक Hadoop अभ्यास में, एलेक्स होम्स द्वारा से

, पेज 12.

स्रोत

2013-07-24 davidjhp

मैंने आपके प्रश्न को उखाड़ फेंक दिया, लेकिन मुझे लगता है कि यह [programmers.se] (http://programmers.stackexchange.com) –

के लिए अधिक उपयुक्त है, टी को सभी शब्दों का सेट होना चाहिए, जैसे वेब पेज पर मुख्य शब्द । एक शब्द वेक्टर एन^| टी | में एक स्पैस वेक्टर है जहां एन प्राकृतिक संख्या है। शब्द वेक्टर का प्रत्येक घटक इंगित कर सकता है कि यह शब्द किसी खोज या वेब पेज में होता है, या खोज या वेब पेज में कितनी बार होता है। – Paul

इसका मतलब है कि प्रत्येक शब्द एक अलग आयाम रूपों:

उदाहरण: (बेशर्म here से लिया गया)

एक मॉडल के लिए केवल तीन शब्द होते हैं:

dict = { dog, cat, lion } 

Document 1 
“cat cat” → (0,2,0) 

Document 2 
“cat cat cat” → (0,3,0) 

Document 3 
“lion cat” → (0,1,1) 

Document 4 
“cat lion” → (0,1,1)

स्रोत

2013-07-24 23:25:35 matcheek

तो इस मामले में वेक्टर का मतलब दिशा में चलने वाली मात्रा का मतलब नहीं है? – davidjhp

@davidjhp नहीं, यह ज्यामितीय अर्थ में एक वेक्टर नहीं है। यदि आप सी ++ जानते हैं तो यह 'std :: vector' के समान अवधारणा है। – Thomas

MapReduce के लिए सबसे लोकप्रिय उदाहरण कार्य आवृत्ति की गणना करना है; अर्थात्, शब्द को 1 मान के साथ कुंजी के रूप में आउटपुट करने के लिए एक नक्शा चरण, और प्रत्येक शब्द के लिए संख्याओं को योग करने के लिए चरण कम करें। इसलिए यदि किसी वेब पेज में (संभावित रूप से डुप्लिकेट) शब्दों की एक सूची होती है, तो उस सूची में प्रत्येक शब्द 1 तक मानचित्र करता है। चरण कम करने के लिए अनिवार्य रूप से गणना होती है कि उस पृष्ठ में प्रत्येक शब्द कितनी बार होता है। आप इसे पृष्ठों, वेबसाइटों, या जो भी मानदंडों में कर सकते हैं। परिणामस्वरूप डेटा आवृत्ति के लिए एक शब्दकोष मैपिंग शब्द है जो प्रभावी रूप से एक शब्द आवृत्ति वेक्टर है।

Example document: "a be see be a" 
Resulting data: { 'a':2, 'be':2, 'see':1 }

स्रोत

2013-07-24 23:33:44 dan

टर्म वेक्टर लगता है कि यह सिर्फ मतलब है कि प्रत्येक शब्द संलग्न, शायद बार इस शब्द का उल्लेख है की संख्या के लिए इसी एक वजन या नंबर महत्व है।

आप वेक्टर शब्द के ज्यामितीय अर्थ के बारे में सोच रहे हैं, लेकिन एक और गणितीय अर्थ है जिसका मतलब है कि एक्स, वाई, जेड कहने के बजाय एकाधिक वे आयाम अर्थात वेक्टर एक्स को बोल्ड में कहते हैं जिसमें एकाधिक आयाम x1, x2, x3 ... xn और कुछ मान। तो एक शब्द वेक्टर के लिए, वेक्टर शब्द होता है और यह फॉर्म टर्म 1 लेता है, टर्म 2 शब्द टर्म एन तक ले जाता है। प्रत्येक के पास एक मान हो सकता है, जैसे x, y, या z के पास एक मान है।

एक उदाहरण शब्द 1 के रूप में कुत्ता हो सकता है, शब्द 2 बिल्ली, टर्म 3 शेर और प्रत्येक के पास वजन, 2, 3, 1 होता है, जिसका अर्थ है कि कुत्ता शब्द दो बार प्रकट होता है, बिल्ली 3 बार और शेर 1 बार होता है।

स्रोत

2013-07-25 01:01:41 user1904273

"टर्म-वेक्टर एल्गोरिदम" क्या है?

उत्तर

संबंधित मुद्दे