2015-01-22 13 views
5

के लिए अनुशंसा प्रणाली को कार्यान्वित करना मैं सिफारिश प्रणाली और उनके निर्माण के लिए सुझाए गए दृष्टिकोणों के बारे में कागजात और किताबें देख रहा हूं। उनमें से कई में नेटफ्लिक्स प्रतियोगिता को एक उदाहरण के रूप में दिया गया था। नेटफ्लिक्स उपयोगकर्ताओं पर फिल्मों को रेट करें (1 से 5 तक)। उस प्रतियोगिता में, प्रतियोगियों को उपयोगकर्ताओं द्वारा फिल्मों और संबंधित रेटिंग का डेटाबेस दिया गया था, और उन्हें एक ऐसी प्रणाली को लागू करना था जो फिल्मों की रेटिंग का सबसे अच्छा अनुमान लगाएगा और उस रेटिंग का उपयोग करने से उपयोगकर्ताओं को फिल्में सुझाएंगी।असुरक्षित शिक्षा

मूल्यांकन के लिए वे तर्कों के रूप में अनुमानित और वास्तविक रेटिंग का उपयोग करने वाले उपायों का उपयोग करके क्रॉस सत्यापन का सुझाव देते हैं। अनुमानित रेटिंग की गणना उपयोगकर्ता के इतिहास और फिल्मों के लिए उनकी रेटिंग का उपयोग करके की जाती है।

मैं एक समाचार अनुशंसा प्रणाली बनाने की कोशिश कर रहा हूं। अब जिस समस्या का सामना कर रहा हूं वह यह है कि समाचार केवल थोड़े समय के लिए प्रासंगिक हैं और लगभग कोई भी समाचार को रेटिंग नहीं देगा। इसलिए, मेरे पास केवल अंतर्निहित प्रतिक्रिया (विचार) और कोई स्पष्ट प्रतिक्रिया नहीं है (रेटिंग)। नेटफ्लिक्स समस्या में भी उन्हें डेटाबेस के साथ प्रदान किया जाता है। मैं सोच रहा हूं कि कैसे ठंड शुरू करने की समस्या का सामना करना है, क्योंकि शुरुआत में कोई समाचार नहीं पढ़ा जाएगा (देखा गया)।

यदि आप मुझे ठंड शुरू करने की समस्या से बचने के लिए सुझाव दे सकते हैं और एक बार मेरे पास एक एल्गोरिदम होगा, तो मैं परीक्षण कैसे कर सकता हूं अगर यह ठीक काम करता है तो मैं कितना आभारी हूं।

धन्यवाद!

+0

मैं सिफारिशकर्ता प्रणाली का निर्माण कर रहा हूं जो केवल निहित प्रतिक्रिया का उपयोग करता है और ठंड शुरू करने की समस्या का मेरा समाधान केवल सबसे लोकप्रिय वस्तुओं की सिफारिश करना है। यह वास्तव में एक सुरुचिपूर्ण समाधान नहीं है, लेकिन कभी-कभी यह कुछ भी नहीं हो सकता है। मैंने यह भी सोचा कि सिफारिशों में विकल्प हो सकता है जैसे "मुझे यह अनुशंसित आइटम प्रासंगिक नहीं है"। जो अतिरिक्त में एक स्पष्ट प्रतिक्रिया देगा। आपके मामले में शायद आपके पास एक डिफ़ॉल्ट अनुशंसाकर्ता के रूप में जनसांख्यिकीय अनुशंसाकर्ता हो सकता है जो उपयोगकर्ता देश (या आईपी एड्रेस के देश के अनुसार) के अनुसार समाचार की सिफारिश कर सकता है। –

+1

"मैं एक समाचार अनुशंसा प्रणाली बनाने की कोशिश कर रहा हूं" https://sites.google.com/site/newsrec2013/ – dranxo

उत्तर

0

इस प्रोजेक्ट के साथ शुरू करने के लिए आप उपक्रम कर रहे हैं, मैं प्रासंगिक/लोकप्रिय वस्तुओं की खबरों पर पैटर्न खोजने के लिए क्लस्टरिंग का सुझाव दूंगा। जितनी अधिक सुविधाएं आप इस तरह से शामिल करते हैं कि यह आपके परिणामों में मूल्य जोड़ती है (इस भाग को सावधानीपूर्वक चयन, अध्ययन और सांख्यिकीय विश्लेषण की आवश्यकता है)।

समाचार अनुशंसा के लिए - आपके पास स्तरित दृष्टिकोण हो सकता है, तो मान लें कि पहला भाग उन लेखों को स्कैन करेगा जो 'सकारात्मक' हैं या उस आलेख पर टिप्पणी करने वाले लोगों के कुछ कीवर्ड शामिल हैं।

तो शायद दूसरी परतों वाले दृष्टिकोण फेसबुक के लिए के/यातायात, कितने Pinterest उपयोगकर्ता की पिन है कि लेख, आदि की तरह है कि लेख के संदर्भ में चहचहाना की प्रतिक्रिया पार करने के लिए हो सकता है, ...

तुम भी कीवर्ड रुझान जाँच कर सकते हैं Google, bing, आदि से ... विशेष विषयों पर, यह सुनिश्चित करने के लिए कि आप जो लेख दिखा रहे हैं वह 'प्रासंगिक'

मैं सुझाव देता हूं कि वेब में इतने सारे लेख हैं - शायद ध्यान केंद्रित करने पर ध्यान दें एक विषय पर और फिर इसे सामान्यीकृत करें। जैसा कि आप देख सकते हैं, एक 'लेख' लोकप्रियता कुछ आवाजों से जुड़ा हुआ है जो लोग अनुसरण करते हैं ताकि वह उस लेख की प्रासंगिकता को ढूंढने का एक और तरीका हो।

यहाँ के चलते किसी सीखने के बारे में अधिक जानकारी है: http://en.wikipedia.org/wiki/Unsupervised_learning

तुम भी जो चर अप्रत्यक्ष डेटा आप प्राप्त कर लिया है में सुधार होगा खोजने के लिए उम्मीद मैक्ज़िमाइज़ेशन में देखना चाहते हो सकता है। यहाँ ईएम की पूरी जानकारी के https://stats.stackexchange.com/questions/72774/numerical-example-to-understand-expectation-maximization

2

फिल्म क्लासिक सहयोगी को छानने के लिए एक उत्कृष्ट उपयोग के मामले हैं: वे आइटम लोगों को एक लंबे समय के लिए में रुचि रखते हैं कर रहे हैं, उनमें से अपेक्षाकृत कुछ कर रहे हैं, कई लोगों अतिव्यापी हित हैं, और स्टार रेटिंग समझ में आता है। समाचार कहानियां पूरी तरह से अलग हैं। सहयोगी फ़िल्टरिंग के बजाय, सामग्री-आधारित फ़िल्टरिंग देखें। यही वह जगह है जहां लोगों के हित सामग्री पहचानकर्ताओं के साथ संरेखित होते हैं (जो समाचार कहानी, या प्रकाशक, या दुनिया के दिन या क्षेत्र के समय के बारे में मेटाडेटा के बारे में कीवर्ड हो सकते हैं)।देखें गणनाएं लोगों की प्राथमिकताओं के बारे में जानकारी के लिए आपकी सबसे अच्छी शर्त हैं, और वे आपको कुछ डेटा खनन तकनीकों जैसे एसोसिएशन नियम खनन का उपयोग करने की अनुमति भी देते हैं।

जबकि आपके पास अभी भी उपयोगकर्ता को ठंडा प्रारंभ समस्या होगी - जहां आपके सिस्टम में एक नए उपयोगकर्ता ने आपको अपनी वरीयताओं के बारे में कोई जानकारी नहीं दी है, जब तक कि आप इसे अपने ट्वीट्स या फेसबुक हितों या किसी प्रकार की चीज़ों को खनन से बूटस्ट्रैप नहीं करते हैं - - आप आइटम को ठंड शुरू करने की समस्या से बच सकते हैं। आइटम समानताओं को प्राप्त करने का एकमात्र तरीका के रूप में अपने समुदाय के माध्यम से पढ़ने वाली समाचार कहानियों पर भरोसा करने के बजाय, आप एक और कॉर्पस का उपयोग कर सकते हैं। विशेष रूप से, विकिपीडिया का प्रयास करें, और विकीब्रेन (https://github.com/shilad/wikibrain) देखें। यह एक एपीआई है जिसके माध्यम से आप एक अवधारणा की समानता को दूसरे में प्राप्त कर सकते हैं, और इसे अपनी सिफारिश आवश्यकताओं पर लागू कर सकते हैं।

संबंधित मुद्दे