इसी तरह के मुद्दों के लिए इस साइट चारों ओर देखा, मैं इस पाया: http://math.nist.gov/javanumerics/jama/ और इस: http://sujitpal.blogspot.com/2008/09/ir-math-with-java-similarity-measures.htmlवेक्टर की कोज्या समानता, साथ <O (n^2) जटिलता
हालांकि, यह इन हे में चलाने (एन लगता है^2)। मैं कुछ दस्तावेज क्लस्टरिंग कर रहा हूं और देखा कि छोटे दस्तावेज़ सेटों से निपटने के दौरान जटिलता का यह स्तर व्यवहार्य नहीं था। डॉट उत्पाद के लिए, हमें केवल दोनों वैक्टरों में निहित वेक्टर शब्दों की आवश्यकता होती है, यह वैक्टर को पेड़ में रखना संभव है और इस प्रकार डॉट उत्पाद को एन लॉग एन जटिलता के साथ गणना करना चाहिए, जहां एन सबसे कम संख्या में अद्वितीय शब्द है 2 दस्तावेजों में से 1।
क्या मुझे कुछ याद आ रही है? क्या कोई जावा पुस्तकालय है जो यह करता है?
धन्यवाद
आपको उन सभी पृष्ठों को पढ़ने की उम्मीद करने की बहुत उम्मीद नहीं होगी। शायद आप अपनी समस्या को और अधिक स्पष्ट रूप से समझा सकते हैं - आप वैक्टरों को गुणा क्यों कर रहे हैं (और आपका क्या मतलब है, ओ (एन^2)? दो एन-आयामी वैक्टरों के डॉट-उत्पाद की गणना करना मुश्किल है ओ (एन), मुझे किसी पर संदेह है वेक्टर पैकेज उस बुरी तरह खराब हो सकता है) –
वह दस्तावेजों के हर * जोड़ी * के लिए डॉट उत्पाद की गणना कर रहा है। यह इसे चौकोर रूप से जटिल बनाता है। – Rekin
ब्लूराजा - डैनी पीएफएलयूघोफ्ट, यह समस्या बहुत बड़े-आयामी लेकिन बहुत अस्पष्ट वैक्टरों को गुणा करने के बारे में है; और n आयाम नहीं है लेकिन गैर-शून्य तत्वों की गिनती है। –