में मेरा ईमेल प्रश्न संक्षेप में: क्या किसी को ट्विटर विश्लेषक या ट्विटर टोकनेज़र लुसीन के लिए पता है?लुसेन
अधिक विस्तृत संस्करण:
मैं सूचकांक करने के लिए Lucene में ट्वीट्स की एक संख्या चाहते हैं और @user या #hashtag बरकरार जैसे शब्दों रहते हैं। StandardTokenizer काम नहीं करता है, क्योंकि यह विराम चिह्न को छोड़ देता है (लेकिन यह डोमेन नाम, ईमेल पते रखने या शब्दों के संक्षिप्त पहचानने की तरह अन्य उपयोगी सामग्री करता है)। मैं एक विश्लेषक कैसे कर सकता हूं जो मानक टाकेनाइज़र सबकुछ करता है लेकिन @user और #hashtag जैसे शब्दों को स्पर्श नहीं करता है?
मेरे वर्तमान समाधान यह विश्लेषक में खिला और अन्य अक्षरांकीय तार के आधार पर पात्रों की जगह से पहले ट्वीट पाठ preprocess है। उदाहरण के लिए,
String newText = newText.replaceAll("#", "hashtag");
newText = newText.replaceAll("@", "addresstag");
दुर्भाग्य से यह विधि वैध ईमेल पते तोड़ती है लेकिन मैं इसके साथ रह सकता हूं। क्या वह दृष्टिकोण समझ में आता है?
अग्रिम धन्यवाद!
Amac
आपका अंतिम समाधान कैसा दिखता है? – Karussell
यदि आपको सोलर के लिए समाधान की आवश्यकता है तो इससे मदद मिल सकती है: https://issues.apache.org/jira/browse/SOLR-2059 और "# => ALPHA" "@ => ALPHA" – Karussell