मेरे पास यह उदाहरण है और मैं जानना चाहता हूं कि यह परिणाम कैसे प्राप्त करें। मैं पाठ है और मैं यह तो tokenize मैं बाइग्राम और trigram और fourgram किपायथन एनएलटीके: बिग्राम ट्रिग्राम चार ग्राम
import nltk
from nltk import word_tokenize
from nltk.util import ngrams
text = "Hi How are you? i am fine and you"
token=nltk.word_tokenize(text)
bigrams=ngrams(token,2)
Bigrams की तरह एकत्रित करते हैं: [('Hi', 'How'), ('How', 'are'), ('are', 'you'), ('you', '?'), ('?', 'i'), ('i', 'am'), ('am', 'fine'), ('fine', 'and'), ('and', 'you')]
trigrams=ngrams(token,3)
trigrams: [('Hi', 'How', 'are'), ('How', 'are', 'you'), ('are', 'you', '?'), ('you', '?', 'i'), ('?', 'i', 'am'), ('i', 'am', 'fine'), ('am', 'fine', 'and'), ('fine', 'and', 'you')]
bigram [(a,b) (b,c) (c,d)]
trigram [(a,b,c) (b,c,d) (c,d,f)]
i want the new trigram should be [(c,d,f)]
which mean
newtrigram = [('are', 'you', '?'),('?', 'i','am'),...etc
किसी भी विचार मददगार साबित होंगे
मुझे समझ में नहीं आता है; ऐसा लगता है कि आप पहले से ही ngrams उत्पन्न कर चुके हैं? – Emre
@ मेरा सवाल यह है कि नयाट्रेट्राम कैसे प्राप्त करें, मैं एक ऐसा फ़ंक्शन ढूंढने की कोशिश कर रहा हूं जो बिग्राम के तत्व के अंदर खोज सके और इसे ट्रिग्राम के तत्व से तुलना कर सके और केवल –