Якщо у когось виникли труднощі то я пропоную наступний варіант:
>>> from nltk.corpus import brown
>>> news_text = brown.words(categories='news')
>>> a=bigrams()
>>> fdist=nltk.FreqDist() #1
>>> for i, j in a: #2
s=i,j
print s
if i.lower() not in nltk.corpus.stopwords.words('english')and j.lower() not in nltk.corpus.stopwords.words('english'):
fdist.inc(s) #3
#1 Будуємо частотний розподіл, спочатку він пустий
#2 Ітерації по кортежах списку біграмів (окремо розглядаємо елементи кортежів)
#3 Збільшуємо значення частотного для даного s прикладу(події)
Немає коментарів:
Дописати коментар