Stopword with Python

参考

今回はConda環境だったので、 conda コマンドでインストールした。

1	$ conda install nltk

ストップワードをダウンロードする。

1 2	import nltk nltk.download("stopwords")

ここでは、仮に対象となる単語のリストall_wordsがあったとする。そのとき、以下のようにリストからストップワードを取り除くと良い。

1 2	symbol = ["'", '"', ':', ';', '.', ',', '-', '!', '?', "'s"] words_wo_stopwords = [w.lower() for w in all_words if not w in stop_words + symbol]

ストップワードの中には記号が含まれていないので、ここでは、symbolを定義して一緒に取り除いた。次に頻度の高い単語を30件抽出してみる。

1	clean_frequency = nltk.FreqDist(words_wo_stopwords)

これを可視化する。

1 2	plt.figure(figsize=(10, 7)) clean_frequency.plot(30,cumulative=True)