単語の扱い
単語切り出し
文書から単語を区切って切り出す
正規化
活用形の処理
ステミング
ストップワードを除去 (前置詞など)
to be or not to be