文系と理系の交差点

文系と理系の交差点

文系と理系を行ったりきたりして生活しているエンジニアブログ

自然言語処理

言語処理でよく使う前処理まとめ -tokenize, subword-

言語処理を行うときの基本として,現在は文章を単語などの何らかの単位に区切り(トークナイズ (tokenize) して),それらをベクトルに落とし込んでモデルで処理することが多いです.今回はトークナイズ(単語を区切ること)にフォーカスして,それをでどの…