ニューラル自然言語処理の前処理として複雑な単語を限られた語彙集合で分割するアルゴリズムについて向井が話します。
- Neural Machine Translation of Rare Words with Subword Units
- [1804.10959] Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates
- google/sentencepiece: Unsupervised text tokenizer for Neural Network-based text generation.
- vocabulary for chromium class names