LLM Course documentation
tokenizer 回顾!
0. 安装
1. Transformer 模型
2. 使用 🤗 Transformers
3. 微调一个预训练模型
4. 分享你的模型和标记器
5. 🤗 Datasets库
6. 🤗 Tokenizers库
本章简介根据已有的tokenizer训练新的tokenizer快速标记器的特殊能力QA 管道中的快速标记器标准化和预标记化字节对编码标记化WordPiece 标记化Unigram标记化逐块地构建标记器标记器,回顾!章末小测验
7. 主要的 NLP 任务
8. 如何寻求帮助
9. 构建并分享你的模型
课程活动
tokenizer 回顾!
恭喜你完成了这一章!
在深入研究 tokenizer 之后,你应该:
- 能够使用旧的 tokenizer 作为模板来训练新的 tokenizer
- 了解如何使用偏移量将 tokens 的位置映射到其原始文本范围
- 了解 BPE、WordPiece 和 Unigram 之间的区别
- 能够混合使用 🤗 Tokenizers 库提供的块来构建你自己的 tokenizer
- 能够在 🤗 Transformers 库中使用该 tokenizer