LLM Course documentation

tokenizer 回顾！

LLM Course

0. 安装

1. Transformer 模型

2. 使用 🤗 Transformers

3. 微调一个预训练模型

4. 分享你的模型和标记器

5. 🤗 Datasets库

6. 🤗 Tokenizers库

本章简介根据已有的tokenizer训练新的tokenizer 快速标记器的特殊能力 QA 管道中的快速标记器标准化和预标记化字节对编码标记化 WordPiece 标记化 Unigram标记化逐块地构建标记器标记器，回顾！章末小测验

7. 主要的 NLP 任务

8. 如何寻求帮助

9. 构建并分享你的模型

课程活动

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

tokenizer 回顾！

恭喜你完成了这一章！

在深入研究 tokenizer 之后，你应该：

能够使用旧的 tokenizer 作为模板来训练新的 tokenizer
了解如何使用偏移量将 tokens 的位置映射到其原始文本范围
了解 BPE、WordPiece 和 Unigram 之间的区别
能够混合使用 🤗 Tokenizers 库提供的块来构建你自己的 tokenizer
能够在 🤗 Transformers 库中使用该 tokenizer

Update on GitHub

←逐块地构建标记器章末小测验→