![обработка текста](https://sysblok.ru/wp-content/uploads/2020/11/nlp_2.png)
Мы с Тамарой ходим парой: как работает алгоритм токенизации текстов для нейросетей
Первым шагом в автоматической обработке текста обычно становится токенизация (деление на слова или под-слова). Рассказываем, как сложную задачу токенизации решает простой алгоритм, придуманный для архивирования данных. Алгоритм Byte Pair Encoding создан еще в 1994 году, но используется в самых современных нейросетях вроде GPT-3