Мы с Тамарой ходим парой: как работает алгоритм токенизации текстов для нейросетей
Первым шагом в автоматической обработке текста обычно становится токенизация (деление на слова или под-слова). Рассказываем, как сложную задачу токенизации решает простой алгоритм, придуманный для архивирования данных. Алгоритм Byte Pair Encoding создан еще в 1994 году, но используется в самых современных нейросетях вроде GPT-3