BERT

Год выпуска: 2018

Описание

Языковая модель (Bidirectional Encoder Representations from Transformers), которая позволяет извлекать контекстуализированные векторные представления слов. В отличие от Word2Vec и GloVe вектор слова зависит от контекста, в который оно помещено. Так, например, векторы слова «вода» в предложении «Вода в море была очень чистая» и в предложении «Я выпил стакан воды», полученные BERT будут отличаться друг от друга, а векторы Word2vec будут идентичными. Ключевая особенность BERT – архитектура Transformer, которая использует механизм внимания (attention). BERT обучался решать не классическую Language Modelling задачу – предсказание следующего токена, а её модификацию Masked Language Modelling – предсказание замаскированных токенов по незамаскированным. Например, получая на вход предложение «Мама мыла [MASK]», где токеном [MASK] замаскированно слова «раму», модель должна предсказать токен «раму». Также модель обучалась задаче Next Sentence Prediction.

Оригинальная статья

Статья СБъ

Где можно попробовать

Примеры использования:

Основа для решения большиства задач автоматической обработки языка

Нововведения

Использование более эффективной архитектуры – архитектуры Transformer, что также значительно ускорило процедуру обучения модели. Высокая обобщающая способность

Количество параметров: 110M — 340M

Область: NLP

Автор: Системный Блокъ

Теги:BERT, LM, NLP, Representation, Self-Supervision, Transformer

О проекте

СОЦСЕТИ

Теги

Темы