Год выпуска: 2018
Описание
Языковая модель (Bidirectional Encoder Representations from Transformers), которая позволяет извлекать контекстуализированные векторные представления слов. В отличие от Word2Vec и GloVe вектор слова зависит от контекста, в который оно помещено. Так, например, векторы слова «вода» в предложении «Вода в море была очень чистая» и в предложении «Я выпил стакан воды», полученные BERT будут отличаться друг от друга, а векторы Word2vec будут идентичными. Ключевая особенность BERT – архитектура Transformer, которая использует механизм внимания (attention). BERT обучался решать не классическую Language Modelling задачу – предсказание следующего токена, а её модификацию Masked Language Modelling – предсказание замаскированных токенов по незамаскированным. Например, получая на вход предложение «Мама мыла [MASK]», где токеном [MASK] замаскированно слова «раму», модель должна предсказать токен «раму». Также модель обучалась задаче Next Sentence Prediction.
Примеры использования:
Основа для решения большиства задач автоматической обработки языка
Нововведения
Использование более эффективной архитектуры – архитектуры Transformer, что также значительно ускорило процедуру обучения модели. Высокая обобщающая способность
Количество параметров: 110M — 340M
Область: NLP