Во что превращается жизнь без любви

Недавно мы писали о том, как компьютеры «понимают» значения слов благодаря дистрибутивным моделям (их еще называют векторными). Таким моделям не нужно толковых словарей, энциклопедий и справочников. Просто дайте им Очень. Много. Текстов — и вуаля, они могут сказать, что помидор и томат очень похожи по смыслу, а помидор и лингвистика — совсем нет.

Но дистрибутивные модели умеют не только сравнивать слова по смысловой близости. Еще они могут складывать и вычитать значения — в самом прямом арифметическом смысле. Например, такая модель (и без всякого искусственного интеллекта!) выдаст вам слово «королева», если вы скомандуете взять «короля», вычесть из него «мужчину» и прибавить «женщину». Кстати, вы можете воспроизвести это сами на rusvectores.org (который мы тоже уже показывали) в разделе семантический калькулятор. Советуем использовать модель, обученную сразу на Национальном корпусе русского языка и русской Wikipedia.

Еще пара примеров. Вычтем из птицы крыло и прибавим плавник:

А теперь немного похулиганим — вычтем из Гитлера Германию и прибавим СССР. Конец немного предсказуем:

Напоследок — философский вопрос. А что будет, если из слова жизнь вычесть слово любовь?

Как видите, дистрибутивные модели — те еще философы. Напоминаем, ни в одном случае модель на самом деле не обладает никаким настоящим знанием о значениях слов. Такой результат получается благодаря тому, что модель запоминает контексты употребления каждого слова в виде вектора (т.е. попросту набора чисел — с какой частотой встречались рядом с этим словом другие слова). А про вектора мы помним со школы, что их можно складывать и вычитать. Так и работает семантический калькулятор.

Автор: Даниил Скоринкин

Теги:by_dh_hse, википедиа, нейронауки

Какая математика нужна джуну в NLP?

Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну, как они связаны с токенизаторами, генерацией текста и нейросетями и почему понимание базовых концепций помогает перестать воспринимать модели как магию

Марина Севостьянова

Списывание XXI века: как определить, что эссе написал ИИ

Трансформеры с помощью fine-tuning узнают, написал ли эссе искусственный интеллект или человек. Рассказываем о различных методах идентификации ИИ-текста и актуальных моделях

Алия Закирова

Пьющих просьба не беспокоить: анализируем язык объявлений о сдаче квартир с помощью LLM

Что нужно человеку, чтобы снять квартиру в России? Каждый, кто читал объявления на популярных сайтах, знает, что нужно не только заплатить за аренду, но и соответствовать требованиям арендодателя. Чтобы узнать, какие требования оказались самыми распространенными, а какие удивят даже самого опытного квартиросъемщика, мы обработали 15 тысяч объявлений с помощью LLM

Дарья Балуева

Нейросеть-алкотестер: как ваша речь может выдать вас с головой

Алкотестер в каждой машине — звучит слишком хорошо, чтобы быть правдой? А если алкотестер — это ваш собственный голос? Достаточно сказать пару фраз, чтобы машина определила, что садиться за руль сейчас нельзя, и тем самым спасла жизнь вам или кому-то еще на дороге. Похоже на сценарий фантастического фильма, но исследователи уже работают над тем, чтобы превратить это в реальность. Разбираемся, как они учат нейросети слышать то, что не слышим мы, и при чем здесь немецкие скороговорки

Руслана Зобнина

Во что превращается жизнь без любви

О проекте

Контакты

СОЦСЕТИ

Теги

Темы

Во что превращается жизнь без любви

Читать по теме:

Какая математика нужна джуну в NLP?

Списывание XXI века: как определить, что эссе написал ИИ

Пьющих просьба не беспокоить: анализируем язык объявлений о сдаче квартир с помощью LLM

Нейросеть-алкотестер: как ваша речь может выдать вас с головой

О проекте

Контакты

СОЦСЕТИ

Теги

Темы