Фото автора

Виктория Терехова

Автор

По образованию лингвист. Интересуюсь NLP и поведенческой экономикой.

Редактор статей

обработка текста

Мы с Тамарой ходим парой: как работает алгоритм токенизации текстов для нейросетей

Первым шагом в автоматической обработке текста обычно становится токенизация (деление на слова или под-слова). Рассказываем, как сложную задачу токенизации решает простой алгоритм, придуманный для архивирования данных. Алгоритм Byte Pair Encoding создан еще в 1994 году, но используется в самых современных нейросетях вроде GPT-3

Автор статей

ObjectNet — датасет, который поставил в тупик лучшие модели компьютерного зрения

Модели компьютерного зрения обычно без труда распознают стул, стоящий на кухне, но перевернутый стул в спальне ставит их в тупик. Создатели ObjectNet постарались решить проблему с помощью датасета с тысячами необычных фотографий

«Мафия» для нейросети: бот побеждает людей в игре со скрытыми ролями

Исследователи из Массачусетского технологического института создали бота, который научился обыгрывать людей в игре «Сопротивление: Авалон (The Resistance: Avalon)». Это сложная многопользовательская онлайн игра, в которой роли и мотивы других игроков неизвестны

Как дата-детектив разоблачает подозрительные медицинские исследования

Как один анестезиолог обнаружил проблемы в сотнях статей, разрушил карьеры нескольких фальсификаторов и вдохновил медицинский журнал изменить правила рецензирования

Картинка вместо тысячи слов: 10 визуализаций, нужных каждому ученому

Археологам часто приходится подолгу исследовать густые джунгли или бескрайние леса. Но вот они находят руины древних построек, и наступает Момент Истины: становятся доступными новые знания. Анализировать информацию ничуть не легче, чем искать древние артефакты. Грамотная визуализация помогает по-новому взглянуть на данные, выдвинуть гипотезу или вывести проект на новый уровень

8 главных прорывов в нейросетевом NLP

Как компьютерная лингвистика подсела на нейронные сети и диплернинг, какие подходы сегодня в тренде и почему они так хороши