Лингвистика

Как устроена нейросеть BERT от Google

BERT — нейросетевая модель-трансформер от Google, на которой сегодня строится большинство инструментов автоматической обработки языка. Модель появилась в начале 2018-го, а уже в октябре того же года Google встроил модель в свой поисковик. Разбираемся, что же представляет из себя модель BERT и как она работает

«Нравственное право» и «немеркнущая правда»: как речи президентов на 9 мая влияют на коллективную память

Мы проанализировали все речи президентов, которые произносились в честь 9 мая с 2000 года. О том, как эти выступления влияют на нашу коллективную память и помогают легитимировать власть, читайте в исследовании СБъ

В пространстве текстов: детоксикация комментариев, подделка отзывов и нейроцензура

Как работают современные методы переноса стиля? Могут ли они быть полезны или опасны? И при чём здесь «бутылочное горлышко» нейросети?
что такое стилометрия

Стилометрия: как в разное время люди искали авторов текстов

Сегодня для того, чтобы понять, кто написал текст под псевдонимом, у исследователей есть количественные методы анализа, в основе которых – подсчет служебных слов в тексте. О том, как люди к этому пришли, рассказываем в материале об истории стилометрии
NLP

ЕГЭ для нейросетей: как тестируют усвоение языка машинами

Многие знают о современных языковых моделях и спорят, что лучше: BERT или GPT-3. Но мало кто знает, по каким критериям оценивается их качество. Разбираемся, что делает языковую модель умной
rucompromat

Токсичный Путин: что видно в соцсети русского компромата

Рассказываем, что увидели ученые, построив «социальную сеть русского компромата» на 11 тысяч человек. Спойлер: Путин официально самый токсичный! Но ведь если ваши связи помогают вам прятать деньги и возводить на них дворцы, то «токсичность» можно и потерпеть? Ради комнаты для грязи — годятся любые связи. Подробности — в нашей статье

Как работает GPT-2 и в чем его особенности

Все слышали о GPT-3, которая умеет сочинять стихи и прозу, разгадывать анаграммы, переводить, отвечать на вопросы по прочитанному тексту и даже писать философские рассуждения о жизни и смерти. Рассказываем, как работает ее бабушка, GPT-2, без которой такой прорыв в области обработки естественного языка был бы невозможен

Named Entity Recognition (NER)

Когда человек читает книгу, он без труда понимает, что какие-то слова в тексте – это имя героя, а какие-то – название местности, даже если он впервые столкнулся с таким именем или названием. Для компьютера работа по распознаванию имен людей, названий организаций, топонимов и т.п. оказалась довольно сложной, но все-таки машины с ней справляются — и с каждым годом все лучше

Сводеш 2.0: новый уровень разговоров про академию

За что хвататься, когда учишь новый язык? Некоторые начинают со ста самых частотных слов, некоторые — с любимой темы или полезных выражений типа «Спасибо» или «Передайте, пожалуйста, соль». Но как быть, если изучать приходится не французский или испанский, а целый пласт разнообразных выражений, используемых в академической среде? На помощь приходят корпусные исследования!

Почему Алиса и Siri располагают нас к откровенным разговорам

В фильме «Она» показано недалекое будущее, где искусственный интеллект стал рутиной, а главный герой заводит роман с виртуальной помощницей. В 2020 году эта мелодрама не кажется фантастикой. Разбираемся, как виртуальные агенты становятся нашими собеседниками, конфидентами и друзьями

Ok, Google, купи слона: онлайн-шоппинг и голосовые помощники

Типичный поход в магазин включает в себя долгий выбор продуктов, блуждание между полками товаров, ожидание в очереди. А что если бы мы могли доверить весь онлайн-шоппинг голосовым ассистентам в нашем смартфоне?

Правильные слова: как привить детям интерес к науке

Слова обладают мощным воздействием на наше сознание. Словом можно травмировать, а можно...привить детям интерес к науке! Американские психологи показали, что если правильно выбрать слова для заданий на уроке физики, дети будут более упорны в своих исследованиях

Запутать нельзя угадать: как нейросети генерируют ложные приманки для тестов

Составлять тесты сложно: кроме правильного ответа надо придумать хотя бы три неправильных. Причем придумать их с умом: чтобы варианты не были слишком очевидно неверными — но и не оказались бы при этом подходящей альтернативой верному варианту. Хорошая новость в том, что скоро эту головоломную работу смогут выполнить за вас нейросети

Бэггинсы, Кольца и Сауроны: как научить компьютер понимать кто есть кто?

Как помочь компьютеру понять, что Гарри — волшебник, Гендальф — майар, а Джон Сноу — (СПОЙЛЕР!) одновременно Старк и Таргариен? Человек схватывает новую информацию на лету: из контекста, из интонации, из невербального общения. А как дать компьютеру такие же умения?

Data Science против фейков: как алгоритм отделяет выдуманные новости от правды

Фейковые новости – острая проблема информационного общества. Они быстро распространяются через социальные сети, мессенджеры и СМИ, вводя людей в заблуждение. Это может привести к массовой дезинформации, манипуляциям и общественным кризисам

Как измеряют эффект Вертера

Но не тот, о котором вы подумали. Мы расскажем не о последствиях трагической любви, которые заставляют молодых людей с разбитым сердцем сводить счеты с жизнью, а о том, как «Страдания юного Вертера» перекликаются с окружающими его текстами

Сейчас вылетит птичка: что внутри у платформ для изучения языка?

Мы часто воспринимаем платформы для изучения языка как волшебные инструменты, с помощью которых и вправду можно выучить японский за тридцать дней. Приложения типа Lingualeo или Memrise добросовестно напоминают нам о необходимости пройти новый раздел грамматики или повторить слова, сопровождают каждый урок смешными примерами и вообще предлагают довольно широкий выбор тем — интересно будет и маленькому ребёнку, и начинающему новый язык взрослому. Но как именно организовать такой обширный материал? Давайте разберёмся на примере всем известного Duolingo

Семантика эмоций: ученые объяснили природу вариативности языка

Анализ более 2000 языков показал различия в концептуализации чувств в разных культурах

Как управлять мамонтом: генерируем нужные тексты с помощью моделей Plug and Play

Нейросети хорошо порождают правдоподобный текст. Но как заставить их писать на нужную тему, да еще и с нужным отношением к этой теме (положительным, нейтральным или отрицательным)? Рассказываем про решение, которое позволяет «донастраивать» языковую модель под себя

Журналисты VS роботы: неравный бой

Искусственный интеллект — друг или враг журналисту? Чтобы ответить на этот вопрос, изучаем 10 свежих AI-проектов со всего мира мира

Краудсорсинг в Digital Humanities: опыт Латвийского фольклорного архива

Рассказываем, как фольклорному архиву Латвии удалось привлечь тысячи волонтеров к оцифровке и обогащению своих электронных коллекций, а также почему это может быть полезно другим странам

Чат-боты угрожают отрезать людям пальцы. Мы все умрем?

Что можно назвать «эмоциональным» искусственным интеллектом и как он работает

Google-проповедник, гендерные стереотипы и развитие ИИ: интервью с разработчиком Googlе-Переводчика

Как совершенствуются системы машинного перевода, стоит ли пугаться религиозных предсказаний при переводе на маори и как избавиться от сексизма и стереотипов в переводчике

280 символов Трампа: как Твиттер стал оружием в политической гонке

Как гневные твиты, написанные КАПСОМ, помогли Дональду Трампу завоевать пост президента США? Разбираются ученые

Вавилонская нейросеть для многоязычного перевода

Не так давно заговорили о том, что система нейронного машинного перевода от Google сама научилась переводить в языковых парах, для которых у неё нет параллельных корпусов. Действительно ли онлайн-переводчик изобрел собственный универсальный язык, машинную интерлингву?

Большие данные о языках в справочнике Ethnologue

Обзор самого известного онлайн-ресурса о языках мира: что можно узнать и кому это пригодится?

Акцентуаторы. Памяти А.А. Зализняка. Часть III

Великое, могучее, свободное, подвижное. От праславянской акцентуации к нейросетевым программам автоматической расстановки ударений

Зачем нужна карта метафор?

На литературе в школе нас учили, что метафора — это что-то такое из стихов Пушкина. Помните, как учительница затирала про «образное сравнение»? Но на самом деле метафорами пронизан весь наш язык (даже эта фраза), и их исследование может многое сказать о том, как мы говорим и мыслим. А зачем нужна цифровая карта метафор?

«Слово о полку Игореве» как улика. Памяти А.А. Зализняка. Часть II

Почему «Слово о полку Игореве» не смогли бы создать инопланетяне или нейросеть, и при чем тут берестяные грамоты?

Фасолина или яйцо? С чем сравнивают размеры вещей

Какие метафоры популярны при описании габаритов предмета, как они изменялись со временем и почему из сравнений исчезли голубиные яйца

Когда вандалы не вандалы

Быт и нравы древних германцев в рунических надписях

Как геймеры древнеегипетское письмо расшифровывали

Фанаты Assassin’s Creed за одну ночь помогли собрать материал для переводчика египетских иероглифов

Берестяные грамоты от раскопа до компьютера. Памяти А.А. Зализняка. Часть I

Аесова и другие: откуда и благодаря кому мы знаем, как ругались русские люди в XII веке?