NLP

NLP — Natural Language Processing. Эта область находится на стыке традиционной лингвистики и компьютерных наук. В рубрике собраны материалы о методах обработки естественного языка и системах, созданных на основе этих методов. Здесь вы сможете узнать, что значит BERT и GPT3, а также понять как работают чат-боты, голосовые помощники и системы машинного перевода или как поисковик решает, что именно вы ищете.

NLP, Общество 04.02.2021

Цифровая песочница для ботов-наркоторговцев

По исследованию Insider Intelligence за 2020 год пользователи из США не доверяют Facebook в вопросах защиты личной информации. Разработчики социальной сети разрабатывают проект, нацеленный на поиск слабых мест Facebook. Он поможет выявить потенциальные проблемы с конфиденциальностью с помощью ботов до того, как они повлияют на реальных людей, использующих платформу

Дарья Коростелева

NLP, Лингвистика 27.01.2021

ЕГЭ для нейросетей: как тестируют усвоение языка машинами

Многие знают о современных языковых моделях и спорят, что лучше: BERT или GPT-3. Но мало кто знает, по каким критериям оценивается их качество. Разбираемся, что делает языковую модель умной

Анна Аксёнова

NLP 18.11.2020

Мы с Тамарой ходим парой: как работает алгоритм токенизации текстов для нейросетей

Первым шагом в автоматической обработке текста обычно становится токенизация (деление на слова или под-слова). Рассказываем, как сложную задачу токенизации решает простой алгоритм, придуманный для архивирования данных. Алгоритм Byte Pair Encoding создан еще в 1994 году, но используется в самых современных нейросетях вроде GPT-3

Анна Аксёнова

NLP 07.08.2020

Морфология: Памяти А. А. Зализняка. Часть IV

Мы давно не удивляемся разговорам с голосовым помощником или банковским роботом-автоответчиком. Задать вопрос Siri или Алисе, продиктовать адрес навигатору — все это наши простые ежедневные действия. Мы привыкли, что приборы и поисковые системы не только неплохо понимают нас, но и сами понятно и грамотно говорят по-русски. Но так было не всегда

Ксения Костомарова

NLP, Общество 05.08.2020

Робот журналисту друг: почему не стоит бояться алгоритмов

Еще в 2014 году теоретик Кристер Клерволл провел эксперимент со студентами журфака, где им предстояло определить, кто написал текст: робот или журналист? 45% студентов не смогли отличить сгенерированную публикацию от человеческой и определили авторство неправильно. С каждым годом возможности технологий расширяются и все более актуальным становится вопрос: заменит ли робот профессиональных авторов?

Лола Самеева

NLP, Общество 03.08.2020

Роботы на выборах: как алгоритмы помогают журналистам

«Системный Блокъ» уже рассказывал о том, как алгоритмы заменяют людей на рутинной журналистской работе. Теперь изучаем системы автоматизированной генерации новостей на примере освещения предвыборных кампаний

Павел Лебедев

NLP 29.04.2020

Трудно быть ботом: как сделать чатбота с помощью DeepPavlov

Наряду с разработкой таких ботов-гигантов, как Алекса, Сири и Алиса, за которыми стоят крупнейшие IT-корпорации, появляются и доступные инструменты для создания своих небольших, но полноценных целеориентированных чат-ботов. Отличным примером этого служат инструменты из библиотеки DeepPavlov от группы разработчиков на базе МФТИ

Екатерина Смирнова

NLP 18.03.2020

Как «поговорить» со 100 000 книг: Talk To Books

Google продолжает разрабатывать инструменты, позволяющие искусственному интеллекту понимать естественный язык не по ключевым словам, а используя семантику. Одним из таких инструментов стал Talk To Books – сервис, позволяющий получить ответ на любой вопрос, и ответом станет не набор ссылок на статьи или сайты, а вполне релевантные фразы, взятые из более 100 тысяч книг, составляющих базу сервиса

Анастасия Гарькуша

NLP, Общество 16.03.2020

Как устроен шрифт Брайля и зачем его распознавать

Брайлевский шрифт придумали для передачи военных секретов, а в итоге он пригодился незрячим. Как устроен Брайль, зачем на нем пишут «зеркально» и почему нужно научиться распознавать не только печатный, но и рукописный брайлевский текст? Отвечает Ася Ройтберг, инициатор разработки алгоритма распознавания Брайля

Ася Ройтберг

NLP, Лингвистика 13.03.2020

Как управлять мамонтом: генерируем нужные тексты с помощью моделей Plug and Play

Нейросети хорошо порождают правдоподобный текст. Но как заставить их писать на нужную тему, да еще и с нужным отношением к этой теме (положительным, нейтральным или отрицательным)? Рассказываем про решение, которое позволяет «донастраивать» языковую модель под себя

Системный Блокъ

NLP, Как это работает 11.03.2020

Как работает FastText и где ее применять

NLP-библиотека FastText от Facebook Research стала следующим после Word2Vec большим шагом в развитии векторных семантических моделей и машинного обучения в обработке текста. Рассказываем, чем хороши модели FastTest — и как и где с ними поработать

Ксения Михайлова

NLP, Общество 06.03.2020

Fembot’s tale: как виртуальным помощникам добиться равенства с людьми

На наших глазах происходит один из первых кибер-витков истории человечества. Виртуальные помощники выходят из зоны покорных слуг и обретают больше самостоятельности и субъектности

Наталья Крякина

NLP 05.02.2020

Корпус для всех: как используют НКРЯ

Кому и почему «важно, чтобы корпус жил»? Системный Блокъ узнал, как применяют Национальный корпус русского языка: от школьных исследований до изучения перевода культурных реалий

Анастасия Кловайт, Дарья Балуева

NLP, Новости 07.01.2020

Новый мобильный Google Translate: одинокая колбаса больше не увидит сельдерей

«Живой» перевод от Google в смартфонах стал лучше переводить тексты с фотографий

София Люба

NLP 06.01.2020

Искусственный интеллект создает новогоднее настроение: 5 праздничных проектов

Нейронные сети научились сочинять рождественские колядки, подписывать поздравительные открытки, находить по-зимнему заснеженные территории и делать предсказания на будущий год. В разгар праздничных каникул публикуем подборку самых ярких новогодних AI-экспериментов

Анастасия Уткина

NLP, Как это работает 13.12.2019

Помедленнее, я записываю!

Как работает распознавание речи и зачем оно вообще нужно

Наталья Крякина

NLP, Гайды 06.12.2019

Ищем смыслы: как сделать тематическое моделирование корпуса текстов

Тематическое моделирование — легкий способ понять смысловой состав большой коллекции текстов, которую невозможно быстро прочесть глазами. Пользоваться инструментами тематического моделирования может каждый — а научиться можно в нашем тьюториале. Здесь вы найдете пошаговое руководство с решением основных технических трудностей

Даниил Скоринкин

NLP 02.12.2019

Как начать свой путь в NLP (не путать с НЛП)

Хотите разобраться в автоматической обработке языка и стать NLP-инженером? Вам сюда

Анастасия Гарькуша, Анастасия Кловайт

NLP 25.11.2019

Кто это сказал? Разбирается Google AI

Как работает новый инструмент распознавания речи и автоматического определения говорящего

Екатерина Смирнова

NLP 11.11.2019

YouTube на русском, зулусском и урду: как тестируют перевод интерфейсов

Видеохостинг YouTube имеет локализации в 100 с лишним странах — это значит, что для них есть специальная локальная версия сайта (а то и не одна). Например, когда вы заходите в YouTube из России, вы видите меню на русском языке. Такие же меню есть не только на языках-гигантах вроде английского, испанского или китайского, но и, к примеру, на суахили, эстонском, зулусском, урду, африкаансе, узбекском... А как оценивать качество перевода всех этих кнопочек в меню и их понятность для пользователей?

Системный Блокъ

NLP, Образование 04.11.2019

Разбираем по частям научно-популярные ресурсы

Научпоп стремительно обзаводится почитателями по всему миру. Какие ученые хотят рассказать о своей работе больше всего, что ресурсы и паблики для этого делают и какими характеристиками обладает типичный научно-популярный текст?

Дарья Максимова, Евгений Глазунов

NLP 28.10.2019

Семантические сети: как представить значения слов в виде графа

Компьютерные лингвисты из Вышки, университета Тренто и университета Осло разработали vec2graph — инструмент для визуализации семантической близости слов в виде сети. Воспользоваться vec2graph может любой желающий. Рассказываем, как это работает и зачем нужно

Надежда Катричева, Даниил Скоринкин

NLP, Лингвистика 25.10.2019

Акцентуаторы. Памяти А.А. Зализняка. Часть III

Великое, могучее, свободное, подвижное. От праславянской акцентуации к нейросетевым программам автоматической расстановки ударений

Ольга Чхотуа

NLP, Лингвистика 18.10.2019

Зачем нужна карта метафор?

На литературе в школе нас учили, что метафора — это что-то такое из стихов Пушкина. Помните, как учительница затирала про «образное сравнение»? Но на самом деле метафорами пронизан весь наш язык (даже эта фраза), и их исследование может многое сказать о том, как мы говорим и мыслим. А зачем нужна цифровая карта метафор?

Алена Соколова

NLP 15.10.2019

Нейросеть-предатель: алгоритм обучили выявлять тексты-подделки

Нейросети научились неплохо подражать человеку в написании текста. Но теперь есть симметричный ответ: системы обнаружения текста, порожденного нейросетями. Запасаемся попкорном и следим за битвой брони и снаряда в искусственном интеллекте

Екатерина Смирнова

NLP 11.10.2019

Перенос стиля нейросетями: Дрейк, Летов, Оксимирон

Авторский стиль тяжело определить формально — это целый комплекс деталей, которые заметны человеческому глазу, но могут ускользнуть от компьютера. Указать на характерный выбор слов, конструкций, моделей легко, но как рассказать алгоритму про метафоры или научить его распознавать другие тонкие материи?

Дарья Максимова

NLP 03.10.2019

CAT-системы и будущее перевода

Все любят котиков… особенно переводчики. Рассказываем о CAT-системах: чем и как сегодня переводят

Татьяна Дубинина

NLP 24.09.2019

Чат-бот подбирает парфюм

Как подобрать духи, если не смыслишь в парфюмерии, и чем пахнет Digital Humanities

Анастасия Бодрова

NLP, Лингвистика 06.09.2019

«Слово о полку Игореве» как улика. Памяти А.А. Зализняка. Часть II

Почему «Слово о полку Игореве» не смогли бы создать инопланетяне или нейросеть, и при чем тут берестяные грамоты?

Ксения Костомарова

NLP 19.08.2019

Нейросеть расшифровала древние надписи

Исследователи из MIT и Google Brain объединились для создания алгоритма, который имеет шанс повторить подвиг Майкла Вентриса — он в 1950-е годы расшифровал одну из древних форм критского письма. Пока что нейросеть научилась читать угаритский, копируя типичные действия ученых-дешифровщиков

Дарья Оверникова

NLP 01.08.2019

Translate-баттл: могут ли онлайн-переводчики передавать стиль текста?

«Мой мозг застрял в черепе», «He was introduced to the wells», «филиал исследований» и другие приключения онлайн-перевода

Анастасия Гарькуша

NLP 26.07.2019

8 главных прорывов в нейросетевом NLP

Как компьютерная лингвистика подсела на нейронные сети и диплернинг, какие подходы сегодня в тренде и почему они так хороши

Виктория Терехова

NLP 25.07.2019

Сможет ли компьютер распознавать ложь: ИИ против fake-news

Распознавание лжи в текстах методами компьютерной лингвистики и машинного обучения – сравнительно новое направление в науке. Разбираемся, как это работает и чего ждать от этих разработок в будущем

Мария Захарова

NLP 19.07.2019

Что такое кросс-языковая морфология и зачем она нужна

Машинный перевод и другая компьютерно-лингвистическая магия работают тогда, когда есть много данных для обучения нейросетей. Но что делать, если язык редкий и данных почти нет? Рассказываем про хитрый способ выкрутиться с помощью лингвистики

Анастасия Кловайт

NLP 16.07.2019

Это фиаско, мистер Переводчик!

Mr.Translator, переводчик на основе искусственного интеллекта, провально отработал на международном форуме. И это уже не первый случай, когда реальное качество системы оказалось совсем не таким, какое обещали оптимисты-разработчики. Будущее машинного перевода под угрозой?

Татьяна Дубинина

NLP 26.06.2019

Нейронные сети в машинном переводе: статус-кво

Что сейчас происходит в нейронном машинном переводе и каково состояние дел в отрасли? Публикуем рассказ ведущего разработчика систем машинного обучения

Евгений Матусов

NLP 17.06.2019

Розовые слоны и красные деревья: цвета в языке и в реальной жизни

Компьютерная лингвистика утверждает, что слоны розового цвета. Разбираемся, как так вышло

Елизавета Кузьменко

NLP 07.06.2019

Машинный перевод становится синхронным

Вавилонская рыбка все ближе к вашему уху! Синхронный машинный переводчик STACL начинает выдавать перевод предложения до того, как прозвучит окончание фразы на языке оригинала. Но получится ли сравниться по качеству с человеком?

Системный Блокъ

NLP 06.06.2019

У вас вся спина белая: как искусственный интеллект учится шутить

Шутки — дело серьезное. Исследовательница из Стенфорда Хё Хё точно это знает, потому что она разрабатывает генератор каламбуров для искусственного интеллекта и даже устраивает соревнования живых комиков и машин. Пока наши выигрывают, но Хё не собирается прекращать работать над шуточным генератором

Евгения Заковоротная

NLP, Лингвистика 30.05.2019

Фасолина или яйцо? С чем сравнивают размеры вещей

Какие метафоры популярны при описании габаритов предмета, как они изменялись со временем и почему из сравнений исчезли голубиные яйца

Вера Шимко

NLP 08.05.2019

Он сказал, Она сказала: Рассмотрение гендера в нейронном машинном переводе

Как Google Translate умножает стереотипы

Системный Блокъ

NLP 03.05.2019

Что не так с машинным переводом?

Так ли хороши нейросети под капотом Google.Translate? Разбор с пристрастием

Анжела Акопян

NLP 30.04.2019

Как машинный перевод оценивает… машина?

Если качество машинного перевода проверяет человек, то это долго и дорого. А если нужно быстро и дёшево?

Системный Блокъ

NLP, Лингвистика 29.04.2019

Когда вандалы не вандалы

Быт и нравы древних германцев в рунических надписях

Системный Блокъ

NLP 18.03.2019

Что в смайлике тебе моем?

🆕 семантический анализ эмодзи или как мы выучили новый язык сами того не подозревая

Ксения Костомарова

NLP 15.03.2019

Машинный перевод: как это работает

Нейросети отбирают хлеб у переводчиков!

Татьяна Дубинина

NLP 06.03.2019

Мне только спросить: лингвистика и большие данные объединяются для помощи врачам

Не можете разобрать врачебный почерк? NLP спешит на помощь!

Системный Блокъ

NLP, Лингвистика 27.02.2019

Как геймеры древнеегипетское письмо расшифровывали

Фанаты Assassin’s Creed за одну ночь помогли собрать материал для переводчика египетских иероглифов

Кира Харлашова

NLP, Лингвистика 25.01.2019

Берестяные грамоты от раскопа до компьютера. Памяти А.А. Зализняка. Часть I

Аесова и другие: откуда и благодаря кому мы знаем, как ругались русские люди в XII веке?

Системный Блокъ

NLP 08.01.2019

Не Эллочка-людоедка: рэперы с самым богатым словарным запасом

Тексты Шекспира, Мелвилла и современных хип-хоп-музыкантов сквозь призму методов лексического анализа и ранжирование рэперов по количеству уникальных слов

Вера Шимко

NLP 12.12.2018

Не такие уж и лирики: компьютерные технологии для гуманитариев

Визуализация, тематическое моделирование и другие методы автоматической обработки текста

Татьяна Дубинина

NLP 03.12.2018

Не бездушная машина

Могут ли роботы сострадать? Искусственный интеллект для тяжелых эмоций и сложных ситуаций

Даниил Скоринкин

NLP 15.11.2018

Рождение говорящих машин

Сейчас каждый может закадрить яндексовскую Алису — и отхватить виртуальную пощечину. Но так было не всегда

Вусале Агасиева

NLP 10.10.2018

Железные аргументы: как устроен Project Debator

Разбираемся во внутренностях Project Debator — искусственного интеллекта от IBM, которому удалось переспорить чемпионов дебатов. Спойлер: Без помощи Аристотеля не обошлось

Василиса Борзова

NLP 08.10.2018

Во что превращается жизнь без любви

Как компьютеры сравнивают значения слов, и почему это бывает смешно

Даниил Скоринкин

NLP 06.10.2018

Нейросеть научилась диагностировать депрессию

Скоро у тебя в смартфоне появится автоматический диагност, который первым заметит, что ты чот приуныл

Даниил Скоринкин

NLP 04.09.2018

«По глазам вижу»: как оценить знание английского с помощью айтрекинга

Мы стали на шаг ближе к тому, чтобы заменить утомительные тесты по английскому наблюдением за тем, что делают зрачки во время чтения иностранного текста

Василиса Борзова