NLP

В рубрике «NLP» собраны материалы об обработке естественного языка и технологиях, которые работают с текстом и речью. Здесь мы объясняем, как устроены большие языковые модели, чат-боты, машинный перевод, поиск и другие инструменты на стыке лингвистики и компьютерных наук.

NLP 28.05.2026

Что делать лингвисту в NLP в эпоху LLM

Вы — лингвист и вам кажется, что ваш труд теряет ценность на фоне успеха больших языковых моделей? Не спешите с выводами. Хотя обработка естественного языка больше не строится на лингвистике и правилах, работа в этой области все еще есть. Лингвисты могут сделать работу ИИ точнее, этичнее и понятнее — от разметки данных до оценки качества генерации

Яна Хлусова, Елизавета Кузьменко

NLP 19.05.2026

Какая математика нужна джуну в NLP?

Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну, как они связаны с токенизаторами, генерацией текста и нейросетями и почему понимание базовых концепций помогает перестать воспринимать модели как магию

Марина Севостьянова

NLP, Образование 06.05.2026

Списывание XXI века: как определить, что эссе написал ИИ

Трансформеры с помощью fine-tuning узнают, написал ли эссе искусственный интеллект или человек. Рассказываем о различных методах идентификации ИИ-текста и актуальных моделях

Алия Закирова

NLP 12.03.2026

Пьющих просьба не беспокоить: анализируем язык объявлений о сдаче квартир с помощью LLM

Что нужно человеку, чтобы снять квартиру в России? Каждый, кто читал объявления на популярных сайтах, знает, что нужно не только заплатить за аренду, но и соответствовать требованиям арендодателя. Чтобы узнать, какие требования оказались самыми распространенными, а какие удивят даже самого опытного квартиросъемщика, мы обработали 15 тысяч объявлений с помощью LLM

Дарья Балуева

NLP 11.03.2026

Нейросеть-алкотестер: как ваша речь может выдать вас с головой

Алкотестер в каждой машине — звучит слишком хорошо, чтобы быть правдой? А если алкотестер — это ваш собственный голос? Достаточно сказать пару фраз, чтобы машина определила, что садиться за руль сейчас нельзя, и тем самым спасла жизнь вам или кому-то еще на дороге. Похоже на сценарий фантастического фильма, но исследователи уже работают над тем, чтобы превратить это в реальность. Разбираемся, как они учат нейросети слышать то, что не слышим мы, и при чем здесь немецкие скороговорки

Руслана Зобнина

NLP 04.02.2026

Ничего, кроме правды: как заставить LLM сомневаться в своих ответах

Почему большие языковые модели врут с абсолютной уверенностью? Можно ли заставить их быть интеллектуально честными? Ответ кроется не в этике, а в распределениях вероятностей и архитектуре нейросетей. Разбираемся, как большие языковые модели оценивают (вернее, не оценивают) свою уверенность и как научить их честно говорить «я не знаю»

Роза Басс

NLP, Лингвистика, Филология 08.12.2025

Что такое фреймбанки и зачем экономистам лингвистика

Остаётся ли завтрак завтраком, если в течение дня нет ни обеда, ни ужина? С точки зрения лингвистики, это непростой вопрос. В лингвистике существует множество теорий, чтобы описать значение в естественном языке. Большинство из них абстрактны и редко находят практическое применение, но есть исключение — фреймовая семантика. О том, что такое семантический фрейм, как устроены базы данных таких фреймов, как специалисты по NLP применяют их для анализа рынка ценных бумаг и что такое на самом деле «завтрак», читайте в новом материале «Системного Блока»

Яков Львовский

NLP, Дайджест 08.10.2025

Нейротикток от OpenAI, новая модель Anthropic, новый тест для LLM

OpenAI выпустила Sora 2, приложение с ИИ-тиктоками и новый тест, проверяющий производительность LLM в реальных рабочих задачах, Anthropic обновила свою модель — что произошло в мире ИИ за последнее время.

Михаил Ким

NLP, Дайджест 27.09.2025

Нейросети помогают ученым исследовать уравнения, LLM побеждают в олимпиаде по программированию

Ученые придумали автоматический способ исследования математических задач с помощью нейросетей, LLM от Google и OpenAI заняли призовые места в международной олимпиаде по программированию.

Михаил Ким

NLP, Лингвистика 17.09.2025

Как узнать тематический состав корпуса для обучения LLM

Датасет в машинном обучении — структурированный набор данных, который используется для тренировки моделей. Чтобы обучить большую языковую модель (LLM), датасеты должны быть крупными. Сегодня посмотрим на инструмент BunkaTopics, который позволяет исследовать их — узнавать тематическую составляющую, очищать и проверять, нет ли в данных смещения.

Яна Хлусова

NLP, Дайджест 11.09.2025

Anthropic согласилась заплатить правообладателям книг, новый лучший генератор изображений от Google и полностью открытая LLM из Швейцарии

Anthropic готова заплатить 1,5 млрд долларов за использование пиратских книг, новая модель для генерации изображений от Google и открытая мультиязычная LLM из Швейцарии — что произошло в мире ИИ за последнее время.

Михаил Ким

NLP, Дайджест 08.09.2025

Новый DeepSeek, интерактивная симуляция миров от Google и Grok-2 в открытом доступе

Обновление DeepSeek, модель Grok-2 в open-source, нейросеть-симулятор от Google — рассказываем, что произошло в мире ИИ за последнее время.

Михаил Ким

NLP, Дайджест 04.08.2025

Нейросети Google и OpenAI победили в олимпиаде, новые китайские LLM

Языковые модели Google и OpenAI впервые получили золото в математической олимпиаде, вышли новые модели линейки Qwen3.

Михаил Ким

NLP, Дайджест 21.07.2025

Новая LLM от Маска, агент от OpenAI, самая большая open-source LLM

Лаборатория Илона Маска выпустила обновление модели Grok, OpenAI представила ИИ-агента, стала доступна самая большая open-source LLM — что произошло в мире ИИ за последнее время.

Михаил Ким

NLP, Дайджест 07.07.2025

Meta* переманивает сотрудников OpenAI, Anthropic победила правообладателей книг, Apple отдает Siri на аутсорс

Meta переманивает исследователей OpenAI, суд не нашел нарушений в обучении LLM от Anthropic на книгах, Apple планирует отдать разработку Siri одной из ключевых ИИ-компаний — что произошло в мире ИИ за последнее время.

Михаил Ким

NLP, Дайджест 23.06.2025

Midjourney научилась генерировать видео, Meta* инвестирует в Scale AI, Mistral сделала рассуждающую LLM

Видеогенерация в Midjourney, инвестиции Meta в компанию по разметке данных, новая модель Mistral — что нового в мире ИИ произошло за последнее время.

Михаил Ким

NLP, Дайджест 09.06.2025

Обновление DeepSeek R1, суперкомпьютер OpenAI в ОАЭ, Grok в Telegram

DeepSeek R1 обновился, OpenAI строит суперкомпьютер в ОАЭ, в Telegram появятся ИИ-функции на основе Grok — что произошло в мире ИИ за последнее время.

Михаил Ким

NLP, Дайджест 26.05.2025

Google выпускает новые продукты, Claude 4 шантажирует пользователей, OpenAI покупает компанию Джони Айва

Компания Google представила новые AI-продукты, Anthropic выпустила свежие версии своих моделей, бывший главный дизайнер Apple разработает новое устройство для OpenAI — что произошло в мире ИИ за последнее время.

Михаил Ким

NLP, Дайджест 05.05.2025

ИИ-поиск от Google, третья Qwen и модель-подхалим GPT-4o

Google открыла доступ к ИИ-поиску американским пользователям, вышло третье поколение языковой модели Qwen, OpenAI после жалоб пользователей вернула менее подобострастную версию GPT — что произошло в мире ИИ за последнее время.

Михаил Ким

NLP, Дайджест 21.04.2025

Новые версии GPT, прогнозы развития ИИ

OpenAI представила сразу несколько обновленных моделей (GPT-4.1, o3 и o4-mini), вышел детальный прогноз развития ИИ до 2027 года — что произошло в мире ИИ за последнее время.

Михаил Ким

NLP, Дайджест 07.04.2025

Новая Llama 4, новый лидер Gemini 2.5 Pro, новые картинки от GPT

Вышло новое поколение Llama, Gemini 2.5 Pro стала лучшей LLM, а GPT сильно улучшила генерацию изображений — что произошло в мире ИИ за последнее время.

Михаил Ким

NLP, Дайджест 10.03.2025

Огромная GPT, новая модель от Anthropic и OCR от Mistral

Более человечная GPT-4.5, новая флагманская модель от Anthropic и OCR от Mistral — что произошло в мире ИИ за последнее время.

Михаил Ким

NLP, Дайджест 24.02.2025

Новая LLM от Маска, генератор видео от Google стал доступен, стартап бывшей техдиректрисы OpenAI

Лаборатория Илона Маска обновила модель Grok, лучшая нейросеть для генерации видео от Google стала доступна, бывшая топ-сотрудница OpenAI рассказала про свой новый стартап — что произошло в мире ИИ за последнее время.

Михаил Ким

NLP, Дайджест 10.02.2025

Шум вокруг DeepSeek, «глубокий ресерч» от OpenAI, новые LLM от Google

Что происходит после выхода нашумевших моделей от DeepSeek, как работает новый автономный исследователь от OpenAI, какие обновления получили LLM семейства Gemini от Google — рассказываем, что произошло в мире ИИ за последнее время.

Михаил Ким

NLP, Дайджест 27.01.2025

Дата-центры стоимостью 500 млрд долларов, ИИ-агенты и открытый конкурент OpenAI o1

OpenAI и SoftBank должны создать инфраструктуру для ИИ стоимостью 500 млрд долларов по предложению Дональда Трампа, сразу несколько компаний выпустили ИИ-системы для автоматического выполнения задач на компьютере, китайская DeepSeek выложила конкурента модели o1 от OpenAI в открытый доступ — что произошло в мире ИИ за последнее время.

Михаил Ким

NLP 10.01.2025

История развития диалоговых систем: от распознавания цифр до Siri

В какой момент чат-боты стали повсеместными онлайн-собеседниками? И как у них получается воспроизводить естественный разговор? Краткий обзор того, как говорящие машины постепенно учились и становились более человечными.

Роман Ковалев

NLP, Филология 08.01.2025

Думать или делать: исследуем глаголы в английской литературе

Что важнее для создания целостного образа персонажа в литературе: его слова или его действия? Как выбор глаголов отражает индивидуальность героя? Рассказываем о недавнем исследовании корпуса английской прозы, которое даёт ответы на эти (и не только) вопросы.

Системный Блокъ

NLP, Дайджест 30.12.2024

Новые рассуждающие модели от OpenAI и Google, open-source-конкурент GPT и Claude

Новая модель o3 от OpenAI вырывается вперёд, китайская DeepSeek создала конкурента для лучших LLM, Google выпустила свою первую рассуждающую модель — что произошло в мире ИИ за последнее время.

Михаил Ким

NLP, Гайды 17.12.2024

Как провести анализ тональности текста

Эмоции и их выражение в тексте — важная часть человеческой коммуникации. Но как зафиксировать эти тонкие и динамичные изменения, особенно в больших текстах? Как формально визуализировать эмоциональное содержание текста, превратив его в график? Ответы на эти и многие другие вопросы можно получить, построив кривые эмоциональной тональности выбранных текстов. О том, как это сделать, вам расскажет этот гайд!

Дмитрий Пронин

NLP, Дайджест 16.12.2024

Новинки от OpenAI, новая LLM от Google, модель для генерации изображений от лаборатории Маска

OpenAI составляет «адвент-календарь» из новых релизов, Google обновил свою LLM, а xAI Илона Маска выпустила нейросеть для генерации изображений — что произошло в мире ИИ за последнее время.

Михаил Ким

NLP, Лингвистика, Филология 14.12.2024

A real area: что такое ареальная типология и как её изучают цифровыми методами

В мире почти 7000 языков, и они очень разные. Лингвистическая типология — раздел науки о языке, описывающий эти различия. Часто, хотя и не всегда, сходство языков обусловлено географически — тогда языки можно даже объединить в языковые ареалы. Но выделять их вручную — задача трудоёмкая и полная неоднозначностей. Тут на помощь исследователям приходят вычислительные методы.

Яков Львовский

NLP, Дайджест 18.11.2024

Языковые модели упёрлись в потолок, AlphaFold3 в открытом доступе, новые LLM для генерации кода

Компаниям, работающим над языковыми моделями, стало сложнее их улучшать, нейросеть для расшифровки белков AlphaFold3 теперь доступна исследователям, новые версии моделей от Qwen для генерации кода — что произошло в мире ИИ за последнее время.

Михаил Ким

NLP, Дайджест 04.11.2024

Поисковики с ChatGPT и Gemini, новые релизы от Anthropic, открытые модели для генерации видео

OpenAI и Google объединяют LLM и поисковые системы, Anthropic обновила свои языковые модели, а компания Genmo выпустила самую большую на сегодня открытую модель для генерации видео с 10 млрд параметров.

Михаил Ким

NLP, Дайджест 21.10.2024

Нобелевские премии за нейросети, ИИ-функции в приложениях Adobe, новые модели от Mistral

Две нобелевские премии вручены за работы, связанные с машинным обучением, Adobe добавила новые ИИ-функции в свои продукты, Mistral представила новые компактные языковые модели — рассказываем, что произошло в мире ИИ за последнее время.

Михаил Ким

NLP 17.10.2024

10 слов машинного обучения

Что такое языковые модели, как их обучают и зачем нужна тестовая выборка? Объясняем основные термины машинного обучения.

Михаил Ким

NLP, Дайджест 07.10.2024

Большие изменения в OpenAI, долгожданное обновление голосового режима GPT, новые LLama

Техническая директриса OpenAI ушла из компании, а сооснователь перешёл к конкуренту, GPT получила обновлённый голосовой режим, Meta и Google выпустили новые модели — что произошло за последнее время в мире ИИ.

Михаил Ким

NLP, Дайджест 23.09.2024

Новые модели от OpenAI, Mistral делает ИИ доступнее и запаздывающий Apple Intelligence

OpenAI представила модель, способную «рассуждать», француский стартап Mistral снизил цены на свои модели, Apple отстаёт в гонке за ИИ машинного обучения в смартфонах — что произошло за последнее время в мире ИИ.

Михаил Ким

NLP, История 27.08.2024

Может ли робот прочитать папирус: как ИИ помогает восстанавливать утраченные тексты

Кажется, история из «‎Гостьи из будущего», где один из героев спасал рукописи из Александрийской библиотеки, стала реальностью. В начале 2024 года исследователям удалось прочитать сгоревший папирус из Геркуланума с помощью искусственного интеллекта.

Анна Гребенникова

NLP, Дайджест 12.08.2024

Исход людей из OpenAI, новые модели для решения математических задач и SAM 2

Сооснователь OpenAI ушёл к конкурентам, а технический директор объявил о длительном отпуске, релиз семейства математических моделей Qwen и новая модель для сегментации объектов на изображениях и видео от Meta*. Рассказываем, что произошло в мире ИИ за последние две недели.

Михаил Ким

NLP, Дайджест 29.07.2024

Новые модели от OpenAI, Mistral и Meta*: дайджест новостей ИИ

OpenAI выпустила компактную дешёвую версию GPT-4, Meta* обновила семейство моделей LLama 3, релиз четырёх новых LLM от Mistral. Рассказываем, что произошло в мире ИИ за последние две недели.

Михаил Ким

NLP, Дайджест 15.07.2024

Новая модель для дизайна белков, скорый выход самой большой LLama и FlashAttention 3

Llama 3 с 405 миллиардами параметров выйдет в конце июля. Компания EvolutionaryScale представила большую модель для дизайна белков. В главный блок всех языковых моделей на трансформерной архитектуре — блок внимания (attention) — добавили новые оптимизации. Рассказываем, что произошло в мире ИИ за последние две недели.

Михаил Ким

NLP, Дайджест 24.06.2024

Новый лидер среди LLM, «безопасный сверхинтеллект» от бывшего топ-исследователя OpenAI и конкуренты Sora

Большая языковая модель от Anthropic обходит последнюю GPT, компания бывшего ведущего исследователя OpenAI обещает «безопасный сверхинтеллект», у Sora появились новые конкуренты в генерации видео. Рассказываем, что произошло в мире ИИ за последние две недели.

Михаил Ким

NLP, Дайджест 10.06.2024

Новые открытые языковые модели, критика OpenAI от бывшего сотрудника и большой отчёт об опасностях общего ИИ

Новые открытые языковые модели, бывший сотрудник OpenAI раскритиковал компанию за безответственный подход к разработке, детальный отчёт о будущем общего ИИ и последствиях его появления. Рассказываем, что произошло в мире ИИ за прошедшие две недели.

Михаил Ким

NLP, Музыка 05.06.2024

Музыкальная «энциклопедия русской жизни»: о чём пела русскоязычная поп-эстрада с 1990 по 2019 год

Популярная музыка транслирует социальные нормы. Чем популярнее музыка, тем больше людей могут себя с ней соотнести. На какие детали быта обращала внимание постсоветская поп-музыка в первые 30 лет своего существования? Кого из исполнителей можно назвать главными «бытописателями»? Попробуем разобраться в этом материале.

Анастасия Панасюк

NLP, Дайджест 27.05.2024

Google встраивает языковую модель в поиск, Скарлетт Йоханссон обвиняет OpenAI, исследователи стали лучше понимать и контролировать ИИ

Google начала использовать свою языковую модель Gemini для суммаризации информации из поисковой выдачи. OpenAI подозревают в несанкционированном использовании голоса актрисы Скарлетт Йоханссон. Anthropic выпустили большое исследование интерпретируемости нейронных сетей. Рассказываем, что произошло в мире ИИ за прошедшие две недели.

Михаил Ким

NLP, Дайджест 16.05.2024

GPT-4o научилась смеяться и петь, LSTM-нейросети наносят ответный удар, ChatGPT встроят в iPhone: дайджест ИИ-новостей

OpenAI выпустила новую версию GPT-4. Apple и OpenAI завершают сделку о сотрудничестве. Авторы архитектуры LSTM выпустили её обновление, которое не хуже Transformer. Google DeepMind анонсировала AlphaFold 3 — нейросеть, способную моделировать широкий спектр биомолекул. Рассказываем, что произошло в мире ИИ за прошедшие две недели.

Михаил Ким

NLP, Дайджест 17.04.2024

Новая открытая языковая модель, обновление GPT-4 и скорый выход LLaMa 3: дайджест новостей из мира ИИ

Метеорологи обещали осадки в виде LLM: новая открытая языковая модель, обновление GPT-4 и скорый выход LLaMa 3.

Михаил Ким

NLP, Дайджест 02.04.2024

GPT-4 больше не лучшая языковая модель, суперкомпьютер за 100 млрд долларов и новые открытые модели

OpenAI и Microsoft строят суперкомпьютер для нейросетей, модель Claude 3 Opus от Anthropic обошла GPT-4 в одном из основных рейтингов, Илон Маск опубликовал свою большую языковую модель без цензуры.

Михаил Ким

NLP, Дайджест 18.03.2024

Автономный ИИ-инженер и новое о Sora: дайджест новостей в мире искусственного интеллекта

Создатели Sora рассказали, откуда брали видео для обучения, но кое о чем умолчали. Компания Cohere — один из главных конкурентов OpenAI/ChatGPT — выпустила модель с 35 млрд параметров. Вышла сопоставимая с трансформерами RNN-модель EagleX — неужели рекуррентные нейросети рано хоронить? Рассказываем, что произошло в мире ИИ за прошедшую неделю

Михаил Ким

NLP, Гайды 06.02.2024

Как автоматически расшифровать аудио: пошаговая инструкция для Whisper

Расшифровка аудиозаписи — дело утомительное и времязатратное. К счастью, появляется всё больше сервисов, которые умеют это делать автоматически. Рассказываем, как сделать это с помощью модели Whisper от OpenAI и смотрим, насколько хорошо она справляется с русскоязычными записями

Евгения Колпащикова

NLP, Лингвистика 06.05.2023

От древнерусского до корпуса блогов: как изменился Национальный корпус русского языка после редизайна

Национальный корпус русского языка (НКРЯ) — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной культурой. Изменения в работе НКРЯ были заметны ещё в 2019 году: тогда лингвисты высказали опасения о возможном закрытии сервиса. К счастью, проблемы оказались временными, и НКРЯ не только не прекратил свою работу, но и заметно изменился и расширился. Самым заметным обновлением стал новый дизайн сайта, но есть и много глубоких содержательных перемен. Об основных обновлениях в корпусе, очевидных и не очень — в нашем сегодняшнем материале.

Мария Подрядчикова

NLP, Как это работает 01.02.2023

С приветом из Англии: у мультиязычных языковых моделей обнаружился «английский акцент»

Если вы выучили иностранный язык во взрослом возрасте, вполне вероятно, вы говорите на нем не так же бегло, как носитель языка. Оказывается, подобная проблема встречается и у мультиязычных моделей: если в обучающей выборке для них преобладает английский, текст на других языках они будут генерировать «с английским акцентом». Объясняем, почему так происходит и что можно с этим сделать.

Мария Матвеева

NLP, Как это работает 04.10.2022

Большие языковые модели умеют рассуждать

Модель психики «Думай медленно… решай быстро» оказалась верна не только для людей, но и для больших нейросетей. Вслед за интуитивными навыками они приобретают и аналитические. Рассказываем, как языковые модели решают математические и логические задачи, если немного «подумают».

Михаил Ким

NLP, Гайды 12.07.2022

«Размечено»: как распознавать именованные сущности в исторических дневниках

Дневники людей, живших в различных исторических эпохах, могут многое сказать исследователю, но анализировать их вручную — тяжело и долго. Разбираемся, как цифровые инструменты используются для упрощения анализа дневниковых записей.

Тимофей Атнашев, Екатерина Волошина, Дарья Матяш

NLP, Гайды, Как это работает 01.03.2022

Как сделать тематическое моделирование

Рассказываем, как сделать тематическое моделирование для большого объема текста, предположить его содержание и разделить по темам

Макар Фёдоров

NLP 10.02.2022

Как работают диалоговые системы и чем они отличаются

Алиса Яндекса, Олег Тинькофф-банка и телеграм-бот для демотиваторов — одно и то же? Или нет? Разбираемся, как работают диалоговые системы и почему одни могут рассказать анекдот и поддержать диалог о жизни, а другие — сводить в кино и заказать пиццу.

Анна Аксёнова

NLP, История, Лингвистика 18.01.2022

«Впереди сущий сахарный голод»: что говорит о дневниках 1917 года анализ данных

Революция 1917 года — одно из крупнейших потрясений в российской истории. О чем думал Николай II в день отречения? Что волновало простых граждан? Какие темы поднимали в газетах? Мы проанализировали дневники очевидцев, которые собрал проект «1917. Свободная история», и выяснили, о чем в революцию писали чаще всего

Тимофей Атнашев

NLP, Компьютерное зрение, Тесты 08.01.2022

Русская классика глазами нейросети ruDALLE

Как видит русскую классику нейросеть ruDALLE? Пройдите тест и попробуйте угадать, что скрывается под изображениями

Даниил Скоринкин

NLP 18.08.2021

«Кладмен мудак»: анализ тональности отзывов о запрещенных веществах

Язык интернета имеет свои характерные черты. И если исследованию языка Рунета посвящено множество работ, то DarkNet все еще остается серым пятном в этом плане. С помощью анализа тональности текстов выясняем, какая лексика характерна для отзывов о запрещенных веществах.

Кирилл Конча

NLP, Как это работает, Лингвистика 21.07.2021

Как работает GPT-3 — самая продвинутая языковая модель

GPT-3 — самая известная из современных нейросетевых моделей языка. Вокруг нее много мифов, но модель действительно умеет впечатлить. Она отлично справляется с написанием целых эссе на заданную тему, удачно отвечает на вопросы, а также пишет стихи и программный код. Рассказываем, как работает GPT-3.

Светлана Бесаева

О проекте

Контакты

СОЦСЕТИ

Теги

Темы