NLP

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Агенты, которые самостоятельно планируют свои действия и пользуются внешними инструментами. Модели, способные работать с миллионами токенов. Системы, которые помогают сохранять языки коренных народов и выявлять гринвошинг. Разбираемся, какие тенденции определяют развитие языковых технологий в 2026 году и как вместе с техническими возможностями моделей меняются исследовательские приоритеты области

02.07.2026

Иллюстрация: Светлана Нагаева

Индустрия обработки естественного языка меняется так быстро, что еще недавно главной темой были генеративные модели, умеющие писать тексты и код, а сегодня в центре внимания — системы, которые могут планировать действия, пользоваться инструментами и доводить задачу до результата.

В 2026 году очевиднее становится также и другой тренд: чисто технический прогресс упирается в социальные и культурные ограничения. Эта статья не претендует на полный каталог всех инноваций в NLP. Скорее, это попытка проследить, куда смещается фокус индустрии и как перед ней встают вопросы не только о технологии, но и об этике.

От чат-ботов к ИИ-агентам

Одна из самых заметных тенденций 2026 года — развитие агентных систем. Индустрия перешла от моделей, которые просто отвечают на вопросы, к агентам, которые сами планируют задачу, разбивают ее на шаги, используют внешние инструменты, проверяют промежуточный результат и при необходимости исправляют собственные ошибки.

В практическом смысле агент — это не просто «умный чат-бот», а связка из языковой модели, памяти, инструментов, механизма планирования и цикла проверки. Такой системе недостаточно один раз сгенерировать правдоподобный текст: она должна последовательно пройти через поиск, выбор действия, взаимодействие с внешней средой и верификацию результата.

Насколько хорошо это работает на практике? Объективную картину дает отчет AI Index Report 2026, выпущенный Стэнфордским институтом человекоцентричного ИИ (Stanford HAI) [1].

Результаты оценки точности мультимодальных AI-агентов в бенчмарке OSWorld. Источник: AI Index Report 2026

Из него следует, что агенты стремительно умнеют: например, в бенчмарке OSWorld, который тестирует ИИ на самостоятельное управление компьютером в разных операционных системах, успешность моделей взлетела с 12 до 66,3% [2].

Это впечатляющий прогресс, но те же цифры показывают предел технологии: даже на структурированном тесте агент по-прежнему не справляется примерно с каждой третьей задачей. Поэтому вопрос уже не только «что агент умеет?», но и «насколько безопасно доверить ему действие без постоянного контроля человека?».

LLM нового поколения: reasoning, бесконечный контекст, специализация и мультимодальность

Параллельно меняются сами большие языковые модели, или LLM. Их развитие больше нельзя описать только числом параметров. Все заметнее становятся другие направления развития: усиленное рассуждение (reasoning), длинный контекст, специализация и мультимодальность.

Reasoning

Термин reasoning model обычно переводят как «рассуждающая модель», но воспринимать его буквально не стоит. Речь не о доказанном человеческом мышлении, а о техническом подходе, при котором система тратит больше вычислений на подготовку ответа: разбивает сложную задачу на промежуточные шаги, пробует разные пути и может исправлять часть собственных ошибок. Результаты таких моделей улучшаются, когда им предоставляют больше вычислительного времени на этапе ответа, а не только больше данных и ресурсов во время обучения.

Для пользователя разница заметна прежде всего в математических вычислениях, программировании, анализе нескольких условий или составлении плана. При этом внутренняя цепочка вычислений необязательно показывается целиком — пользователь обычно видит краткое объяснение или только итог.

Длинный контекст

Контекстное окно LLM — это то, как много информации она может «помнить» во время диалога с пользователем. Номинальные окна контекста у передовых моделей растут очень быстро. По данным Stanford HAI, с середины 2023 года их объем увеличивался почти в 30 раз ежегодно [1]. Если первые версии GPT-4 могли обрабатывать от 8 до 32 тысяч токенов [3], то, например, GPT-5.5 и Gemini 3.1 Pro поддерживают около 1 млн токенов [4, 5].

Чтобы представить этот масштаб, миллион токенов — это примерно восемь романов средней длины, 50 тысяч строк программного кода или расшифровки более 200 выпусков подкаста. Такое окно позволяет за один раз загрузить в модель несколько книг, комплект юридических документов, историю длительной переписки или значительную часть кодовой базы проекта и затем задавать вопросы по всему массиву.

Однако сам по себе размер контекстного окна не означает, что модель будет лучше понимать загруженный текст. Авторы отчета отмечают существенный разрыв между объемом данных, который модель может технически принять, и тем, который она способна эффективно обработать. Нейросети хорошо справляются с точечным поиском конкретного факта в большом документе. Но если задача требует найти несколько взаимосвязанных фрагментов или применить логические условия ко всему тексту, качество их работы резко падает — хотя для человека такие задачи обычно не составляют труда.

Ограничения моделей особенно заметны там, где недостаточно найти буквальное совпадение слов. В бенчмарке NoLiMa 2025 вопрос и нужный фрагмент почти не пересекаются по словам — чтобы найти ответ, модель должна сама установить смысловую связь, опираясь на фоновые знания или здравый смысл. При длине контекста в 32 тысячи токенов 10 из 12 моделей показали меньше половины своего результата на коротких входах. Даже у GPT-4o точность упала с 99,3 до 69,7% [6].

Специализация

Эпоха одной универсальной модели для всего постепенно уходит, и выбор системы все чаще зависит от конкретной задачи. Одни модели лучше подходят для сложной аналитики и программирования, другие — для агентных сценариев и длительных рабочих процессов, третьи — для мультимодального поиска и обработки видео, аудио и документов, поэтому сегодня важнее не абстрактное первое место в рейтинге, а соответствие модели реальному сценарию использования.

Мультимодальность

Под мультимодальностью обычно понимается способность LLM работать не только с текстом, но и с изображениями, аудио, видео, а также документами разных форматов (вроде PDF) в рамках одной системы. Для пользователя это означает, что одна и та же модель может читать отчет, интерпретировать диаграмму, анализировать изображение и отвечать на вопросы по аудиозаписи.

Оценивать такие возможности сложнее, чем обычные ответы на вопросы. Иногда модель угадывает результат по текстовой подсказке и почти не использует изображение. Поэтому в тесте MMMU-Pro исследователи удалили вопросы, на которые можно ответить без визуальной информации, увеличили число вариантов ответа и добавили режим, где весь вопрос представлен внутри изображения [7]. Такие проверки помогают отделить настоящее объединение текста и изображения от поверхностного угадывания.

Мультиязычность и малоресурсные языки

По оценке ЮНЕСКО, под угрозой находится не менее 40% из 7000 используемых сегодня языков [8]. Многие из них одновременно оказываются малоресурсными: для них не хватает цифровых текстов, аудиозаписей, словарей, размеченных корпусов и готовых программных инструментов.

Малоресурсный язык — необязательно язык с несколькими десятками носителей. Даже язык с большим количеством носителей может быть плохо представлен в обучающих данных.

Когда язык почти отсутствует в цифровой среде, его носители получают меньше доступа к переводу, образованию, государственным услугам и новым технологиям. Решения, которые хорошо работают для английского благодаря огромному количеству данных и развитой инфраструктуре, нельзя автоматически перенести на другие языки. Поэтому разработчики не просто увеличивают число языков в списке поддерживаемых, но и пересматривают способы сбора данных, обучения и оценки систем.

Показательный пример — исследовательское соревнование AmericasNLP 2026. Участники получают изображения, связанные с жизнью и культурой коренных народов Америки, и создают системы, способные самостоятельно составлять к ним подписи на их языках брибри, гуарани, юкатекском майя, виксарика и науатле. Система должна понять, что изображено, и описать это на языке сообщества, используя подходящие названия предметов и культурных практик. Сначала результаты оцениваются автоматически, а пять лучших систем дополнительно проверяют люди.

Другой пример того, как индустрия решает проблему малоресурсных языков на практике, — датасет SMOL. В совокупности он охватывает 123 малоресурсных языка и 125 языковых пар. Среди них — зарма, мооре, кокборок, тувинский, тумбука, лигурийский и другие языки. Большую часть переводов заказали у специалистов, а для некоторых языков материалы подготовили или дополнили волонтеры. В SMOL вошли 863 лексически разнообразных предложения и 584 связных текста: первые помогают модели освоить больше слов, а вторые — увидеть, как они используются в контексте. Чтобы не тратить ограниченный бюджет на перевод повторяющихся или бессмысленных примеров, исследователи совместили автоматический отбор с ручной проверкой: алгоритм предлагал предложения, а специалист выбирал наиболее полезные, редактировал их и отбраковывал неудачные варианты. Затем исследователи дополнительно обучили на данных SMOL модель Gemini 2.0 Flash. Качество перевода выросло для разных групп языков, но наиболее заметным улучшение оказалось для языков, которые не поддерживались Google Translate и не были близки к представленным в нем языкам [9].

В сборе и проверке данных участвуют региональные исследовательские институты, языковые эксперты и представители самих сообществ. Это особенно важно: носители могут заметить не только грамматические ошибки, но и неуместные слова, искаженные культурные значения или формулировки, которые формально выглядят правильными, но в живой речи не используются.

Существуют и инициативы, которые занимаются созданием не конкретной модели, а подготовкой людей к ответственной работе с языками. CoLang 2026 — трехнедельная международная образовательная программа для ученых, преподавателей, языковых активистов и представителей сообществ. Важная идея CoLang состоит в том, что исследователи должны не просто собирать данные для собственных проектов, а выстраивать долгосрочное сотрудничество и учитывать потребности самого сообщества.

На уровне технологий одним из наиболее известных многоязычных проектов остается No Language Left Behind, или NLLB, — семейство моделей машинного перевода, разработанное Meta* для 200 языков, включая многие малоресурсные [9]. Его цель — уменьшить разрыв в качестве перевода между языками, для которых существует много обучающих данных, и теми, которые почти не представлены в цифровой среде.

Еще одно развивающееся направление — непрерывное обучение моделей. Оно позволяет постепенно добавлять новые языки в уже обученную систему, не начиная обучение с нуля. Главная сложность состоит в том, что после адаптации к новому языку модель может начать хуже работать с теми, которые знала раньше. Это явление называют катастрофическим забыванием, а новые методы пытаются его уменьшить [10].

Все эти примеры показывают, что многоязычность нельзя свести к количеству языков в меню приложения. Для малоресурсного NLP важны происхождение данных, участие носителей, культурная точность и возможность сообщества влиять на то, как его язык представлен в технологии.

NLP для устойчивого развития

Еще одно заметное направление — NLP for Social Good, то есть применение языковых технологий для решения общественно значимым проблем. В обзоре NLP for Social Good, опубликованном на конференции EACL 2026, авторы выделяют девять таких направлений: здравоохранение, образование, борьбу с бедностью, миротворчество, защиту окружающей среды, снижение неравенства, борьбу с вредоносным поведением в интернете и дезинформацией, а также предотвращение негативных последствий самого ИИ [11]. Авторы соотносят эти области с целями устойчивого развития ООН и современными глобальными рисками.

Одно из активно развивающихся направлений — психическое здоровье. NLP используют, например, для поиска признаков депрессии и зависимостей в клинических текстах и публикациях в социальных сетях, создания поддерживающих ответов, отслеживания изменений настроения и подготовки специалистов, работающих с людьми в кризисных ситуациях [12].

Второе направление — экология. Например, существуют исследования по выявлению гринвошинга (гринвошинг — позиционирование компаний как экологичных без реальных на то оснований, — примеч. ред.). Такие системы анализируют корпоративные отчеты и пресс‑релизы и ищут возможные признаки несоответствия между заявлениями и фактическими действиями [13].

Вокруг экологических задач возникают и специализированные научные сообщества. ClimateNLP и NLP4Ecology — тематические научные встречи при крупных конференциях, где исследователи представляют работы и обсуждают общие методы, данные и критерии оценки.

ClimateNLP 2026 посвящена тому, как обработка языка может помогать климатической науке, смягчению последствий изменения климата и адаптации к нему. Организаторы приглашают к обсуждению не только специалистов по NLP, но и климатологов, представителей некоммерческих организаций, регуляторов и политиков [14].

Конференция NLP4Ecology 2026 объединяет компьютерную лингвистику с экологией, этикой и исследованиями публичной коммуникации. Среди ее тем — анализ того, как экологические проблемы описываются в СМИ и политических выступлениях, выявление дезинформации и гринвошинга и изучение того, как язык влияет на отношение общества к природе [15].

Роль таких площадок огромна: они помогают сформировать общие исследовательские задачи и организовать сотрудничество между специалистами, которые раньше могли работать независимо друг от друга.

Общей для социально ориентированных проектов становится новая постановка вопроса. Важно не только то, может ли модель обработать текст, но и то, какие последствия будет иметь ее ответ, чьи интересы она учитывает и кто несет ответственность за ошибку.

Вместо вывода

К 2026 году языковые системы стали заметно самостоятельнее. Они планируют действия, пользуются внешними инструментами, работают с длинными документами и объединяют информацию из текста, изображений, аудио и видео.

Но вместе с возможностями становятся заметнее и ограничения.

Агент может выполнить сложную последовательность действий — и все же ошибиться на одном из ее этапов. Модель способна принять миллионы токенов — но необязательно увидеть связи между разными частями текста. Система может поддерживать множество языков — но это еще не означает, что она понимает культурный контекст их носителей.

Поэтому развитие NLP все труднее описывать как простую гонку за более крупными и мощными моделями. На первый план выходят вопросы надежности, специализации, качества данных и последствий применения технологии.

Стандартные бенчмарки и автоматические метрики по-прежнему важны, но они отвечают далеко не на все вопросы. Особенно это заметно в задачах, связанных с малоресурсными языками, психическим здоровьем и экологией.

Следующий этап развития NLP будет определяться не только тем, что модели смогут делать больше. Не менее важно, насколько надежно, уместно и ответственно они будут это делать.

Для этого нужны не только инженеры и вычислительные мощности, но и лингвисты, специалисты конкретных предметных областей и представители сообществ, которые затрагивают новые технологии. Их участие помогает определить, что считать качественным результатом, какие данные допустимо использовать и где проходит граница между полезной автоматизацией и системой, которой пока нельзя доверять. Именно об этом говорит, например, концепция RELIES, предложенная в журнале Computational Linguistics [17]. Этот фреймворк, о котором мы рассказывали в нашем материале, наглядно доказывает: на всех этапах работы — от сбора данных до интерпретации и оценки метрик — технологиям необходимы лингвисты.

*Деятельность компании Meta признана в России экстремистской и запрещена.

Источники

Stanford Institute for Human-Centered Artificial Intelligence. Technical Performance [Электронный ресурс] // The 2026 AI Index Report. 2026. 57 p. URL: https://hai.stanford.edu/assets/files/ai_index_report_2026_chapter_2_technical.pdf (дата обращения: 09.06.2026).
Xie T., Zhang D., Chen J. et al. OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [Электронный ресурс] // arXiv. 2024. 07972. DOI: 10.48550/arXiv.2404.07972 (дата обращения: 09.06.2026).
OpenAI. GPT-4 [Электронный ресурс] // OpenAI. 2023. URL: https://openai.com/index/gpt-4-research/ (дата обращения: 29.06.2026)
OpenAI. Introducing GPT-5.5 [Электронный ресурс] // OpenAI. 2026. URL: https://openai.com/index/introducing-gpt-5-5/ (дата обращения: 29.06.2026).
Google DeepMind. Gemini 3.1 Pro [Электронный ресурс] // Google DeepMind. 2026. URL: https://deepmind.google/models/model-cards/gemini-3-1-pro/ (дата обращения: 29.06.2026).
Modarressi A., Deilamsalehy H., Dernoncourt F. et al. NoLiMa: Long-Context Evaluation Beyond Literal Matching [Электронный ресурс] // arXiv. 2025. 2502.05167. DOI: 10.48550/arXiv.2502.05167 (дата обращения: 30.06.2026).
Yue X., Zheng T., Ni Y. et al. MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark [Электронный ресурс] // Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vienna, Austria: Association for Computational Linguistics, 2025. P. 15134–15186. DOI: 10.18653/v1/2025.acl-long.736 (дата обращения: 09.06.2026).
UNESCO. Multilingual education: a bet to preserve Indigenous languages and justice [Электронный ресурс] // UNESCO. 2024. URL: https://www.unesco.org/en/articles/multilingual-education-bet-preserve-indigenous-languages-and-justice (дата обращения: 09.06.2026).
Caswell I., Nielsen E., Luo J. et al. SMOL: Professionally Translated Parallel Data for 115 Under-represented Languages [Электронный ресурс] // Proceedings of the Tenth Conference on Machine Translation. Suzhou, China: Association for Computational Linguistics, 2025. P. 1103–1123. DOI: 10.18653/v1/2025.wmt-1.85 (дата обращения: 30.06.2026).
NLLB Team, Costa-jussà M. R., Cross J. et al. No Language Left Behind: Scaling Human-Centered Machine Translation // arXiv. 2022. 2207.04672. DOI: 10.48550/arXiv.2207.04672 (дата обращения: 09.06.2026).
Sun S., Elbayad M., Sun A., Cross J. Efficiently Upgrading Multilingual Machine Translation Models to Support More Languages // arXiv. 2023. 2302.03528. DOI: https://doi.org/10.48550/arXiv.2302.03528 (дата обращения: 30.06.2026).
Karamolegkou A., Borah A., Cho E. et al. NLP for Social Good: A Survey and Outlook of Challenges, Opportunities and Responsible Deployment [Электронный ресурс] // Proceedings of the 19th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers). DOI: 10.18653/v1/2026.eacl-long.238 (дата обращения: 09.06.2026).
Calamai T., Balalau O., Le Guenedal T., Suchanek F. M. Corporate Greenwashing Detection in Text: A Survey // arXiv. 2025. 2502.07541. DOI: 10.48550/arXiv.2502.07541 (дата обращения: 09.06.2026).
ClimateNLP. ClimateNLP 2026 [Электронный ресурс]. 2026. URL: https://nlp4climate.github.io/ (дата обращения: 09.06.2026).
NLP4Ecology. NLP4Ecology 2026: The Second Workshop on Natural Language Processing for Ecology [Электронный ресурс]. 2026. URL: https://nlp4ecology2026.di.unito.it/ (дата обращения: 09.06.2026).
Opitz J., Wein S., Schneider N. Natural Language Processing RELIES on Linguistics [Электронный ресурс] // Computational Linguistics. 2025. Vol. 51. N. 3. P. 1009–1044. URL:https://direct.mit.edu/coli/article/51/3/1009/128736/Natural-Language-Processing-RELIES-on-Linguistics (дата обращения: 09.06.2026).