Списывание XXI века: как определить, что эссе написал ИИ
Трансформеры с помощью fine-tuning узнают, написал ли эссе искусственный интеллект или человек. Рассказываем о различных методах идентификации ИИ-текста и актуальных моделях
В рубрике «NLP» собраны материалы об обработке естественного языка и технологиях, которые работают с текстом и речью. Здесь мы объясняем, как устроены большие языковые модели, чат-боты, машинный перевод, поиск и другие инструменты на стыке лингвистики и компьютерных наук.
Трансформеры с помощью fine-tuning узнают, написал ли эссе искусственный интеллект или человек. Рассказываем о различных методах идентификации ИИ-текста и актуальных моделях
Что нужно человеку, чтобы снять квартиру в России? Каждый, кто читал объявления на популярных сайтах, знает, что нужно не только заплатить за аренду, но и соответствовать требованиям арендодателя. Чтобы узнать, какие требования оказались самыми распространенными, а какие удивят даже самого опытного квартиросъемщика, мы обработали 15 тысяч объявлений с помощью LLM
Алкотестер в каждой машине — звучит слишком хорошо, чтобы быть правдой? А если алкотестер — это ваш собственный голос? Достаточно сказать пару фраз, чтобы машина определила, что садиться за руль сейчас нельзя, и тем самым спасла жизнь вам или кому-то еще на дороге. Похоже на сценарий фантастического фильма, но исследователи уже работают над тем, чтобы превратить это в реальность. Разбираемся, как они учат нейросети слышать то, что не слышим мы, и при чем здесь немецкие скороговорки
Почему большие языковые модели врут с абсолютной уверенностью? Можно ли заставить их быть интеллектуально честными? Ответ кроется не в этике, а в распределениях вероятностей и архитектуре нейросетей. Разбираемся, как большие языковые модели оценивают (вернее, не оценивают) свою уверенность и как научить их честно говорить «я не знаю»
Остаётся ли завтрак завтраком, если в течение дня нет ни обеда, ни ужина? С точки зрения лингвистики, это непростой вопрос. В лингвистике существует множество теорий, чтобы описать значение в естественном языке. Большинство из них абстрактны и редко находят практическое применение, но есть исключение — фреймовая семантика. О том, что такое семантический фрейм, как устроены базы данных таких фреймов, как специалисты по NLP применяют их для анализа рынка ценных бумаг и что такое на самом деле «завтрак», читайте в новом материале «Системного Блока»
OpenAI выпустила Sora 2, приложение с ИИ-тиктоками и новый тест, проверяющий производительность LLM в реальных рабочих задачах, Anthropic обновила свою модель — что произошло в мире ИИ за последнее время.
Ученые придумали автоматический способ исследования математических задач с помощью нейросетей, LLM от Google и OpenAI заняли призовые места в международной олимпиаде по программированию.
Датасет в машинном обучении — структурированный набор данных, который используется для тренировки моделей. Чтобы обучить большую языковую модель (LLM), датасеты должны быть крупными. Сегодня посмотрим на инструмент BunkaTopics, который позволяет исследовать их — узнавать тематическую составляющую, очищать и проверять, нет ли в данных смещения.
Anthropic готова заплатить 1,5 млрд долларов за использование пиратских книг, новая модель для генерации изображений от Google и открытая мультиязычная LLM из Швейцарии — что произошло в мире ИИ за последнее время.
Обновление DeepSeek, модель Grok-2 в open-source, нейросеть-симулятор от Google — рассказываем, что произошло в мире ИИ за последнее время.
Языковые модели Google и OpenAI впервые получили золото в математической олимпиаде, вышли новые модели линейки Qwen3.
Лаборатория Илона Маска выпустила обновление модели Grok, OpenAI представила ИИ-агента, стала доступна самая большая open-source LLM — что произошло в мире ИИ за последнее время.
Meta переманивает исследователей OpenAI, суд не нашел нарушений в обучении LLM от Anthropic на книгах, Apple планирует отдать разработку Siri одной из ключевых ИИ-компаний — что произошло в мире ИИ за последнее время.
Видеогенерация в Midjourney, инвестиции Meta в компанию по разметке данных, новая модель Mistral — что нового в мире ИИ произошло за последнее время.
DeepSeek R1 обновился, OpenAI строит суперкомпьютер в ОАЭ, в Telegram появятся ИИ-функции на основе Grok — что произошло в мире ИИ за последнее время.
Компания Google представила новые AI-продукты, Anthropic выпустила свежие версии своих моделей, бывший главный дизайнер Apple разработает новое устройство для OpenAI — что произошло в мире ИИ за последнее время.
Google открыла доступ к ИИ-поиску американским пользователям, вышло третье поколение языковой модели Qwen, OpenAI после жалоб пользователей вернула менее подобострастную версию GPT — что произошло в мире ИИ за последнее время.
OpenAI представила сразу несколько обновленных моделей (GPT-4.1, o3 и o4-mini), вышел детальный прогноз развития ИИ до 2027 года — что произошло в мире ИИ за последнее время.
Вышло новое поколение Llama, Gemini 2.5 Pro стала лучшей LLM, а GPT сильно улучшила генерацию изображений — что произошло в мире ИИ за последнее время.
Более человечная GPT-4.5, новая флагманская модель от Anthropic и OCR от Mistral — что произошло в мире ИИ за последнее время.
Лаборатория Илона Маска обновила модель Grok, лучшая нейросеть для генерации видео от Google стала доступна, бывшая топ-сотрудница OpenAI рассказала про свой новый стартап — что произошло в мире ИИ за последнее время.
Что происходит после выхода нашумевших моделей от DeepSeek, как работает новый автономный исследователь от OpenAI, какие обновления получили LLM семейства Gemini от Google — рассказываем, что произошло в мире ИИ за последнее время.
OpenAI и SoftBank должны создать инфраструктуру для ИИ стоимостью 500 млрд долларов по предложению Дональда Трампа, сразу несколько компаний выпустили ИИ-системы для автоматического выполнения задач на компьютере, китайская DeepSeek выложила конкурента модели o1 от OpenAI в открытый доступ — что произошло в мире ИИ за последнее время.
В какой момент чат-боты стали повсеместными онлайн-собеседниками? И как у них получается воспроизводить естественный разговор? Краткий обзор того, как говорящие машины постепенно учились и становились более человечными.
Что важнее для создания целостного образа персонажа в литературе: его слова или его действия? Как выбор глаголов отражает индивидуальность героя? Рассказываем о недавнем исследовании корпуса английской прозы, которое даёт ответы на эти (и не только) вопросы.
Новая модель o3 от OpenAI вырывается вперёд, китайская DeepSeek создала конкурента для лучших LLM, Google выпустила свою первую рассуждающую модель — что произошло в мире ИИ за последнее время.
Эмоции и их выражение в тексте — важная часть человеческой коммуникации. Но как зафиксировать эти тонкие и динамичные изменения, особенно в больших текстах? Как формально визуализировать эмоциональное содержание текста, превратив его в график? Ответы на эти и многие другие вопросы можно получить, построив кривые эмоциональной тональности выбранных текстов. О том, как это сделать, вам расскажет этот гайд!
OpenAI составляет «адвент-календарь» из новых релизов, Google обновил свою LLM, а xAI Илона Маска выпустила нейросеть для генерации изображений — что произошло в мире ИИ за последнее время.
В мире почти 7000 языков, и они очень разные. Лингвистическая типология — раздел науки о языке, описывающий эти различия. Часто, хотя и не всегда, сходство языков обусловлено географически — тогда языки можно даже объединить в языковые ареалы. Но выделять их вручную — задача трудоёмкая и полная неоднозначностей. Тут на помощь исследователям приходят вычислительные методы.
Компаниям, работающим над языковыми моделями, стало сложнее их улучшать, нейросеть для расшифровки белков AlphaFold3 теперь доступна исследователям, новые версии моделей от Qwen для генерации кода — что произошло в мире ИИ за последнее время.
OpenAI и Google объединяют LLM и поисковые системы, Anthropic обновила свои языковые модели, а компания Genmo выпустила самую большую на сегодня открытую модель для генерации видео с 10 млрд параметров.
Две нобелевские премии вручены за работы, связанные с машинным обучением, Adobe добавила новые ИИ-функции в свои продукты, Mistral представила новые компактные языковые модели — рассказываем, что произошло в мире ИИ за последнее время.
Техническая директриса OpenAI ушла из компании, а сооснователь перешёл к конкуренту, GPT получила обновлённый голосовой режим, Meta и Google выпустили новые модели — что произошло за последнее время в мире ИИ.
OpenAI представила модель, способную «рассуждать», француский стартап Mistral снизил цены на свои модели, Apple отстаёт в гонке за ИИ машинного обучения в смартфонах — что произошло за последнее время в мире ИИ.
Кажется, история из «Гостьи из будущего», где один из героев спасал рукописи из Александрийской библиотеки, стала реальностью. В начале 2024 года исследователям удалось прочитать сгоревший папирус из Геркуланума с помощью искусственного интеллекта.
Сооснователь OpenAI ушёл к конкурентам, а технический директор объявил о длительном отпуске, релиз семейства математических моделей Qwen и новая модель для сегментации объектов на изображениях и видео от Meta*. Рассказываем, что произошло в мире ИИ за последние две недели.
OpenAI выпустила компактную дешёвую версию GPT-4, Meta* обновила семейство моделей LLama 3, релиз четырёх новых LLM от Mistral. Рассказываем, что произошло в мире ИИ за последние две недели.
Llama 3 с 405 миллиардами параметров выйдет в конце июля. Компания EvolutionaryScale представила большую модель для дизайна белков. В главный блок всех языковых моделей на трансформерной архитектуре — блок внимания (attention) — добавили новые оптимизации. Рассказываем, что произошло в мире ИИ за последние две недели.
Большая языковая модель от Anthropic обходит последнюю GPT, компания бывшего ведущего исследователя OpenAI обещает «безопасный сверхинтеллект», у Sora появились новые конкуренты в генерации видео. Рассказываем, что произошло в мире ИИ за последние две недели.
Новые открытые языковые модели, бывший сотрудник OpenAI раскритиковал компанию за безответственный подход к разработке, детальный отчёт о будущем общего ИИ и последствиях его появления. Рассказываем, что произошло в мире ИИ за прошедшие две недели.
Популярная музыка транслирует социальные нормы. Чем популярнее музыка, тем больше людей могут себя с ней соотнести. На какие детали быта обращала внимание постсоветская поп-музыка в первые 30 лет своего существования? Кого из исполнителей можно назвать главными «бытописателями»? Попробуем разобраться в этом материале.
Google начала использовать свою языковую модель Gemini для суммаризации информации из поисковой выдачи. OpenAI подозревают в несанкционированном использовании голоса актрисы Скарлетт Йоханссон. Anthropic выпустили большое исследование интерпретируемости нейронных сетей. Рассказываем, что произошло в мире ИИ за прошедшие две недели.
OpenAI выпустила новую версию GPT-4. Apple и OpenAI завершают сделку о сотрудничестве. Авторы архитектуры LSTM выпустили её обновление, которое не хуже Transformer. Google DeepMind анонсировала AlphaFold 3 — нейросеть, способную моделировать широкий спектр биомолекул. Рассказываем, что произошло в мире ИИ за прошедшие две недели.
Метеорологи обещали осадки в виде LLM: новая открытая языковая модель, обновление GPT-4 и скорый выход LLaMa 3.
OpenAI и Microsoft строят суперкомпьютер для нейросетей, модель Claude 3 Opus от Anthropic обошла GPT-4 в одном из основных рейтингов, Илон Маск опубликовал свою большую языковую модель без цензуры.
Создатели Sora рассказали, откуда брали видео для обучения, но кое о чем умолчали. Компания Cohere — один из главных конкурентов OpenAI/ChatGPT — выпустила модель с 35 млрд параметров. Вышла сопоставимая с трансформерами RNN-модель EagleX — неужели рекуррентные нейросети рано хоронить? Рассказываем, что произошло в мире ИИ за прошедшую неделю
Расшифровка аудиозаписи — дело утомительное и времязатратное. К счастью, появляется всё больше сервисов, которые умеют это делать автоматически. Рассказываем, как сделать это с помощью модели Whisper от OpenAI и смотрим, насколько хорошо она справляется с русскоязычными записями
Национальный корпус русского языка (НКРЯ) — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной культурой. Изменения в работе НКРЯ были заметны ещё в 2019 году: тогда лингвисты высказали опасения о возможном закрытии сервиса. К счастью, проблемы оказались временными, и НКРЯ не только не прекратил свою работу, но и заметно изменился и расширился. Самым заметным обновлением стал новый дизайн сайта, но есть и много глубоких содержательных перемен. Об основных обновлениях в корпусе, очевидных и не очень — в нашем сегодняшнем материале.
Если вы выучили иностранный язык во взрослом возрасте, вполне вероятно, вы говорите на нем не так же бегло, как носитель языка. Оказывается, подобная проблема встречается и у мультиязычных моделей: если в обучающей выборке для них преобладает английский, текст на других языках они будут генерировать «с английским акцентом». Объясняем, почему так происходит и что можно с этим сделать.
Модель психики «Думай медленно… решай быстро» оказалась верна не только для людей, но и для больших нейросетей. Вслед за интуитивными навыками они приобретают и аналитические. Рассказываем, как языковые модели решают математические и логические задачи, если немного «подумают».
Дневники людей, живших в различных исторических эпохах, могут многое сказать исследователю, но анализировать их вручную — тяжело и долго. Разбираемся, как цифровые инструменты используются для упрощения анализа дневниковых записей.
Рассказываем, как сделать тематическое моделирование для большого объема текста, предположить его содержание и разделить по темам
Алиса Яндекса, Олег Тинькофф-банка и телеграм-бот для демотиваторов — одно и то же? Или нет? Разбираемся, как работают диалоговые системы и почему одни могут рассказать анекдот и поддержать диалог о жизни, а другие — сводить в кино и заказать пиццу.
Революция 1917 года — одно из крупнейших потрясений в российской истории. О чем думал Николай II в день отречения? Что волновало простых граждан? Какие темы поднимали в газетах? Мы проанализировали дневники очевидцев, которые собрал проект «1917. Свободная история», и выяснили, о чем в революцию писали чаще всего
Как видит русскую классику нейросеть ruDALLE? Пройдите тест и попробуйте угадать, что скрывается под изображениями
Язык интернета имеет свои характерные черты. И если исследованию языка Рунета посвящено множество работ, то DarkNet все еще остается серым пятном в этом плане. С помощью анализа тональности текстов выясняем, какая лексика характерна для отзывов о запрещенных веществах.
GPT-3 — самая известная из современных нейросетевых моделей языка. Вокруг нее много мифов, но модель действительно умеет впечатлить. Она отлично справляется с написанием целых эссе на заданную тему, удачно отвечает на вопросы, а также пишет стихи и программный код. Рассказываем, как работает GPT-3.
Сегодня каждая большая IT-корпорация пытается сделать «еще более умную» нейросетевую языковую модель, которая решала бы сразу множество задач: и ответы на вопросы, и порождение правдоподобного текста по заданной теме, и краткий пересказ. Мы уже писали о BERT от Google и семействе GPT от OpenAI — настал черед UniLM от Microsoft
BERT — нейросетевая модель-трансформер от Google, на которой сегодня строится большинство инструментов автоматической обработки языка. Модель появилась в начале 2018-го, а уже в октябре того же года Google встроил модель в свой поисковик. Разбираемся, что же представляет из себя модель BERT и как она работает