Фото автора

Евгения Родикова

Иллюстратор

Увлекаюсь живописью, иллюстрацией, дизайном одежды. Люблю котиков

Иллюстратор статей

Что такое лемматизация?

Как компьютеры понимают, что зло, зла и (из двух) зол — формы одного и того же слова? Рассказываем про лемматизацию — один из основных методов предобработки текстов, который помогает компьютеру лучше их понимать.

Что такое тест Тьюринга?

Тест Тьюринга появился в середине XX века и должен был определить, может ли компьютер думать. Рассмотрим подробнее, что такое тест Тьюринга: как он появился, в чём заключается и смогла ли ChatGPT его пройти?

Что такое регулярные выражения

Как найти в тексте все числа из четырех цифр или все email-адреса? Рассказываем о регулярных выражениях — мощном инструменте для анализа и редактирования текстов, который используется программистами, специалистами в NLP и Digital Humanities, а также биоинформатиками. Регулярные выражения — это классика компьютерных методов обработки текстовых данных, они используются гораздо дольше, чем все новомодные методы, связанные с машинным обучением и нейросетями. Но до сих пор многие задачи проще и лучше всего решаются именно регулярками!

Что такое random forest?

Random forest (он же «случайный лес») — это алгоритм машинного обучения, который состоит из множества отдельных независимых «решающих деревьев». Чтобы повысить качество предсказаний, в машинном обучении используют ансамбли — алгоритмы, сочетающие сразу несколько моделей. Рассказываем об одном из самых популярных ансамблей — random forest.

Автономный ИИ-инженер и новое о Sora: дайджест новостей в мире искусственного интеллекта

Создатели Sora рассказали, откуда брали видео для обучения, но кое о чем умолчали. Компания Cohere — один из главных конкурентов OpenAI/ChatGPT — выпустила модель с 35 млрд параметров. Вышла сопоставимая с трансформерами RNN-модель EagleX — неужели рекуррентные нейросети рано хоронить? Рассказываем, что произошло в мире ИИ за прошедшую неделю

Что такое сетевой анализ?

Сетевой анализ ― это метод исследования, с помощью которого можно визуализировать и исследовать связи между людьми в сообществе, персонажами в художественном произведении, животными в стае и вообще любыми объектами. Из чего состоит сеть как модель? Какие параметры у них есть и о чём они говорят? Объясняем основы сетевого анализа на простых примерах.

Sora: как работает модель для генерации видео по тексту

Недавно компания OpenAI, создавшая модели GPT и сервис ChatGPT, выпустила новую модель Sora, которая генерирует видео по текстовому описанию. Такие модели были и раньше, но здесь произошёл качественный скачок. Во-первых, Sora умеет генерировать реалистичные видео в высоком разрешении (вплоть до FullHD), во-вторых, объекты в видео консистентны в течение всего времени. Рассказываем, как работает Sora, какие у неё есть ограничения и неожиданные особенности.

«Ты же не думаешь, что можно заниматься диалектологией как профессией?»: интервью с диалектологом Игорем Исаевым

Как отделить язык от диалекта? Должна ли вся страна говорить на одном «стандартном» языке и какие преимущества есть у использования диалектов? Имеют ли смысл политизированные споры вокруг разграничения русского, украинского и белорусского языков? Как проходят диалектологические экспедиции? Всё это «Системный Блокъ» обсудил с диалектологом, замдиректора Института языкознания РАН по науке Игорем Исаевым.

Что такое capta и чем отличается от больших данных?

Рассказываем про вид данных, отличающийся от привычных big data, и чем малые данные похожи на археологический раскоп.

Что такое KNN?

Может ли компьютер сравнивать объекты? Как сравнение объектов может быть полезно для решения задач классификации и регрессии (например, предсказания стоимости квартир)? И причём тут «проклятие размерности»? Узнаем в новом материале «Системного Блока»‎.

«Нас вообще все боятся»: Александра Архипова о том, зачем фольклористы и социальные антропологи собирают слухи и считают репосты

Как примирить сторонников количественных и качественных исследований культуры? Как исследователям фольклора помогают цифровые базы данных? О чём могут рассказать лозунги митингующих и народные рецепты лечения COVID-19? Почему конспирологические теории так привлекательны? Обо всём этом «Системный Блокъ» поговорил с антропологом Александрой Архиповой.

👋 Тест: какой вы жест из мультимедийного корпуса русского языка?✍️

«Закатить глаза» или «троекратный поцелуй»? Узнайте, каким жестом вы были бы во вселенной мультимедийного корпуса русского языка.

«Нам надоели префиксы и инфиксы, что мы можем для людей сделать?»: Ольга Драгой о настоящем и будущем нейролингвистических исследований

Нейролингвистические исследования находятся на стыке психологии, неврологии и лингвистики: здесь изучается речь пациентов, переживших инсульт, разрабатываются приложения для определения дислексии и даже синтезируются слова по активности нейронов. О соединении нейролингвистических экспериментов с машинным обучением «Системный Блокъ» поговорил с Ольгой Драгой, директором Центра языка и мозга НИУ ВШЭ и доктором филологических наук.

Как устроена оцифровка дневников: Михаил Мельниченко о проекте «Прожито» и его перезапуске

Проект «Прожито» начался с небольшой группы волонтёров, собиравших и оцифровывавших личные дневники. Сегодня это крупный центр по цифровой архивации эго-документов: дневников, мемуаров, писем и других личных свидетельств времени. Основатель «Прожито» Михаил Мельниченко рассказал «Системному Блоку» о том, кто и как приносит документы для оцифровки, откуда берутся тысячи волонтёров и как изменится «Прожито» в ближайшем будущем.

Оксана Мороз, интервью для издания Системный Блокъ

Что происходит в интернете: Оксана Мороз о цифровом бессмертии и языке онлайн-скорби

Почему в онлайн-среде люди ведут себя более агрессивно? Можно ли обрести бессмертие с помощью «цифры»? В чём феномен коллективного интернет-горевания? Об этом в интервью изданию «Системный Блокъ» рассказала Оксана Мороз, культуролог, исследователь цифровой среды, академический руководитель образовательной программы НИУ ВШЭ «Практики кураторства в современном искусстве».

Роботы в фильмах XX века: от ненависти к ИИ до слияния

Еще со времен второй промышленной революции человек забеспокоился, что безэмоциональная машина займет его место и на работе, и в остальных сферах жизни. Страхи и надежды людей по поводу роботов отражались и в кинематографе. Разберемся, как менялась репрезентация искусственного интеллекта в кино.

«Слово Пацана» как интернет-феномен: что ищут в поисковиках зрители сериала

«Слово Пацана. Кровь на асфальте» Жоры Крыжовникова стал самым обсуждаемым российским сериалом года. В одном только «Яндексе» его с момента выхода искали 60 миллионов раз. «Системный Блокъ» разобрался, как сериал о «казанском феномене» стал феноменом интернета и породил вал запросов в поисковиках.

«Злачные области науки»: Михаил Гельфанд о плагиате, лишении степени и неэффективных чиновниках 

В каких научных дисциплинах больше всего фальсификаций? Сколько депутатов лишились научных степеней из-за некорректных заимствований? Как работают фабрики по производству диссертаций? «Системный Блокъ» спросил Михаила Гельфанда, одного из основателей «Диссернета», как сегодня обстоят дела с плагиатом в российских научных работах.

Стилометрия древнегреческих текстов: работает ли Дельта — и что кроме нее

Стилометрия — количественный метод определения авторства, который проверен на десятках современных языков. А что там с языками древними? Историк философии Ольга Алиева исследовала, как работает Дельта и другие стилометрические меры на древнегреческих текстах. Разбираемся вместе с ней, может ли стилометрия отличить Аристотеля от Платона, а Геродота от Плутарха.

«Digital Humanities — это крыша для всех, кто применяет цифровые технологии»: интервью с Леонидом Бородкиным об исторической информатике

Какие советские ученые стоят у истоков исторической информатики? Как математические методы позволяют моделировать исторические процессы? Как складывались отношения российских исторических информатиков с международным сообществом? Как они взаимодействуют с сообществом «цифровых гуманитариев» (Digital Humanities)?

Как писать художественные тексты с ChatGPT и не облажаться: советы редактора

Может ли нейросеть заменить писателя? И да и нет. Есть творческие задачи, с которыми современные языковые модели справляются легко: например, стилизовать сказку под триллер, а трагедию Шекспира — под дворовую байку. Но есть многое, в чем им нужна помощь или хотя бы руководство человека. Разбираемся, какие литературные задачи можно делегировать ChatGPT, а какие пока не стоит.

Русалка села на шпагат: как нейросети генерируют картинки и подменяют понятия

Новостей о том, что уже умеет искусственный интеллект и какие профессии из-за него обречены, предостаточно. Гораздо интереснее выяснять, чего он не может. Ранее мы уже писали о том, как ChatGPT выдумывает несуществующие произведения Льва Толстого. Теперь авторы «Системного Блока» провели эксперимент, чтобы выяснить, где границы возможностей нейросетей для генерации изображений (Midjourney, DALL-E, Kandinsky), и обнаружили у них проблемы с образным и абстрактным мышлением

Как распознать тексты и сделать корпус для исследования: пошаговая инструкция 

От библиотечного каталога к машиночитаемым текстовым данным для компьютерного анализа: разбираемся, как собрать корпус, используя ресурсы цифровых библиотечных коллекций, и как преобразовать отсканированные документы в машиночитаемый текст с помощью различных инструментов оптического распознавания символов

Что такое автоэнкодер?

Как использовать нейронные сети для распознавания лиц? Может ли нейросеть определить, какие признаки в данных значимые, а какие просто шум? Что такое латентное пространство и зачем оно нужно? Отвечаем на все эти вопросы в нашем материале про один из типов нейросетей — автоэнкодер

Правда глаза колет: 150 лет истории айтрекеров

В психологии и психолингвистике айтрекинг — давно известная и популярная технология. Рассмотрим, как она появилась и почему первым испытуемым приходилось терпеть тупую иглу на веке или присоску с радиоантенной на глазу. Но не пугайтесь: сейчас для исследования движений глаз применяют бесконтактные технологии. И об инвазивных методах, и о новых способах айтрекинга расскажем в нашем материале

Китайская живопись и нейросеть: как машина даёт оценку картинам

Нейросеть научилась давать оценку картинам китайских художников, как профессиональный искусствовед. Рассказываем простыми словами, как это работает и причём здесь пятьдесят оттенков серого

Стилометрия кинодиалогов: шесть жанров в поисках автора

Статья Яна Рыбицкого и Агаты Холобут The Stylometry of Film Dialogue: Pros and Pitfalls показывает связь между жанровыми особенностями кино и лексикой диалогов: с помощью стилометрии и сентимент-анализа авторы исследуют 178 фильмов из разных эпох. Рассказываем, что же у них получилось

Фонограммархив для науки: Светлана Подрезова о коллекции аудиозаписей Пушкинского Дома и работе с источниками

Как связаны имена Блока и Гумилёва с историей крупнейшей коллекции этнографических аудиозаписей? Когда исполнители перестали бояться раструба фонографа? Что происходит, если идеология вмешивается в научный процесс? Как происходит цифровизация аудио, записанного некогда на восковые валики? Об этом в интервью «Системному Блоку» рассказала Светлана Подрезова, заведующая Фонограммархивом Пушкинского Дома (ИРЛИ РАН).

Cultural heritage in action: лучшие практики сохранения и популяризации культурного наследия в Европе

Проект Cultural heritage in action собирает хорошие решения по работе с культурным наследием в Европе и открывает доступ к получившемуся каталогу.

Искусственный интеллект vs. феномен Владимира Набокова

Владимир Набоков известен тем, что писал и на русском, и на английском. Сможет ли компьютер распознать его оригинальный стиль? Этот вопрос исследовал цифровой филолог Борис Орехов. О том, как стилометрия при помощи статистики справляется с филологическими задачами – в материале «Системного Блока».

Язык и точка невозврата: интервью с лингвистом Михаилом Даниэлем о сохранении языков и языковом разнообразии 

Малыми языками интересуются одновременно и учёные, и языковые активисты, и (иногда) государство. «Системный Блокъ» подготовил интервью с Михаилом Даниэлем — исследователем малых языков, социолингвистом и участником проектов ВАНК и Multidagestan. Мы обсудили, каким языкам грозит вымирание.

Преодолевая тишину: что такое Sound Studies и как создаются звуковые карты

«Любой обманчив звук», — пел Александр Васильев. И как же он прав! Всё, что мы слышим каждый день — от надоедливых уведомлений до сигнала светофоров, – содержит целый пласт коллективных и индивидуальных значений, редко совпадающих друг с другом. Воспринимаемый обычно как фон, звук на самом деле формирует отношение к месту и влияет на воспоминания о событиях. Изучением этого и занимаются Sound Studies.

Научный журналист должен быть аутсайдером: Ольга Добровидова о научной коммуникации и научной журналистике

Научный и экологический журналист Ольга Добровидова — о разнице между научными журналистами и научными коммуникаторами, о конфликте интересов между научным сообществом и общественным благом, а также о том, как вырос запрос на медицинскую журналистику.

От аналогового к цифровому: как происходит оцифровка в архивах, музеях и библиотеках

Современный мир захлестнула цифровизация. Это не обошло стороной, в том числе, и институции культурного наследия, которые начали массово переводить свои коллекции в цифровой формат. Рассказываем, что и зачем оцифровывают библиотеки, музеи, архивы, а также каким образом культурное наследие обрабатывается компьютерной техникой.

Домашнее и партнерское насилие в России: сколько у него жертв и как им помочь

Проблема домашнего насилия — одна из наиболее острых социальных проблем в современной России. А вопрос о достоверной статистике по этой теме — один из самых болезненных. Разбираемся в том, кто становится авторами насилия, кто от него страдает и куда обращаться.

Магнитометрия: что это такое и как её используют в археологии 

Не секрет, что археологические раскопки нередко влекут за собой гибель памятника. Давняя мечта археологов — изучать памятники, не разрушая их. Сохранить культурный слой помогают устройства, которые «просветили» бы земную толщу. Они появились в середине XX века. Рассказываем о том, как применяется в археологии магнитометр и что такое магнитометрическая разведка.

Поиграем в прошлое: как исторические видеоигры влияют на современность

Исторические игры регулярно попадают в десятку самых продаваемых видеоигр в разных странах, а опирающаяся на всемирную историю Assassin's Creed — одна из самых продаваемых франшиз видеоигр всех времен. Разбираемся, как видеоигры транслируют историю и почему интерес к ним не угасает.

24000 оцифрованных старых открыток: проекту «Пишу тебе» два года

В июне 2021 года команда «Системного блока» презентовала проект открытого цифрового архива отправленных почтовых открыток. Имя этого проекта — «Пишу тебе». Два года спустя мы хотим рассказать про интересные открытки, которые мы собрали, и обозначить планы на будущее.

Нужный, живой, веселый, пьяный, хороший: цифровой анализ текстов песен «Короля и Шута»

Наверняка вы когда-нибудь слышали о группе «Король и Шут». Даже, если вы не преданный фанат, то мы почти уверены, что, узнав строки «Разбежавшись, прыгну со скалы», вы подхватите мотив и подпоете: «Вот я был, и вот меня не стало». К тому же, недавний релиз сериала о группе снова оживил интерес слушателя к творчеству самых известных панков России. «Системный блокъ», вдохновившись сериалом, решил не только переслушать старые хиты, но и количественными методами изучить творчество «Короля и Шута».

Как работают языковые модели

Что такое языковая модель? Что общего между клавиатурой вашего телефона и GPT? Почему языковые модели умеют не только моделировать язык? Можно ли предсказать точность модели до её обучения? Отвечаем на все эти вопросы в нашем материале.

Как провести стилометрический эксперимент с помощью stylo?

Системный Блокъ уже рассказывал о том, что такое стилометрия, и о многих стилометрических исследованиях. Читайте подробный гайд, как самому провести такой эксперимент — с помощью stylo, библиотеки языка R и самого популярного инструмента для стилометрии.

Цифровая реконструкция: как воссоздали портрет Черчилля для сериала «Корона» 

Некоторые утраченные картины сохранились лишь на фотографиям плохого качества. Сейчас благодаря 3D-сканерам и технологиям международное объединение художников и инженеров восстанавливает погибшие шедевры. Чтобы разобраться в цифровой реставрации картин, познакомимся с деятельностью мастерской из Мадрида и узнаем историю воссоздания портрета Черчилля.

Что такое цифровое наследство?

Разбираемся, что такое цифровое имущество и как подготовить свои цифровые активы к передаче по наследству.

«Открытые данные против мракобесия и пренебрежения реальностью»: интервью с Кириллом Маслинским 

Кирилл Маслинский — цифровой филолог, руководитель Лаборатории цифровых исследований литературы и фольклора в Пушкинском Доме, создатель Детского корпуса и Репозитория открытых данных по русской литературе и фольклору. «Системный Блокъ» узнал у Кирилла, что можно найти в тысячах оцифрованных детских книг, когда в детской литературе было допустимо употреблять слово «какашка», зачем филологам репозиторий открытых данных и может ли этот репозиторий как-то помочь в борьбе с мракобесием и войнами.

Русско-китайский корпус НКРЯ, или как превратить ботвинью в гаспачо

Параллельный корпус — это коллекция текстов, где для каждого текста хранятся его переводы на другой язык (или языки). Параллельные корпуса позволяют узнать, какие приемы и стратегии использовал переводчик для передачи слов, у которых нет эквивалентов в другом языке. В этой статье мы расскажем про русско-китайский параллельный корпус в составе Национального корпуса русского языка.

Как дообучить языковую модель писать в стиле Достоевского

Как обучить нейросеть на своих данных? Какие бывают параметры обучения/генерации, и на что они влияют? Как оптимизировать процесс обучения, если нет видеокарты? Отвечаем на все эти вопросы в нашем туториале по файн-тюнингу ruGPT3 на текстах Достоевского.

От древнерусского до корпуса блогов: как изменился Национальный корпус русского языка после редизайна 

Национальный корпус русского языка (НКРЯ) — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной культурой. Изменения в работе НКРЯ были заметны ещё в 2019 году: тогда лингвисты высказали опасения о возможном закрытии сервиса. К счастью, проблемы оказались временными, и НКРЯ не только не прекратил свою работу, но и заметно изменился и расширился. Самым заметным обновлением стал новый дизайн сайта, но есть и много глубоких содержательных перемен. Об основных обновлениях в корпусе, очевидных и не очень — в нашем сегодняшнем материале.

Хактивизм: кто и как ведет борьбу в киберпространстве

Сайт Госуслуг «упал» после объявления в России мобилизации. Rutube обрушился 9 мая 2022 года и не работал три дня. Некоторые российские радиостанции и телеканалы в феврале 2023 года сообщали о несуществующей воздушной тревоге. За этими и другими подобными событиями стоят так называемые хактивисты. Что ими движет? Как их действия влияют на мир? Кто они: герои или преступники? Разбираемся в истории хактивизма в нашем материале.

Что такое transfer learning в обучении нейросетей

Как нейросеть, обученная под одну задачу, решает другую? Может ли она использовать свой «предыдущий опыт»? Почему это важно и почему корпорации спешат внедрить эту технологию? Рассказываем о популярном методе «переноса знаний» в машинном обучении на примерах языков, ягод и Достоевского.

«И пусть все читают “Одумайтесь”»: Анастасия Бонч-Осмоловская о цифровом Толстом и пересборке DH после 24 февраля

Анастасия Бонч-Осмоловская ― лингвист, филолог, цифровая исследовательница, идейная вдохновительница и душа российских Digital Humanities. «Системный Блокъ» поговорил с Анастасией о работе над цифровым изданием 90-томника Л.Н.Толстого и пересборке российского DH-сообщества после 24 февраля 2022.

Голос Холокоста в «Пишу тебе»: как мы получили открытку из гетто

«Пишу тебе» всегда призывает наших читателей и волонтеров делиться открытками из семейного архива. История, которой мы хотим сегодня поделиться, началась с комментария под постом: «У меня есть не очень красивая открытка, отправленная в мае 41 года из варшавского гетто в Смоленск моему прадеду его матерью и сестрой».

«Путешествие с открыткой»: прогулка по главной купеческой улице Нижнего Новгорода

Сегодня «Путешествие с открыткой» проходит на главной купеческой улице Нижнего Новгорода — улице Рождественской. Нижний Новгород более ста лет назад — это крупнейший торговый центр Российской импери. Здесь ежегодно проводилась знаменитая Нижегородская ярмарка, собиравшая купцов со всей России и из-за рубежа. В советское время Рождественская улица превратилась в «Маяковку», но в 90-е годы вернула прежнее название, сохранив в нетронутом виде практически всю дореволюционную застройку.

«Путешествие с открыткой» от «Пишу тебе»: паровая мельница на берегу Оки

На этой почтовой открытке изображена известная в Нижнем Новгороде мельница купца Башкирова и пристань на р. Оке рядом с ней. Более ста лет назад здесь активно развивался мукомольный промысел, а сегодня место вновь приобретает значимость из-за реновации. Начинаем «Путешествие с открыткой» на набережной р. Оки в Нижнем Новгороде.

Собери их всех: как record linkage помогает обогащать большие биографические данные

Сейчас историки всё чаще уделяют внимание не столько выдающимся деятелям прошлого, сколько целым группам людей, жившим в ту или иную эпоху. Это неудивительно — ведь с появлением больших исторических баз данных стало проще анализировать множество биографий одновременно. Автоматизировать обработку данных об одних и тех же людях в разных базах помогает сопоставление данных, или record linkage.

С приветом из Англии: у мультиязычных языковых моделей обнаружился «английский акцент» 

Если вы выучили иностранный язык во взрослом возрасте, вполне вероятно, вы говорите на нем не так же бегло, как носитель языка. Оказывается, подобная проблема встречается и у мультиязычных моделей: если в обучающей выборке для них преобладает английский, текст на других языках они будут генерировать «с английским акцентом». Объясняем, почему так происходит и что можно с этим сделать.

Еврейская культура в музеях РФ и США: в чем разница и как ее объяснить

Музейные коллекции пополняются очень разными способами: в разное время туда попадали и военные трофеи, и частные покупки коллекционеров. Ну а сами музеи существуют не в вакууме, и конечно на отбор экспонатов влияет политика, идеология, государственное и общественное устройство. Разбираемся в том, каким искажениям подвержены цифровые музейные коллекции, на примере еврейской культуры.

Как писатели XIX века предсказали мессенджеры, интернет на Марсе и нейросети

Научная фантастика в русской литературе имеет давнюю историю. Писатели XIX и первой половины XX века предсказали многое: от телевидения до космических полетов. А насколько хорошо они предвидели современные информационные технологии? Удивительно, но современники Пушкина и Толстого смогли предсказать мессенджеры, генеративные нейросети, 3D-кино и что-то вроде интернета на Марсе.

Виртуальные кладбища: от кладбищ геймеров до кладбищ домашних животных

Разбираемся, какие есть виды виртуальных кладбищ и почему некоторые виды приобретают отклоняющиеся формы.

«Персоналистские диктатуры чаще начинают войны»: Эрика Франц об автократиях, Украине и поводах для оптимизма

Системный Блокъ поговорил с политологом Эрикой Франц о недемократических режимах, диктаторах и возможностях перехода к демократии. Спойлер: наши шансы на демократический транзит невысоки, но они есть.

Что такое генеральная совокупность и выборка?

Наша жизнь полна разных событий, и иногда на их основе нам хочется сделать какой-то определенный вывод или отыскать закономерность в происходящем. Всем известная фраза «Все мужики козлы» — один из таких случаев. У человека, который говорит эту фразу, скорее всего, имеется неудачный опыт общения с определенной группой лиц мужского пола (в статистике это называют экспериментами), и на основе этого неудачного опыта был сделан такой вывод. Почему это утверждение в корне неверное с точки зрения статистики? Когда можно делать выводы, основываясь на неполных данных, а когда нет? В этой статье постараемся ответить на эти вопросы.