Фото автора

Евгения Родикова

Иллюстратор

Увлекаюсь живописью, иллюстрацией, дизайном одежды. Люблю котиков

Иллюстратор статей

«Дисциплинировать литературоведческую мысль может только рациональный метод»: научное завещание Бориса Ярхо

Борис Ярхо — один из самых недооцененных филологов знаменитого поколения «русских формалистов» 1910-х — 1920-х. В отличие от куда более известных Проппа, Шкловского, Тынянова и Эйхенбаума, Ярхо оставался неизвестен на Западе и малоизвестен в России вплоть до начала XXI века, когда его пионерские работы по количественному литературоведению стали актуальны с приходом цифровых методов. Чтобы немного восстановить справедливость, «Системный Блокъ» подготовил «посмертное интервью» с Ярхо на основе его главной книги.

Наперекор всему. Как выживают правосторонние шрифты в цифровом пространстве?

Адаптированы ли современные цифровые инструменты для работы с системами письменности, которые пишут справа налево, как арабская вязь или еврейское письмо? Как «сломать» Word или VS Code, смешав текст на латинице и арабице? И почему крупные разработчики ПО не обращают внимание на эту проблему?

Как биологи и лингвисты вместе изучают эволюцию языков

Язык — естественная система. Он распространяется, развивается и даже мутирует, подчиняясь законам естественных наук. Можно ли с его помощью реконструировать эволюцию человечества? Рассказываем, как генеалогические деревья объединили биологов и лингвистов и какой вклад в языкознание внес Чарльз Дарвин.

История развития диалоговых систем: от распознавания цифр до Siri

В какой момент чат-боты стали повсеместными онлайн-собеседниками? И как у них получается воспроизводить естественный разговор? Краткий обзор того, как говорящие машины постепенно учились и становились более человечными.

Что такое гражданская наука?

Необязательно быть учёным, чтобы вносить вклад в науку. Что такое гражданская наука? Какие её цели и тенденции? Как стать гражданским учёным и какие проекты для этого существуют? «Системный Блокъ» отвечает на эти вопросы.

Тест: угадайте, Путин или нейросеть

Мы попросили нейросети сгенерировать новогодние обращения Владимира Путина, стилизуя их под разные года и события. Пройдите тест и проверьте, сможете ли вы отличить настоящее обращение президента России от созданного нейросетью.

Что такое датасет в машинном обучении?

В машинном обучении не обойтись без данных. Точнее — без датасетов. Разбираемся, какие датасеты нужны моделям для «учёбы» и где их можно найти.

«Системный Блокъ»: лучшее за 2024 год

В 2024 году «Системный Блокъ» опубликовал 180 материалов. В этом посте мы рассказываем о наших итогах года: о запуске новых рубрик, лучших публикациях, создании DH-портала и других новостях. Несмотря ни на что, наша команда собирала для вас всё самое интересное из сферы цифровых гуманитарных исследований. Это наш способ сделать мир — если не лучше, то хотя бы понятнее.

Что такое косинусная близость?

Как онлайн-кинотеатры определяют, какой фильм вам порекомендовать, а маркетплейсы — какой похожий товар предложить? Как интернет-поисковики находят темы, которые отвечают теме запроса? И, наконец, может ли компьютер отличить мем с пёсиком от мема с котиком? Разбираем, что такое косинусная близость и как с помощью неё машина сравнивает объекты.

«Все мы немножко более дикие, чем могли бы быть»: интервью с Даниилом Скоринкиным

Что важнее: наука, преподавание или популяризация науки? Чем отличаются Digital Humanities в России и за рубежом? Какова цель существования «Системного Блока»? Свои ответы на эти вопросы дал главный редактор нашего издания Даниил Скоринкин.

10 слов машинного обучения

Что такое языковые модели, как их обучают и зачем нужна тестовая выборка? Объясняем основные термины машинного обучения.

Как поймать бактерию на плагиате: чем поиск переноса генов похож на NLP

Не только филологов и юристов волнует проблема авторства. Живые организмы тоже могут списывать друг у друга — прямо из генетического кода! Рассказываем, как и зачем биологи ищут в геномах фрагменты ДНК, заимствованные у других организмов, и какие компьютерные алгоритмы для этого используются.

«Предсказание революций и землетрясений мало чем отличаются»: интервью с Андреем Коротаевым о смертности в 90-е, клиодинамике и прогнозировании социальных взрывов

Можно ли моделировать исторические процессы при помощи баз данных и математических инструментов? Что даёт такое моделирование и каковы его границы? Почему после распада СССР смертность в России и Эстонии была гораздо выше, чем в Грузии, Армении или Узбекистане? Какие факторы позволяют предсказать социальный взрыв и почему повышение качества жизни может привести к революции? Об этом в интервью «Системному Блоку» рассказал доктор исторических наук Андрей Коротаев.

Чему учат в цифровой школе? Альтернативное расписание уроков к 1 сентября от «Системного Блока»

Как бы выглядела школа «Системного Блока» и чему бы в ней учили? К началу учебного года мы составили альтернативное расписание и подобрали материалы.

Тайны древней ДНК: как палеогенетика и биоинформатика помогают археологам

Можно ли узнать, чем болели люди в каменном веке, изучив остатки ДНК из их зубов? Да, если на помощь придут палеогенетика в связке с биоинформатикой. Палеогенетика изучает древнюю ДНК, чтобы понять, куда и откуда мигрировали древние люди, какие возбудители вызывали эпидемии, какие виды гибризовались, чтобы получился современный человек. Об этих подходах рассказывает Андрей Макашов, преподаватель специалитета в Высшей школе биомедицинских систем и технологий петербургского Политеха.

Языковые модели — это адронный коллайдер для языка: интервью с Татьяной Шавриной

Куда развивается искусственный интеллект и какие новые умения он приобретет в ближайшем будущем? Что делать с тем, что коммерческие продукты вроде ChatGPT созданы на основе украденной интеллектуальной собственности? Есть ли внутри современных нейросетевых моделей что-то вроде физической модели мира? (Спойлер: кажется, нет.) Об этом «Системный Блокъ» поговорил с Татьяной Шавриной, руководительницей исследовательской команды в проекте LLAMA.

«В России история интернета не написана никем»: Леонид Юлдашев об изучении интернета, кибернетике, Starlink и Чебурнете

Как исследователи пишут историю интернета? Почему глобальная сеть вытеснила национальные проекты вроде французского Minitel? Почему достижения советской кибернетики не привели к созданию работающих сетей? Кто стоял у истоков Рунета и куда Рунет движется сегодня? Обо всём этом «Системному Блоку» рассказал Леонид Юлдашев, социолог, исследователь истории интернета, в прошлом координатор клуба любителей интернета и общества.

Первая в СССР система французско-русского машинного перевода

В 1950-е годы гуманитарии и математики объединились, чтобы заниматься машинным переводом. Именно с этого берёт начало сфера автоматической обработки естественного языка (Natural Language Processing). За 70 лет с тех пор методы машинного перевода радикально сменились несколько раз, но как работали самые первые системы? Вспоминаем историю системы французско-русского перевода из 50-х гг., описываем принцип работы алгоритма (он состоял из 17 программ) и сравниваем его с современными моделями.

Музыкальная «энциклопедия русской жизни»: о чём пела русскоязычная поп-эстрада с 1990 по 2019 год

Популярная музыка транслирует социальные нормы. Чем популярнее музыка, тем больше людей могут себя с ней соотнести. На какие детали быта обращала внимание постсоветская поп-музыка в первые 30 лет своего существования? Кого из исполнителей можно назвать главными «бытописателями»? Попробуем разобраться в этом материале.

Как устроено закулисье современного интернета: подборка интервью «Системного Блока»

Интернет — это параллельный мир, в котором возникают новые культуры, формируется новый язык, разворачиваются ожесточённые словесные битвы. Он виртуален, но происходящее в нём напрямую влияет на реальную жизнь каждого из нас. Политика, буллинг, скорбь, торговля, флирт, преступления и благотворительность — как этот видимый хаос определяет нашу жизнь? О всём этом читайте в подборке интервью «Системного Блока», где наши интернет-исследователи делятся наблюдениями и опытом.

Что такое обучение с подкреплением?

Как машины могут учиться принимать решения на основе опыта подобно людями и животным? Изучим принципы обучения с подкреплением — подход, который позволяет компьютеру находить оптимальные стратегии действий в разнообразных сценариях. Эта статья погрузит вас в ключевые концепции и покажет, что стоит за простой идеей «учиться на своих ошибках».

«Меня интересует знать, а не уметь»: Игорь Мельчук о нетрадиционной лингвистике, машинном переводе и жизни в Канаде

Как в СССР возник машинный перевод? Чем нетрадиционная лингвистика отличается от традиционной? Почему эмиграция иногда становится спасением жизни? Об этом в интервью изданию «Системный Блокъ» рассказал Игорь Мельчук, лингвист, заслуженный профессор Монреальского университета, один из основоположников российской математической лингвистики и Московской семантической школы.

Подборка статей о точных методах в лингвистике

В Москве на 95-м году жизни скончался лингвист Ю. Д. Апресян — основатель Московской семантической школы, соавтор множества словарей, один из первых исследователей машинного перевода. Мы решили почтить память Ю. Д. Апресяна подборкой статей о прошлом и настоящем точных методов в лингвистике и машинного перевода.

Дневники, письма, конспекты: что такое эго-документ?

Историю можно изучать не только по летописям или книгам, но и по частным источникам, или эго-документам: письмам, дневникам, записным книжкам. Рассказываем об эго-документах и связанных с ними цифровых исследованиях.

Что такое RAG?

Что значит «языковая модель галлюцинирует»? Как сделать её ответы более точными и фактологически верными? Умеет ли нейросеть гуглить? Может ли нейросеть выдумывать несуществующие факты? Отвечаем в нашем материале о RAG (Retrieval Augmented Generation) — методе, позволяющем «подключать» языковые модели к внешним источникам информации.

Text-mining китайского языка: гайд по библиотеке Jieba

Китайский язык может быть очень сложно токенизировать, чтобы извлечь информацию из большого объёма текста: стандартные инструменты путаются в иероглифах. Рассказываем, как пользоваться библиотекой Jieba, которая помогает решить эту проблему.

Национальному корпусу русского языка — 20 лет: подборка

Мы собрали лучшие материалы «‎Системного Блока»‎, посвящённые главной цифровой коллекции текстов на русском языке: художественных, научных, церковнославянских, диалектных, списанных с бересты, поэтических, памятников литературы с XI века и многих других.

История на службе игровой индустрии: как низаритские исмаилиты стали Орденом Ассасинов

Assassin’s Creed — серия игр, сюжет которых построен вокруг многовековой борьбы двух тайных организаций — ассасинов и тамплиеров. Прототипом ассасинов послужили члены средневекового мусульманского течения исмаилитов-низаритов. В нашем материале рассказываем, как видеоигры адаптируют исторические реалии под свой формат.

Что такое лемматизация?

Как компьютеры понимают, что зло, зла и (из двух) зол — формы одного и того же слова? Рассказываем про лемматизацию — один из основных методов предобработки текстов, который помогает компьютеру лучше их понимать.

Что такое тест Тьюринга?

Тест Тьюринга появился в середине XX века и должен был определить, может ли компьютер думать. Рассмотрим подробнее, что такое тест Тьюринга: как он появился, в чём заключается и смогла ли ChatGPT его пройти?

GPT-4 больше не лучшая языковая модель, суперкомпьютер за 100 млрд долларов и новые открытые модели

OpenAI и Microsoft строят суперкомпьютер для нейросетей, модель Claude 3 Opus от Anthropic обошла GPT-4 в одном из основных рейтингов, Илон Маск опубликовал свою большую языковую модель без цензуры.

Что такое регулярные выражения

Как найти в тексте все числа из четырех цифр или все email-адреса? Рассказываем о регулярных выражениях — мощном инструменте для анализа и редактирования текстов, который используется программистами, специалистами в NLP и Digital Humanities, а также биоинформатиками. Регулярные выражения — это классика компьютерных методов обработки текстовых данных, они используются гораздо дольше, чем все новомодные методы, связанные с машинным обучением и нейросетями. Но до сих пор многие задачи проще и лучше всего решаются именно регулярками!

Что такое random forest?

Random forest (он же «случайный лес») — это алгоритм машинного обучения, который состоит из множества отдельных независимых «решающих деревьев». Чтобы повысить качество предсказаний, в машинном обучении используют ансамбли — алгоритмы, сочетающие сразу несколько моделей. Рассказываем об одном из самых популярных ансамблей — random forest.

Автономный ИИ-инженер и новое о Sora: дайджест новостей в мире искусственного интеллекта

Создатели Sora рассказали, откуда брали видео для обучения, но кое о чем умолчали. Компания Cohere — один из главных конкурентов OpenAI/ChatGPT — выпустила модель с 35 млрд параметров. Вышла сопоставимая с трансформерами RNN-модель EagleX — неужели рекуррентные нейросети рано хоронить? Рассказываем, что произошло в мире ИИ за прошедшую неделю

Что такое сетевой анализ?

Сетевой анализ ― это метод исследования, с помощью которого можно визуализировать и исследовать связи между людьми в сообществе, персонажами в художественном произведении, животными в стае и вообще любыми объектами. Из чего состоит сеть как модель? Какие параметры у них есть и о чём они говорят? Объясняем основы сетевого анализа на простых примерах.

Sora: как работает модель для генерации видео по тексту

Недавно компания OpenAI, создавшая модели GPT и сервис ChatGPT, выпустила новую модель Sora, которая генерирует видео по текстовому описанию. Такие модели были и раньше, но здесь произошёл качественный скачок. Во-первых, Sora умеет генерировать реалистичные видео в высоком разрешении (вплоть до FullHD), во-вторых, объекты в видео консистентны в течение всего времени. Рассказываем, как работает Sora, какие у неё есть ограничения и неожиданные особенности.

«Ты же не думаешь, что можно заниматься диалектологией как профессией?»: интервью с диалектологом Игорем Исаевым

Как отделить язык от диалекта? Должна ли вся страна говорить на одном «стандартном» языке и какие преимущества есть у использования диалектов? Имеют ли смысл политизированные споры вокруг разграничения русского, украинского и белорусского языков? Как проходят диалектологические экспедиции? Всё это «Системный Блокъ» обсудил с диалектологом, замдиректора Института языкознания РАН по науке Игорем Исаевым.

Что такое capta и чем отличается от больших данных?

Рассказываем про вид данных, отличающийся от привычных big data, и чем малые данные похожи на археологический раскоп.

Что такое KNN?

Может ли компьютер сравнивать объекты? Как сравнение объектов может быть полезно для решения задач классификации и регрессии (например, предсказания стоимости квартир)? И причём тут «проклятие размерности»? Узнаем в новом материале «Системного Блока»‎.

«Нас вообще все боятся»: Александра Архипова о том, зачем фольклористы и социальные антропологи собирают слухи и считают репосты

Как примирить сторонников количественных и качественных исследований культуры? Как исследователям фольклора помогают цифровые базы данных? О чём могут рассказать лозунги митингующих и народные рецепты лечения COVID-19? Почему конспирологические теории так привлекательны? Обо всём этом «Системный Блокъ» поговорил с антропологом Александрой Архиповой.

👋 Тест: какой вы жест из мультимедийного корпуса русского языка?✍️

«Закатить глаза» или «троекратный поцелуй»? Узнайте, каким жестом вы были бы во вселенной мультимедийного корпуса русского языка.

«Нам надоели префиксы и инфиксы, что мы можем для людей сделать?»: Ольга Драгой о настоящем и будущем нейролингвистических исследований

Нейролингвистические исследования находятся на стыке психологии, неврологии и лингвистики: здесь изучается речь пациентов, переживших инсульт, разрабатываются приложения для определения дислексии и даже синтезируются слова по активности нейронов. О соединении нейролингвистических экспериментов с машинным обучением «Системный Блокъ» поговорил с Ольгой Драгой, директором Центра языка и мозга НИУ ВШЭ и доктором филологических наук.

Как устроена оцифровка дневников: Михаил Мельниченко о проекте «Прожито» и его перезапуске

Проект «Прожито» начался с небольшой группы волонтёров, собиравших и оцифровывавших личные дневники. Сегодня это крупный центр по цифровой архивации эго-документов: дневников, мемуаров, писем и других личных свидетельств времени. Основатель «Прожито» Михаил Мельниченко рассказал «Системному Блоку» о том, кто и как приносит документы для оцифровки, откуда берутся тысячи волонтёров и как изменится «Прожито» в ближайшем будущем.

Оксана Мороз, интервью для издания Системный Блокъ

Что происходит в интернете: Оксана Мороз о цифровом бессмертии и языке онлайн-скорби

Почему в онлайн-среде люди ведут себя более агрессивно? Можно ли обрести бессмертие с помощью «цифры»? В чём феномен коллективного интернет-горевания? Об этом в интервью изданию «Системный Блокъ» рассказала Оксана Мороз, культуролог, исследователь цифровой среды, академический руководитель образовательной программы НИУ ВШЭ «Практики кураторства в современном искусстве».

Роботы в фильмах XX века: от ненависти к ИИ до слияния

Еще со времен второй промышленной революции человек забеспокоился, что безэмоциональная машина займет его место и на работе, и в остальных сферах жизни. Страхи и надежды людей по поводу роботов отражались и в кинематографе. Разберемся, как менялась репрезентация искусственного интеллекта в кино.

«Слово Пацана» как интернет-феномен: что ищут в поисковиках зрители сериала

«Слово Пацана. Кровь на асфальте» Жоры Крыжовникова стал самым обсуждаемым российским сериалом года. В одном только «Яндексе» его с момента выхода искали 60 миллионов раз. «Системный Блокъ» разобрался, как сериал о «казанском феномене» стал феноменом интернета и породил вал запросов в поисковиках.

«Злачные области науки»: Михаил Гельфанд о плагиате, лишении степени и неэффективных чиновниках 

В каких научных дисциплинах больше всего фальсификаций? Сколько депутатов лишились научных степеней из-за некорректных заимствований? Как работают фабрики по производству диссертаций? «Системный Блокъ» спросил Михаила Гельфанда, одного из основателей «Диссернета», как сегодня обстоят дела с плагиатом в российских научных работах.

Стилометрия древнегреческих текстов: работает ли Дельта — и что кроме нее

Стилометрия — количественный метод определения авторства, который проверен на десятках современных языков. А что там с языками древними? Историк философии Ольга Алиева исследовала, как работает Дельта и другие стилометрические меры на древнегреческих текстах. Разбираемся вместе с ней, может ли стилометрия отличить Аристотеля от Платона, а Геродота от Плутарха.

«Digital Humanities — это крыша для всех, кто применяет цифровые технологии»: интервью с Леонидом Бородкиным об исторической информатике

Какие советские ученые стоят у истоков исторической информатики? Как математические методы позволяют моделировать исторические процессы? Как складывались отношения российских исторических информатиков с международным сообществом? Как они взаимодействуют с сообществом «цифровых гуманитариев» (Digital Humanities)?

Как писать художественные тексты с ChatGPT и не облажаться: советы редактора

Может ли нейросеть заменить писателя? И да и нет. Есть творческие задачи, с которыми современные языковые модели справляются легко: например, стилизовать сказку под триллер, а трагедию Шекспира — под дворовую байку. Но есть многое, в чем им нужна помощь или хотя бы руководство человека. Разбираемся, какие литературные задачи можно делегировать ChatGPT, а какие пока не стоит.

Русалка села на шпагат: как нейросети генерируют картинки и подменяют понятия

Новостей о том, что уже умеет искусственный интеллект и какие профессии из-за него обречены, предостаточно. Гораздо интереснее выяснять, чего он не может. Ранее мы уже писали о том, как ChatGPT выдумывает несуществующие произведения Льва Толстого. Теперь авторы «Системного Блока» провели эксперимент, чтобы выяснить, где границы возможностей нейросетей для генерации изображений (Midjourney, DALL-E, Kandinsky), и обнаружили у них проблемы с образным и абстрактным мышлением

Как распознать тексты и сделать корпус для исследования: пошаговая инструкция 

От библиотечного каталога к машиночитаемым текстовым данным для компьютерного анализа: разбираемся, как собрать корпус, используя ресурсы цифровых библиотечных коллекций, и как преобразовать отсканированные документы в машиночитаемый текст с помощью различных инструментов оптического распознавания символов

Что такое автоэнкодер?

Как использовать нейронные сети для распознавания лиц? Может ли нейросеть определить, какие признаки в данных значимые, а какие просто шум? Что такое латентное пространство и зачем оно нужно? Отвечаем на все эти вопросы в нашем материале про один из типов нейросетей — автоэнкодер

Правда глаза колет: 150 лет истории айтрекеров

В психологии и психолингвистике айтрекинг — давно известная и популярная технология. Рассмотрим, как она появилась и почему первым испытуемым приходилось терпеть тупую иглу на веке или присоску с радиоантенной на глазу. Но не пугайтесь: сейчас для исследования движений глаз применяют бесконтактные технологии. И об инвазивных методах, и о новых способах айтрекинга расскажем в нашем материале

Китайская живопись и нейросеть: как машина даёт оценку картинам

Нейросеть научилась давать оценку картинам китайских художников, как профессиональный искусствовед. Рассказываем простыми словами, как это работает и причём здесь пятьдесят оттенков серого

Стилометрия кинодиалогов: шесть жанров в поисках автора

Статья Агаты Холобут и Яна Рыбицкого The Stylometry of Film Dialogue: Pros and Pitfalls показывает связь между жанровыми особенностями кино и лексикой диалогов: с помощью стилометрии и сентимент-анализа авторы исследуют 178 фильмов из разных эпох. Рассказываем, что же у них получилось

Фонограммархив для науки: Светлана Подрезова о коллекции аудиозаписей Пушкинского Дома и работе с источниками

Как связаны имена Блока и Гумилёва с историей крупнейшей коллекции этнографических аудиозаписей? Когда исполнители перестали бояться раструба фонографа? Что происходит, если идеология вмешивается в научный процесс? Как происходит цифровизация аудио, записанного некогда на восковые валики? Об этом в интервью «Системному Блоку» рассказала Светлана Подрезова, заведующая Фонограммархивом Пушкинского Дома (ИРЛИ РАН).

Cultural heritage in action: лучшие практики сохранения и популяризации культурного наследия в Европе

Проект Cultural heritage in action собирает хорошие решения по работе с культурным наследием в Европе и открывает доступ к получившемуся каталогу.

Искусственный интеллект vs. феномен Владимира Набокова

Владимир Набоков известен тем, что писал и на русском, и на английском. Сможет ли компьютер распознать его оригинальный стиль? Этот вопрос исследовал цифровой филолог Борис Орехов. О том, как стилометрия при помощи статистики справляется с филологическими задачами – в материале «Системного Блока».

Язык и точка невозврата: интервью с лингвистом Михаилом Даниэлем о сохранении языков и языковом разнообразии 

Малыми языками интересуются одновременно и учёные, и языковые активисты, и (иногда) государство. «Системный Блокъ» подготовил интервью с Михаилом Даниэлем — исследователем малых языков, социолингвистом и участником проектов ВАНК и Multidagestan. Мы обсудили, каким языкам грозит вымирание.