Фото автора

Евгения Родикова

Иллюстратор

Увлекаюсь живописью, иллюстрацией, дизайном одежды. Люблю котиков

Иллюстратор статей

10 слов машинного обучения

Что такое языковые модели, как их обучают и зачем нужна тестовая выборка? Объясняем основные термины машинного обучения.

Как поймать бактерию на плагиате: чем поиск переноса генов похож на NLP

Не только филологов и юристов волнует проблема авторства. Живые организмы тоже могут списывать друг у друга — прямо из генетического кода! Рассказываем, как и зачем биологи ищут в геномах фрагменты ДНК, заимствованные у других организмов, и какие компьютерные алгоритмы для этого используются.

«Предсказание революций и землетрясений мало чем отличаются»: интервью с Андреем Коротаевым о смертности в 90-е, клиодинамике и прогнозировании социальных взрывов

Можно ли моделировать исторические процессы при помощи баз данных и математических инструментов? Что даёт такое моделирование и каковы его границы? Почему после распада СССР смертность в России и Эстонии была гораздо выше, чем в Грузии, Армении или Узбекистане? Какие факторы позволяют предсказать социальный взрыв и почему повышение качества жизни может привести к революции? Об этом в интервью «Системному Блоку» рассказал доктор исторических наук Андрей Коротаев.

Чему учат в цифровой школе? Альтернативное расписание уроков к 1 сентября от «Системного Блока»

Как бы выглядела школа «Системного Блока» и чему бы в ней учили? К началу учебного года мы составили альтернативное расписание и подобрали материалы.

Тайны древней ДНК: как палеогенетика и биоинформатика помогают археологам

Можно ли узнать, чем болели люди в каменном веке, изучив остатки ДНК из их зубов? Да, если на помощь придут палеогенетика в связке с биоинформатикой. Палеогенетика изучает древнюю ДНК, чтобы понять, куда и откуда мигрировали древние люди, какие возбудители вызывали эпидемии, какие виды гибризовались, чтобы получился современный человек. Об этих подходах рассказывает Андрей Макашов, преподаватель специалитета в Высшей школе биомедицинских систем и технологий петербургского Политеха.

Языковые модели — это адронный коллайдер для языка: интервью с Татьяной Шавриной

Куда развивается искусственный интеллект и какие новые умения он приобретет в ближайшем будущем? Что делать с тем, что коммерческие продукты вроде ChatGPT созданы на основе украденной интеллектуальной собственности? Есть ли внутри современных нейросетевых моделей что-то вроде физической модели мира? (Спойлер: кажется, нет.) Об этом «Системный Блокъ» поговорил с Татьяной Шавриной, руководительницей исследовательской команды в проекте LLAMA.

«В России история интернета не написана никем»: Леонид Юлдашев об изучении интернета, кибернетике, Starlink и Чебурнете

Как исследователи пишут историю интернета? Почему глобальная сеть вытеснила национальные проекты вроде французского Minitel? Почему достижения советской кибернетики не привели к созданию работающих сетей? Кто стоял у истоков Рунета и куда Рунет движется сегодня? Обо всём этом «Системному Блоку» рассказал Леонид Юлдашев, социолог, исследователь истории интернета, в прошлом координатор клуба любителей интернета и общества.

Первая в СССР система французско-русского машинного перевода

В 1950-е годы гуманитарии и математики объединились, чтобы заниматься машинным переводом. Именно с этого берёт начало сфера автоматической обработки естественного языка (Natural Language Processing). За 70 лет с тех пор методы машинного перевода радикально сменились несколько раз, но как работали самые первые системы? Вспоминаем историю системы французско-русского перевода из 50-х гг., описываем принцип работы алгоритма (он состоял из 17 программ) и сравниваем его с современными моделями.

Музыкальная «энциклопедия русской жизни»: о чём пела русскоязычная поп-эстрада с 1990 по 2019 год

Популярная музыка транслирует социальные нормы. Чем популярнее музыка, тем больше людей могут себя с ней соотнести. На какие детали быта обращала внимание постсоветская поп-музыка в первые 30 лет своего существования? Кого из исполнителей можно назвать главными «бытописателями»? Попробуем разобраться в этом материале.

Как устроено закулисье современного интернета: подборка интервью «Системного Блока»

Интернет — это параллельный мир, в котором возникают новые культуры, формируется новый язык, разворачиваются ожесточённые словесные битвы. Он виртуален, но происходящее в нём напрямую влияет на реальную жизнь каждого из нас. Политика, буллинг, скорбь, торговля, флирт, преступления и благотворительность — как этот видимый хаос определяет нашу жизнь? О всём этом читайте в подборке интервью «Системного Блока», где наши интернет-исследователи делятся наблюдениями и опытом.

Что такое обучение с подкреплением?

Как машины могут учиться принимать решения на основе опыта подобно людями и животным? Изучим принципы обучения с подкреплением — подход, который позволяет компьютеру находить оптимальные стратегии действий в разнообразных сценариях. Эта статья погрузит вас в ключевые концепции и покажет, что стоит за простой идеей «учиться на своих ошибках».

«Меня интересует знать, а не уметь»: Игорь Мельчук о нетрадиционной лингвистике, машинном переводе и жизни в Канаде

Как в СССР возник машинный перевод? Чем нетрадиционная лингвистика отличается от традиционной? Почему эмиграция иногда становится спасением жизни? Об этом в интервью изданию «Системный Блокъ» рассказал Игорь Мельчук, лингвист, заслуженный профессор Монреальского университета, один из основоположников российской математической лингвистики и Московской семантической школы.

Подборка статей о точных методах в лингвистике

В Москве на 95-м году жизни скончался лингвист Ю. Д. Апресян — основатель Московской семантической школы, соавтор множества словарей, один из первых исследователей машинного перевода. Мы решили почтить память Ю. Д. Апресяна подборкой статей о прошлом и настоящем точных методов в лингвистике и машинного перевода.

Дневники, письма, конспекты: что такое эго-документ?

Историю можно изучать не только по летописям или книгам, но и по частным источникам, или эго-документам: письмам, дневникам, записным книжкам. Рассказываем об эго-документах и связанных с ними цифровых исследованиях.

Что такое RAG?

Что значит «языковая модель галлюцинирует»? Как сделать её ответы более точными и фактологически верными? Умеет ли нейросеть гуглить? Может ли нейросеть выдумывать несуществующие факты? Отвечаем в нашем материале о RAG (Retrieval Augmented Generation) — методе, позволяющем «подключать» языковые модели к внешним источникам информации.

Text-mining китайского языка: гайд по библиотеке Jieba

Китайский язык может быть очень сложно токенизировать, чтобы извлечь информацию из большого объёма текста: стандартные инструменты путаются в иероглифах. Рассказываем, как пользоваться библиотекой Jieba, которая помогает решить эту проблему.

Национальному корпусу русского языка — 20 лет: подборка

Мы собрали лучшие материалы «‎Системного Блока»‎, посвящённые главной цифровой коллекции текстов на русском языке: художественных, научных, церковнославянских, диалектных, списанных с бересты, поэтических, памятников литературы с XI века и многих других.

История на службе игровой индустрии: как низаритские исмаилиты стали Орденом Ассасинов

Assassin’s Creed — серия игр, сюжет которых построен вокруг многовековой борьбы двух тайных организаций — ассасинов и тамплиеров. Прототипом ассасинов послужили члены средневекового мусульманского течения исмаилитов-низаритов. В нашем материале рассказываем, как видеоигры адаптируют исторические реалии под свой формат.

Что такое лемматизация?

Как компьютеры понимают, что зло, зла и (из двух) зол — формы одного и того же слова? Рассказываем про лемматизацию — один из основных методов предобработки текстов, который помогает компьютеру лучше их понимать.

Что такое тест Тьюринга?

Тест Тьюринга появился в середине XX века и должен был определить, может ли компьютер думать. Рассмотрим подробнее, что такое тест Тьюринга: как он появился, в чём заключается и смогла ли ChatGPT его пройти?

GPT-4 больше не лучшая языковая модель, суперкомпьютер за 100 млрд долларов и новые открытые модели

OpenAI и Microsoft строят суперкомпьютер для нейросетей, модель Claude 3 Opus от Anthropic обошла GPT-4 в одном из основных рейтингов, Илон Маск опубликовал свою большую языковую модель без цензуры.

Что такое регулярные выражения

Как найти в тексте все числа из четырех цифр или все email-адреса? Рассказываем о регулярных выражениях — мощном инструменте для анализа и редактирования текстов, который используется программистами, специалистами в NLP и Digital Humanities, а также биоинформатиками. Регулярные выражения — это классика компьютерных методов обработки текстовых данных, они используются гораздо дольше, чем все новомодные методы, связанные с машинным обучением и нейросетями. Но до сих пор многие задачи проще и лучше всего решаются именно регулярками!

Что такое random forest?

Random forest (он же «случайный лес») — это алгоритм машинного обучения, который состоит из множества отдельных независимых «решающих деревьев». Чтобы повысить качество предсказаний, в машинном обучении используют ансамбли — алгоритмы, сочетающие сразу несколько моделей. Рассказываем об одном из самых популярных ансамблей — random forest.

Автономный ИИ-инженер и новое о Sora: дайджест новостей в мире искусственного интеллекта

Создатели Sora рассказали, откуда брали видео для обучения, но кое о чем умолчали. Компания Cohere — один из главных конкурентов OpenAI/ChatGPT — выпустила модель с 35 млрд параметров. Вышла сопоставимая с трансформерами RNN-модель EagleX — неужели рекуррентные нейросети рано хоронить? Рассказываем, что произошло в мире ИИ за прошедшую неделю

Что такое сетевой анализ?

Сетевой анализ ― это метод исследования, с помощью которого можно визуализировать и исследовать связи между людьми в сообществе, персонажами в художественном произведении, животными в стае и вообще любыми объектами. Из чего состоит сеть как модель? Какие параметры у них есть и о чём они говорят? Объясняем основы сетевого анализа на простых примерах.

Sora: как работает модель для генерации видео по тексту

Недавно компания OpenAI, создавшая модели GPT и сервис ChatGPT, выпустила новую модель Sora, которая генерирует видео по текстовому описанию. Такие модели были и раньше, но здесь произошёл качественный скачок. Во-первых, Sora умеет генерировать реалистичные видео в высоком разрешении (вплоть до FullHD), во-вторых, объекты в видео консистентны в течение всего времени. Рассказываем, как работает Sora, какие у неё есть ограничения и неожиданные особенности.

«Ты же не думаешь, что можно заниматься диалектологией как профессией?»: интервью с диалектологом Игорем Исаевым

Как отделить язык от диалекта? Должна ли вся страна говорить на одном «стандартном» языке и какие преимущества есть у использования диалектов? Имеют ли смысл политизированные споры вокруг разграничения русского, украинского и белорусского языков? Как проходят диалектологические экспедиции? Всё это «Системный Блокъ» обсудил с диалектологом, замдиректора Института языкознания РАН по науке Игорем Исаевым.

Что такое capta и чем отличается от больших данных?

Рассказываем про вид данных, отличающийся от привычных big data, и чем малые данные похожи на археологический раскоп.

Что такое KNN?

Может ли компьютер сравнивать объекты? Как сравнение объектов может быть полезно для решения задач классификации и регрессии (например, предсказания стоимости квартир)? И причём тут «проклятие размерности»? Узнаем в новом материале «Системного Блока»‎.

«Нас вообще все боятся»: Александра Архипова о том, зачем фольклористы и социальные антропологи собирают слухи и считают репосты

Как примирить сторонников количественных и качественных исследований культуры? Как исследователям фольклора помогают цифровые базы данных? О чём могут рассказать лозунги митингующих и народные рецепты лечения COVID-19? Почему конспирологические теории так привлекательны? Обо всём этом «Системный Блокъ» поговорил с антропологом Александрой Архиповой.

👋 Тест: какой вы жест из мультимедийного корпуса русского языка?✍️

«Закатить глаза» или «троекратный поцелуй»? Узнайте, каким жестом вы были бы во вселенной мультимедийного корпуса русского языка.

«Нам надоели префиксы и инфиксы, что мы можем для людей сделать?»: Ольга Драгой о настоящем и будущем нейролингвистических исследований

Нейролингвистические исследования находятся на стыке психологии, неврологии и лингвистики: здесь изучается речь пациентов, переживших инсульт, разрабатываются приложения для определения дислексии и даже синтезируются слова по активности нейронов. О соединении нейролингвистических экспериментов с машинным обучением «Системный Блокъ» поговорил с Ольгой Драгой, директором Центра языка и мозга НИУ ВШЭ и доктором филологических наук.

Как устроена оцифровка дневников: Михаил Мельниченко о проекте «Прожито» и его перезапуске

Проект «Прожито» начался с небольшой группы волонтёров, собиравших и оцифровывавших личные дневники. Сегодня это крупный центр по цифровой архивации эго-документов: дневников, мемуаров, писем и других личных свидетельств времени. Основатель «Прожито» Михаил Мельниченко рассказал «Системному Блоку» о том, кто и как приносит документы для оцифровки, откуда берутся тысячи волонтёров и как изменится «Прожито» в ближайшем будущем.

Оксана Мороз, интервью для издания Системный Блокъ

Что происходит в интернете: Оксана Мороз о цифровом бессмертии и языке онлайн-скорби

Почему в онлайн-среде люди ведут себя более агрессивно? Можно ли обрести бессмертие с помощью «цифры»? В чём феномен коллективного интернет-горевания? Об этом в интервью изданию «Системный Блокъ» рассказала Оксана Мороз, культуролог, исследователь цифровой среды, академический руководитель образовательной программы НИУ ВШЭ «Практики кураторства в современном искусстве».

Роботы в фильмах XX века: от ненависти к ИИ до слияния

Еще со времен второй промышленной революции человек забеспокоился, что безэмоциональная машина займет его место и на работе, и в остальных сферах жизни. Страхи и надежды людей по поводу роботов отражались и в кинематографе. Разберемся, как менялась репрезентация искусственного интеллекта в кино.

«Слово Пацана» как интернет-феномен: что ищут в поисковиках зрители сериала

«Слово Пацана. Кровь на асфальте» Жоры Крыжовникова стал самым обсуждаемым российским сериалом года. В одном только «Яндексе» его с момента выхода искали 60 миллионов раз. «Системный Блокъ» разобрался, как сериал о «казанском феномене» стал феноменом интернета и породил вал запросов в поисковиках.

«Злачные области науки»: Михаил Гельфанд о плагиате, лишении степени и неэффективных чиновниках 

В каких научных дисциплинах больше всего фальсификаций? Сколько депутатов лишились научных степеней из-за некорректных заимствований? Как работают фабрики по производству диссертаций? «Системный Блокъ» спросил Михаила Гельфанда, одного из основателей «Диссернета», как сегодня обстоят дела с плагиатом в российских научных работах.

Стилометрия древнегреческих текстов: работает ли Дельта — и что кроме нее

Стилометрия — количественный метод определения авторства, который проверен на десятках современных языков. А что там с языками древними? Историк философии Ольга Алиева исследовала, как работает Дельта и другие стилометрические меры на древнегреческих текстах. Разбираемся вместе с ней, может ли стилометрия отличить Аристотеля от Платона, а Геродота от Плутарха.

«Digital Humanities — это крыша для всех, кто применяет цифровые технологии»: интервью с Леонидом Бородкиным об исторической информатике

Какие советские ученые стоят у истоков исторической информатики? Как математические методы позволяют моделировать исторические процессы? Как складывались отношения российских исторических информатиков с международным сообществом? Как они взаимодействуют с сообществом «цифровых гуманитариев» (Digital Humanities)?

Как писать художественные тексты с ChatGPT и не облажаться: советы редактора

Может ли нейросеть заменить писателя? И да и нет. Есть творческие задачи, с которыми современные языковые модели справляются легко: например, стилизовать сказку под триллер, а трагедию Шекспира — под дворовую байку. Но есть многое, в чем им нужна помощь или хотя бы руководство человека. Разбираемся, какие литературные задачи можно делегировать ChatGPT, а какие пока не стоит.

Русалка села на шпагат: как нейросети генерируют картинки и подменяют понятия

Новостей о том, что уже умеет искусственный интеллект и какие профессии из-за него обречены, предостаточно. Гораздо интереснее выяснять, чего он не может. Ранее мы уже писали о том, как ChatGPT выдумывает несуществующие произведения Льва Толстого. Теперь авторы «Системного Блока» провели эксперимент, чтобы выяснить, где границы возможностей нейросетей для генерации изображений (Midjourney, DALL-E, Kandinsky), и обнаружили у них проблемы с образным и абстрактным мышлением

Как распознать тексты и сделать корпус для исследования: пошаговая инструкция 

От библиотечного каталога к машиночитаемым текстовым данным для компьютерного анализа: разбираемся, как собрать корпус, используя ресурсы цифровых библиотечных коллекций, и как преобразовать отсканированные документы в машиночитаемый текст с помощью различных инструментов оптического распознавания символов

Что такое автоэнкодер?

Как использовать нейронные сети для распознавания лиц? Может ли нейросеть определить, какие признаки в данных значимые, а какие просто шум? Что такое латентное пространство и зачем оно нужно? Отвечаем на все эти вопросы в нашем материале про один из типов нейросетей — автоэнкодер

Правда глаза колет: 150 лет истории айтрекеров

В психологии и психолингвистике айтрекинг — давно известная и популярная технология. Рассмотрим, как она появилась и почему первым испытуемым приходилось терпеть тупую иглу на веке или присоску с радиоантенной на глазу. Но не пугайтесь: сейчас для исследования движений глаз применяют бесконтактные технологии. И об инвазивных методах, и о новых способах айтрекинга расскажем в нашем материале

Китайская живопись и нейросеть: как машина даёт оценку картинам

Нейросеть научилась давать оценку картинам китайских художников, как профессиональный искусствовед. Рассказываем простыми словами, как это работает и причём здесь пятьдесят оттенков серого

Стилометрия кинодиалогов: шесть жанров в поисках автора

Статья Агаты Холобут и Яна Рыбицкого The Stylometry of Film Dialogue: Pros and Pitfalls показывает связь между жанровыми особенностями кино и лексикой диалогов: с помощью стилометрии и сентимент-анализа авторы исследуют 178 фильмов из разных эпох. Рассказываем, что же у них получилось

Фонограммархив для науки: Светлана Подрезова о коллекции аудиозаписей Пушкинского Дома и работе с источниками

Как связаны имена Блока и Гумилёва с историей крупнейшей коллекции этнографических аудиозаписей? Когда исполнители перестали бояться раструба фонографа? Что происходит, если идеология вмешивается в научный процесс? Как происходит цифровизация аудио, записанного некогда на восковые валики? Об этом в интервью «Системному Блоку» рассказала Светлана Подрезова, заведующая Фонограммархивом Пушкинского Дома (ИРЛИ РАН).

Cultural heritage in action: лучшие практики сохранения и популяризации культурного наследия в Европе

Проект Cultural heritage in action собирает хорошие решения по работе с культурным наследием в Европе и открывает доступ к получившемуся каталогу.

Искусственный интеллект vs. феномен Владимира Набокова

Владимир Набоков известен тем, что писал и на русском, и на английском. Сможет ли компьютер распознать его оригинальный стиль? Этот вопрос исследовал цифровой филолог Борис Орехов. О том, как стилометрия при помощи статистики справляется с филологическими задачами – в материале «Системного Блока».

Язык и точка невозврата: интервью с лингвистом Михаилом Даниэлем о сохранении языков и языковом разнообразии 

Малыми языками интересуются одновременно и учёные, и языковые активисты, и (иногда) государство. «Системный Блокъ» подготовил интервью с Михаилом Даниэлем — исследователем малых языков, социолингвистом и участником проектов ВАНК и Multidagestan. Мы обсудили, каким языкам грозит вымирание.

Преодолевая тишину: что такое Sound Studies и как создаются звуковые карты

«Любой обманчив звук», — пел Александр Васильев. И как же он прав! Всё, что мы слышим каждый день — от надоедливых уведомлений до сигнала светофоров, – содержит целый пласт коллективных и индивидуальных значений, редко совпадающих друг с другом. Воспринимаемый обычно как фон, звук на самом деле формирует отношение к месту и влияет на воспоминания о событиях. Изучением этого и занимаются Sound Studies.

Научный журналист должен быть аутсайдером: Ольга Добровидова о научной коммуникации и научной журналистике

Научный и экологический журналист Ольга Добровидова — о разнице между научными журналистами и научными коммуникаторами, о конфликте интересов между научным сообществом и общественным благом, а также о том, как вырос запрос на медицинскую журналистику.

От аналогового к цифровому: как происходит оцифровка в архивах, музеях и библиотеках

Современный мир захлестнула цифровизация. Это не обошло стороной, в том числе, и институции культурного наследия, которые начали массово переводить свои коллекции в цифровой формат. Рассказываем, что и зачем оцифровывают библиотеки, музеи, архивы, а также каким образом культурное наследие обрабатывается компьютерной техникой.

Домашнее и партнерское насилие в России: сколько у него жертв и как им помочь

Проблема домашнего насилия — одна из наиболее острых социальных проблем в современной России. А вопрос о достоверной статистике по этой теме — один из самых болезненных. Разбираемся в том, кто становится авторами насилия, кто от него страдает и куда обращаться.

Магнитометрия: что это такое и как её используют в археологии 

Не секрет, что археологические раскопки нередко влекут за собой гибель памятника. Давняя мечта археологов — изучать памятники, не разрушая их. Сохранить культурный слой помогают устройства, которые «просветили» бы земную толщу. Они появились в середине XX века. Рассказываем о том, как применяется в археологии магнитометр и что такое магнитометрическая разведка.

Поиграем в прошлое: как исторические видеоигры влияют на современность

Исторические игры регулярно попадают в десятку самых продаваемых видеоигр в разных странах, а опирающаяся на всемирную историю Assassin's Creed — одна из самых продаваемых франшиз видеоигр всех времен. Разбираемся, как видеоигры транслируют историю и почему интерес к ним не угасает.

24000 оцифрованных старых открыток: проекту «Пишу тебе» два года

В июне 2021 года команда «Системного блока» презентовала проект открытого цифрового архива отправленных почтовых открыток. Имя этого проекта — «Пишу тебе». Два года спустя мы хотим рассказать про интересные открытки, которые мы собрали, и обозначить планы на будущее.

Нужный, живой, веселый, пьяный, хороший: цифровой анализ текстов песен «Короля и Шута»

Наверняка вы когда-нибудь слышали о группе «Король и Шут». Даже, если вы не преданный фанат, то мы почти уверены, что, узнав строки «Разбежавшись, прыгну со скалы», вы подхватите мотив и подпоете: «Вот я был, и вот меня не стало». К тому же, недавний релиз сериала о группе снова оживил интерес слушателя к творчеству самых известных панков России. «Системный блокъ», вдохновившись сериалом, решил не только переслушать старые хиты, но и количественными методами изучить творчество «Короля и Шута».

Как работают языковые модели

Что такое языковая модель? Что общего между клавиатурой вашего телефона и GPT? Почему языковые модели умеют не только моделировать язык? Можно ли предсказать точность модели до её обучения? Отвечаем на все эти вопросы в нашем материале.

Как провести стилометрический эксперимент с помощью stylo?

Системный Блокъ уже рассказывал о том, что такое стилометрия, и о многих стилометрических исследованиях. Читайте подробный гайд, как самому провести такой эксперимент — с помощью stylo, библиотеки языка R и самого популярного инструмента для стилометрии.