Дата-журналистика: точка входа

Что такое дата-журналистика?

Дата-журналистика — это направление журналистики, в котором для создания статей и материалов используются количественные данные. Например, данные о заболеваемости ВИЧ, частота встречаемости слов в романе или контракты госзакупок. На основе данных журналисты выявляют закономерности и не видимые на первый взгляд проблемы, а результаты публикуют в виде расследований, статей, мультимедийных проектов или визуализаций. В «Системном Блоке» этому посвящена целая рубрика «Инфографика», из которой можно узнать о том, как бездомность сокращает жизнь, как политические события влияют на книжный рынок и сколько в российских школах учителей-мужчин.

Как работает дата-журналист?

Этапы создания дата-журналистского исследования: выбор темы, постановка вопроса и выработка гипотез, поиск и подготовка данных, проверка выдвинутых гипотез, визуализация, подготовка текста.

Выбор темы

При выборе темы журналист отталкивается от интереса читателя либо от запроса издания, в котором будет опубликован материал. Проще всего узнать интересы целевой группы — изучить социологические опросы, обратить внимание на потенциально популярные, виральные или острые темы, провести анализ поисковых запросов.

Бывают случаи, когда текст рождается из данных, то есть мы видим аномальное значение или большой рост показателя и пишем об этом. Например, в 2024 году число призывников, проходящих альтернативную гражданскую службу, рекордно выросло. В подобных случаях мы пишем об аномалии и ищем экспертов, которые могут объяснить это. Но сами данные нам не раскроют причину, только покажут явление.

Борис Ги, дата-журналист

Постановка гипотез

Когда тема сформулирована, можно выдвинуть несколько гипотез, которые вы будете проверять впоследствии.

Гипотеза — это предположение, которое формулируется перед началом исследования и которое подтверждается или опровергается эмпирически по ходу работы. Гипотеза описывается формально, она включает в себя возможный ответ на вопрос, раскрывающий тему исследования. Часто требуется перепроверять и корректировать идеи, поэтому не нужно бояться выдвигать новые гипотезы.

Например, в исследовании «Системного Блока» про призыв в Великую Отечественную войну была сформулирована гипотеза о том, что доля населения, призванная в армию из разных республик, была примерно одинаковой. Но в процессе анализа эта гипотеза не подтвердилась. В то же время у исследователей были вопросы, на которые они хотели получить ответ (например, как повлияли на призыв сталинские ограничения на призыв некоторых народов на фронт). Иногда не гипотезы, а именно исследовательские вопросы задают направление работы: например, как повлияли на статистику негласные запреты на призыв в отношении некоторых народов СССР.

Еще направление работы могут подсказать сами данные. Но что делать, когда данные только предстоит найти в соответствии с выбранной темой и гипотезами?

Сбор данных

Получить данные можно разными способами. Например:

Скачать из открытых источников
Готовые датасеты — это общедоступная информация, размещенная в Интернете под свободной лицензией для бесплатного и неоднократного использования. Они чаще всего публикуются в форматах XLSX, CSV, JSON, что упрощает их автоматизированную обработку. Таких датасетов много, их источниками являются государственные органы (открытые данные Минкультуры РФ, данные о государственных муниципальных учреждениях, открытые данные Росстата, государственная статистика ЕМИСС), негосударственные организации (платформа открытых данных «Если быть точным», проект Инфокультуры «Госзатраты», карта ДТП), международные проекты (Google Data Search, данные ВОЗ, Kaggle Datasets, World Inequality Database). Их недостаток в том, что, вероятно, они уже были неоднократно исследованы, поэтому стоит удостовериться, что вы собираетесь показать на них что-то новое.
Собрать автоматически с нужных сайтов
Можно воспользоваться специальным программным обеспечением для парсинга, либо написать парсер самому. О том, как это сделать, можно подробно почитать в нашем материале.
Попросить у операторов данных
Некоторые компании предоставляют агрегированные данные по запросу. К самой базе данных доступ никто не даст, в чем и заключается сложность: по полученному запросу PR-отдел компании должен сформулировать задачу для аналитика, а он ее решить. На это может не быть ресурсов.
Легально получить доступ к неопубликованным данным
Можно направить официальный запрос в инстанцию, хранящую желаемые данные. Государственные ведомства и Росстат публикуют далеко не все показатели, которые собирают. Например, один из немногих показателей, который характеризует заболеваемость ожирением — это темпы прироста первичной заболеваемости ожирением на ЕМИСС. Из опубликованных данных непонятно, сколько людей имеют этот диагноз. Но мы можем запросить данные формы наблюдения № 12 у Росстата и получить информацию в разрезах по регионам и возрастным группам.
Собрать самостоятельно.
Это можно сделать с помощью изучения документов или опроса. Однако репрезентативный соцопрос — это сложная задача, для которой нужна группа исследователей. Такие материалы обычно возможны только в партнерстве. В качестве примера можно привести совместное исследование «Если быть точным» и «Таких дел» о том, что знает и думает про ВИЧ российская молодежь.

Главное при выборе источников данных — убедиться, что они отражают предмет исследования. Если вы пользуетесь готовыми датасетами, важно понимать, кем и как они получены, и что именно описывают данные. Вопросы о том, кто собрал данные, когда, где, при каких обстоятельствах и с какой целью, позволяют полноценно понять их специфику, дают возможность избежать неверных трактовок. Журналист должен найти верную методологию расчета или форму статистического наблюдения.

В качестве примера можно рассмотреть такой показатель, как статистика абортов. На ЕМИСС есть показатель «Число прерываний беременности» (их два, первый собирает Росстат, второй — Минздрав). Нужно взять первый, поскольку Росстат включает и негосударственные клиники. На первый взгляд, эти данные можно интерпретировать как число «искусственных» абортов, то есть случаев, когда женщина приходит в больницу и прерывает беременность. Для проверки нужно открыть форму 1-здрав (можно найти по ссылке в паспорте показателя). Раздел формы называется немного иначе — «Сведения о беременности с абортивным исходом», а в общее число входят как медицинские, так и самопроизвольные аборты (т.е. выкидыши).

Иногда необходимо возобновлять отбор данных, так как ход работы показывает, что на основе имеющихся невозможно сделать выводы, что они нерепрезентативны. У данных могут быть ограничения, незаметные на первый взгляд. О них можно узнать от экспертов, профильных специалистов или из литературы, но не из самой формы. Например, официальные данные по ожирению занижены, поскольку ожирение часто идет сопутствующим, а не основным, заболеванием и не попадает в статистическую карточку, которую заполняют в больнице.

Предобработка данных

После того, как данные найдены, переходим к их подготовке для дальнейшего изучения. Очистка данных, или препроцессинг, — один из обязательных этапов, поскольку готовых машиночитаемых данных практически не бывает.

Некоторые открытые данные приходится конвертировать в нужный формат, так как расширение, в котором они опубликованы (например, .pdf), не позволяет считывать хранящуюся в них информацию корректно. Конвертируют данные в машиночитаемый формат (например, XLSX, CSV и т. д.) с помощью библиотек python или другого языка, онлайн инструментов и т. п., а в самых простых случаях с помощью копирования и вставки.

После конвертации данные проверяются на ошибки и чистятся вручную. Это можно сделать с помощью, например, табличных операторов: подсчитать суммы по регионам и сравнить их с данными, которые есть (строчка «Россия» должна совпадать с суммой по регионам); унифицировать названия показателей, регионов; проверить опечатки (вместо запятой может быть точка или запятая может быть в неправильном месте) и т. д.

Обработка большого объема информации (проверка на наличие ошибок, удаление или замена пропусков и дублей) занимает немало времени, но это обязательно условие для того, чтобы получить «чистый» датасет. Важно, чтобы полученная таблица была единой (а не несколько разных таблиц на одном листе, как часто бывает в Excel).

Вот чек-лист самых важных шагов предобработки:

Загрузка и проверка структуры данных. Убедитесь, что файл открывается, столбцы читаются корректно, а данные соответствуют ожидаемой структуре.
Обработка пропусков. Найдите пустые значения и заполните их (например, средним, медианой, «N/A») или удалите строки, если это оправдано.
Приведение данных к единому формату. Убедитесь, что даты, числа и текстовые значения приведены к одному стилю (например, YYYY-MM-DD, десятичные числа через точку, текст в нижнем регистре).
Унификация категорий. Приведите значения к единому виду (например, «Москва» и «москва»).
Удаление ненужных данных. Уберите лишние столбцы и строки с некорректными значениями.
Сохранение результата. Сохраните очищенный файл в удобном для анализа формате (например, CSV).

В исследовании «Системного Блока» о призыве в Великую Отечественную войну работа с данными началась с предварительного анализа. У исследователей были оцифрованные архивные карточки о военных потерях, госпиталях, военно-пересыльных пунктах и многом другом. Один из авторов исследования, Илья Воронцов, объяснил, что после просмотра данных они решили остановиться на военно-пересыльных пунктах, так как эти данные были наиболее понятны по сравнению с другими.

Считать число Михаилов на фронте можно, но бессмысленно. Считать деревни, в которых проживали призывники тоже было нецелесообразно: много опечаток, одинаковых названий для разных мест и, главное, пропусков. В итоге мы взяли даты и места призыва на фронт.
Илья Воронцов, один из авторов исследования о призыве, сотрудник ИОГен РАН

После подготовки данных у авторов получились таблицы такого формата:

Источник: репозиторий исследования

Это пример машиночитаемой таблицы без объединенных ячеек, декоративных элементов или пропусков. По строкам в ней расположены объекты, а по столбцам — их характеристики.

Анализ данных

После подготовительной части исследования дата-журналист приступает к поиску ответов на исследовательские вопросы и проверке выдвинутых гипотез. Поставленные гипотезы надо перевести на формальный язык: что и как надо измерять, чтобы проверить гипотезу, что будет считаться её подтверждением или опровержением. Это обязательно нужно сделать до начала расчетов, иначе есть риск влияния полученного результата на выводы. В процессе работы полезно изучить разные срезы данных. Например, можно подсчитать среднее значение, медиану или моду, а также проанализировать выбросы. Стоит посмотреть и на конкретные примеры данных. Это может привести к уточнению гипотез и появлению новых.

Например, при работе «Системного Блока» над исследованием о призыве выяснилось, что в данных место призыва порой указывалось с административно-территориальным делением. Чтобы посмотреть, откуда и в какое время призывались люди, был сделан простой фильтр на регулярных выражениях. Таким образом удалось вычленить месяцы призыва и места — республики, области, края и прочие крупные регионы.

Как выглядел код

def normalize_place(place)
  place
    .sub(/\b(([УГРОКП]?|Обл|Респ|УО)ВК) /i, '\1, ')
    .sub(/\b(ССР|АССР|АО|НО) /, '\1, ')
    .sub(/\b(область|обл\.?|край|уезд|губ\.?|воеводство|воев\.?|волость|вол\.?) /, '\1, ')
end
def tokenize(place)
  place.split(',').map(&:strip).reject(&:empty?).uniq.sort
end

def is_republic(str)
  str.match(/\b(ССР|АССР|АО|НО|Германия|Австрия|Польша|Болгария)\b/i)
end

def is_subrepublic(str)
  false # fake function
end

def is_oblast(str)
  str.match(/\b(область|обл\.?|край|уезд|губ\.?|воеводство|воев\.?|волость|вол\.?|Восточная Пруссия)\b/i)
end

В ходе работы исследователи искали таблицы переписи, по которым можно было бы нормировать уровень призыва на размер региона. Так как регионов получилось слишком много, они были укрупнены до уровня союзных республик. Для этого число призванных делили на население республики, а потом умножали на тысячу, чтобы получить число призванных (но только учтенных в БД) на 1000 человек.

Также была предпринята попытка заполнить как можно больше пропусков в данных. Например, плохо заполненные карточки, в которых не был указан месяц призыва, а только год, распределяли между разными месяцами года в тех же пропорциях, что и хорошо заполненные карточки того же региона.

Чтобы проанализировать динамику процесса призыва, исследователи разбили данные по возрастам призывников, а также посмотрели, почему в каких-то регионах резко росло или падало число призывов в определенные годы. Это позволило обнаружить несколько факторов, влияющих на призыв: крупные территориальные изменения, приказы о призыве, ограничения на службу для лиц некоторых национальностей, трудовая мобилизация и прочее.

Многие сюжеты, которые развивались во время исследования, не попали в итоговый материал, потому что их не удавалось «докрутить» и статистически подтвердить. Например, это случаи, когда призывники родились в одной республике, но были призваны в другой, а также вопросы, касающиеся военно-учетных специальностей, рангов призывников, разницы в призыве на военную службу мужчин и женщин. Такой подход показывает, что зачастую приходится развивать несколько идей, чтобы получить хотя бы один достойный публикации результат.

Подготовка материала

Создание законченной журналистской истории является целью всех предшествующих этапов. Материал должен собрать всю фактуру, данные, визуализацию, полученные выводы. По формату это может быть:

большой текст, где в центре находятся данные и пояснение того, о чем они;
истории конкретных людей, которые параллельно дополняются данными;
заметка или новость, раскрывающая через данные текущую повестку.

Итогом исследования может стать сложная интерактивная визуализация (например, граф) или карта, в таком случае текст помогает объяснить найденные связи и закономерности. Порой текст почти не нужен, к примеру, когда не требуется дополнительно пояснять результаты, так как они сполна раскрыты при помощи графиков и их интерфейса.

Визуализация данных

Получив результат анализа данных, можно переходить к визуализации. Инструментами визуализации могут быть графики, карты или схемы. Они помогают читателю увидеть, к чему вы пришли, и убедить его в достоверности ваших выводов. В этом материале «Системного Блока» подробно рассказывается о разных видах визуализации.

В процессе анализа данных строится много черновых визуализаций. Они могут быть некрасивыми и перегруженными. Главное, что они позволяют лучше понять, что есть в данных и чего в них нет.

Вот примеры черновых визуализаций, которые создавались во время работы над нашим исследованием школьного литературного канона.

Это график позволил увидеть, в какие годы происходили изменения в школьной программе

А с помощью этого графика мы узнали, в каком году было больше всего зарубежной литературы

Какими инструментами пользуется дата-журналист?

Во время работы над материалом дата-журналисты используют инструменты для сбора, очистки, анализа и визуализации данных. В большинстве своем они бесплатные, или бесплатной версии программы достаточно для работы даже небольшой команды. Также нередко дата-журналисты учатся программировать, так как с помощью кода некоторые задачи решаются быстрее.

Сбор данных
Очистка и анализ данных
Визуализация данных
Выпуск материала

Сбор данных

Скрейпинг

Иногда данные нельзя скачать в виде готовых файлов. При этом видно, что данные есть, например, каталог онлайн-магазина или решения суда из ГАС «Правосудие». Такие данные можно спарсить, написав код на Python. Некоторые сайты предоставляют API для более легкого доступа к данным и чтобы сайт не перегружали запросами.

Плагины для скрейпинга

Данные с простых сайтов можно собирать с помощью плагинов для браузера. Тогда вам не потребуется программирование. Например, можно использовать WebScraper. Существуют также плагины для захвата таблиц с сайта, например, Table Capture, которые часто используют в простых случаях.

Нейросети

Если вы не умеете программировать, можно использовать любую доступную вам нейросеть, чтобы написать код для скрейпинга.

Очистка и анализ данных

Excel / Google Sheets

Подходит для первичного анализа данных, можно убрать дубликаты, посмотреть число пропусков, а с помощью сводных таблиц сгруппировать данные по нужным категориям. Также можно построить первые графики. Минусы: не откроет большие файлы.

OpenRefine

Подойдет, когда есть много однотипных строк, например, адресов (Санкт-Петербург, Санкт Петербург, Петербург, Ст. Петербург и т. п.), которые нужно привести к одному виду.

AntConc или Voyant Tools

Программы для текстового анализа, которые позволяют не только исследовать тексты количественно, но и визуализировать результаты. Инструкции по их использованию можно прочитать здесь, здесь и здесь.

Gephi

Пригодится, если вы работаете с сетевыми данными, например, пользователями социальной сети. Можно визуализировать граф, выделить главные узлы — участников сети. О том, как это сделать, можно прочитать в нашем материале.

VSCode / Jupyter Notebook / Google Colab

едактор кода. Даже если вы сами не пишите код, вполне возможно, что вам пришлют его коллеги и скажут «просто запустить». В редакторе кода это будет сделать проще. Jupyter Notebook позволяет запускать код пошагово и сразу видеть результаты. Google Colab его онлайн аналог, преимущество последнего — вы можете задействовать мощности виртуальной машины, если вам не хватает своей.

Python / R

Python — универсальный язык, с помощью которого можно собирать данные, чистить, анализировать и визуализировать. R чаще используют исследователи.

ChatGPT или аналоги

ChatGPT пишет код, в том числе и для скрейпинга сайтов, очистки и анализа данных, визуализации и вообще для всего, что попросишь и что реализуемо на языках программирования. Подсказки модели часто эффективнее, чем поиск по Stackoverflow. Натренированная модель сможет отредактировать ваш текст, исправить опечатки и ошибки, убрать лишнее. С поиском данных модели пока справляются не очень хорошо.

Tableau

Можно использовать его или аналогичные системы для анализа, рабочих визуализаций, даже очистки данных и расчетов.

Визуализация данных

Datawrapper

Онлайн-инструмент для создания графиков и карт. Есть шаблоны для всех основных типов графиков, много можно кастомизировать с помощью подписей и верстки в них. Можно выгрузить график как SVG и довести его до идеала в редакторе. Готовые графики можно легко встроить на сайт.

Flourish

Еще один онлайн-инструмент. Как и в DW, есть шаблоны, здесь их даже больше. В отличие от Datawrapper, дает больше возможностей для интерактивных форматов. Визуализации в Flourish можно объединить в одну историю и встроить на сайт единым слайдшоу. Минусы: не работает без VPN в России.

RAWgraphs

Конструктор визуализаций, подходит для создания черновых заготовок графиков.

Figma

Графический редактор, в котором ваши визуализации можно довести до финального вида, если вам не хватает функциональности готовых инструментов. Также можно использовать другие редакторы: Abobe Photoshop, Adobe Illustrator, Krita, InkSpace и пр.

QGIS

Для работы с картами, на случай, если не получается сделать карту в Datawrapper.

NodeBox

Нодовый редактор, позволяет делать сложные визуализации и анимировать их.

Выпуск материала

Tilda

Конструктор сайтов, на котором вы можете создать страницу своего материала и с помощью блоков собрать на ней текст и графики.

GitHub Pages

Если вы уже положили ваш код в гит-репозиторий, то там же можно сверстать ваш материал.

WordPress и другие CMS

Если вы планируете полноценную работу редакции и постоянный выпуск материалов, можно посмотреть в сторону различных CMS. Самой популярной остается WordPress, к ней можно найти множество шаблонов и плагинов, которые решают основные задачи при создании сайта (настройка аналитики, оптимизация контента и пр).

Какие примеры дата-журналистских материалов стоит посмотреть, чтобы вдохновиться?

«Как российские регионы борются с ВИЧ и где ситуация хуже всего: рейтинг “Если быть точным”». Авторы исследуют борьбу с ВИЧ в России и составляют рейтинг наиболее и наименее благополучных регионов.

«От Слоновой до Мухинской: животные в названиях российских улиц». Исследование на материале данных Яндекс.Карт об особенностях упоминаний животных в названиях российских улиц.

«В погоне за “Оскаром”». Проект РИА Новостей о фильмах, которые созданы с целью получить «Оскар» за самые престижные номинации фестиваля.

«Как месяц рождения влияет на успехи в спорте». Материал Т—Ж об эффекте относительного возраста — феномене, при котором дети, рождённые в начале года, могут иметь преимущество в спорте по сравнению с одногодками, рождёнными позже позже.

У «Системного Блока» тоже есть примеры дата-исследований.

«Классное чтение: школьная программа по литературе от Октябрьской революции до ЕГЭ». Исследование состава программ по литературе с 1919 по 2022 годы.

«Миссия России, деградация Европы: какие патриотические фильмы заказывает Минкульт РФ». Материал рассказывает, о чем снимают патриотические фильмы, какое финансирование от Минкульта они получают и как окупаются в прокате.

«Восток, пираты и митрополит: что происходит на книжном рынке». Анализ состояния книжного рынка в 2023 году: самые продаваемые книги и самые издаваемые авторы.

«Замкнутый круг: в каких городах России не строят метро, но обещают». Исследование перспектив и темпов строительства метро в российских городах.

«9988 слов о последнем десятилетии». Текстовый анализ того, как новый учебник истории для 11 класса рассказывает о современных событиях.

Что почитать о дата-журналистике?

Где учиться дата-журналистике?

Представляем подборку образовательных программ в российских вузах, где можно обучаться дата-журналистике.

Программы бакалавриата

Бакалаврская программа «Журналистика» в НИУ ВШЭ
Бакалаврские программы «Журналистика» и «Медиакоммуникации» в МГУ, внутри которых доступен индустриальный модуль «Интернет-журналистика» (вариативная часть)
Бакалаврская программа «Журналистика и новые медиа» в ТГУ
Бакалаврская программа «Журналистика» с профилем «Журналистика новых медиа» в РЭУ им. Г. В. Плеханова
Бакалаврская программа «Мультимедийная журналистика и современные медиатехнологии» в РГГУ
Бакалаврская программа «Мультимедийная журналистика» в РУДН

Магистерские программы

Магистерская программа «Современная журналистика» в НИУ ВШЭ с треком «Журналистика данных»
Магистерская программа «Цифровая журналистика» в МГУ.
Магистерская программа «Научная коммуникация» в ИТМО с курсом «Научного сторителлинга» от Александра Богачева
Магистерская программа «Журналистика больших данных» в РУДН
Магистерская программа «Журналистика и медиатехнологии» в РАНХиГС

Курсы

Видеокурс по дата-журналистике на Stepik
Интерактивный курс Data Communication Concepts на DataCamp
Курс «Введение в журналистику данных» Андрея Дорожного
Курс «Визуализация для журналистики данных» на Coursera

Программы зарубежной магистратуры

Data and Multimedia Journalism on the MA Online Journalism, Birmingham City University, United Kingdom
Computational and Data Journalism (MSc), Cardiff University, United Kingdom
Master’s programme in Investigative Journalism, University of Gothenburg, Sweden
Investigative Journalism, Data and Visualization, University Rey Juan Carlos of Madrid, Spain
Data and Media Communication Concentration (DMC), Hong Kong Baptist University, China
Data Journalism Concentration, DePaul University, USA
Strategic Communication and Data Journalism, University of Missouri, USA

На кого подписаться?

@sysblok — Системный Блокъ
Анализ и визуализация данных в культурных и общественных сюжетах. О чём писали в дневниках 1917 года? На какие «запрещенные» произведения вырос спрос последние годы? Сколько камер приходится на квадратный километр в Москве? Как выросло потребление алкоголя за последние 5 лет? «Системный Блокъ» станет вашим Вергилием в 9 кругах Big Data.
@datajourschool — Мастерская дата-журналистики «Системного Блока»
Рассказываем о летней школе дата-журналистики от цифрового издания «Системный Блокъ».
@rationalnumbers — Рациональные числа
Световое загрязнение и неравенство в мире, самые популярные топонимы и статистика по ДТП в России, обнуления политических лидеров, частота использования букв алфавита в русском языке — в канале можно найти исследования и примеры интересных визуализаций данных. Материалы сгруппированы тематически, охватывают все сферы жизни на Земле и даже выходят на орбиту.
@designing_numbers — Designing Numbers
Канал ведет Надя Андрианова — победительница Всероссийской премии по визуализации данных и дата-арту Moscow Datavis Awards и призерка международных премий Malofiej и Information is Beautiful Awards. В своем канале она не только любуется оригинальными решениями, но и рассказывает о том, как устроен дата-арт. Тут много референсов для тех, кто работает с данными, и вдохновения — для тех, кто создает цифровое искусство.
@nastengraph — Настенька и графики
Настя настолько любит инфографику, что замечает барчарты даже в рядом стоящих скалах. Здесь вы найдете советы по BI-разработке, дашборды, интересные графики и лайфхаки визуализации данных. Профессионалы могут следить за новостями из мира датавиза, новички — вдохновляться и осваивать современные инструменты.
@chartomojka — Чартомойка
Как и следует из названия, здесь происходит что-то вроде «бизнес-линча» над визуализациям Автор разбирает конкретные кейсы визуализации данных, анализирует ошибки и сильные стороны, даёт конкретные советы не только по матчасти, но и организации рабочего времени аналитика. Если вы только начали свой путь в датавизе и дата-сторителлинге, можно использовать канал как учебное пособие. Канал ведет автор книги «Графики, которые убеждают всех».
@data_csv — data.csv
Канал о журналистике данных и дата-сторителлинге, который ведет аналитик в службе дата-журналистики Яндекса Алексей Смагин. Здесь можно найти интересные и впечатляющие дата-журналистские работы, красивую визуализацию данных и критические разборы действительно ужасных графиков. Выбор тем, как и предполагает жанр канала, авторский, а вкусу автора блога можно доверять.
@data_publication — Дата-сторителлинг
Эксперт по анализу и визуализации данных Андрей Дорожный рассказывает в канале о том, как работает дата-сторителлинг даже там, где вообще нет графиков. Увлекательно разбирает удачные нарративы, показывает, как устроена манипуляция данными (например, как англичане занижали рост Наполеона в газетах), рассказывает об инструментах работы с данными, которые можно применять без программирования.
@tochno_st — Если быть точным
Команда собирает данные о социальных проблемах в России и делится своими исследованиями и датасетами. Миграционный кризис, статистика абортов, данные об онкологии, исследования преступности и экологических проблем — «Если быть точным» показывает, как много об общественных процессах могут рассказать данные, и даёт пример их профессиональной обработки и визуализации.
@awfulcharts — Отвратительные графики
Индекс Деда Мороза, продажи автобусов по регионам, обращение детей с деньгами — трудно понять, что объединяет эти визуализации данных, но одного взгляда на них достаточно, чтобы убедиться: все они отвратительные. Этот канал — сборник вредных советов для тех, кто начинает работать с визуализацией.

Над проектом работали

Авторы: Полина Налобина, Дарья Половникова
Редактор: Системный Блокъ
Иллюстрации: Евгения Родикова, София Лекомцева
Эксперты: Борис Ги, Илья Воронцов, Ксения Тихомирова
Куратор проекта: Илья Булгаков

Автор: Системный Блокъ

Recent Posts

История

Что монеты могут рассказать о переходе от Античности к Средневековью

В музее вы точно заметите разноцветные фрески и изысканные статуи, а вот мимо монет можете пройти. Хотя они хорошо помогают…

26.06.2026

Искусство

От саркофагов до дворцовых залов: как 3D-технологии делают памятники культуры доступнее

Восковая скульптура Микеланджело, которую нельзя выставлять в тепле. Средневековый французский ковёр длиной 70 метров, который невозможно рассмотреть целиком. Египетские саркофаги,…

16.05.2026

История

Малярия и храмы: как болезни влияли на распространение культов в Древнем Риме

Малярия — одна из самых страшных болезней, которая веками отнимала силы и жизни у миллионов людей. Уже жителям Римской империи…

30.04.2026

Искусство

Женщина для галочки: дата-исследование о принципе Смурфетты в российском кино

Принцип Смурфетты — это ситуация, когда среди мужских персонажей фильма есть только одна героиня. Ее образ — это стереотипное представление…

26.03.2026

Биоинформатика

Феномика, ГМО и роботы: как завтрашний урожай проектируется уже сегодня

Что общего между ДНК-маркерами, прогностическими моделями и дронами с мультиспектральными камерами? Все это — инструменты селекции, которая за последние два…

18.03.2026

Интервью

«Один человек сможет построить компанию в миллиард долларов»: интервью с технооптимистом Иваном Ямщиковым

Как ИИ изменит общество и образование? Что в школе будущего должен делать учитель, а что — тренажер? Почему в XXI…

21.02.2026

Биоинформатика

От генома к родословным: как палеогенетика помогает изучать социальную структуру древних сообществ

Историки и биологи давно исследуют прошлое человечества вместе. С недавних пор к ним присоединились палеогенетики и биоинформатики. Их методы позволяют…

17.02.2026

Филология

Исторические личности в русской прозе: кто, почему и где упоминается чаще всех?

В художественных произведениях часто упоминаются исторические личности. Что будет, если посмотреть на русскую литературу XIX века через упоминания реальных людей?…

30.01.2026

Дайджест

ИИ-итоги 2025: рассуждающие модели, агенты, партнеры по разуму

Подводим итоги и рассказываем о самых важных событиях в мире ИИ за прошедший год

01.01.2026

История

От судебных картотек к базам данных: как цифровые архивы помогают историкам права

За что и как наказывали людей в прошлом? Как судебные архивы превращаются в базы данных, а историки — в дата-аналитиков? Чем историкам права помогают цифровые методы? На примере проекта The…

17.11.2025

Биоинформатика

Отпечатки пальцев дерева: как ДНК растений и животных помогает раскрывать преступления

Мы привыкли, что на месте преступления ищут отпечатки пальцев, следы обуви и человеческую ДНК. Но сегодня вещественным доказательством может стать…

08.11.2025

Интервью

«Чукотка — это культура, сквозь которую прорастает язык»: лингвист Инна Зибер об изучении Севера, магии чукотского имени и утрате традиций

Как Север может оказаться южнее Москвы? С какими сложностями сталкивается исследователь языков и народов Арктики? Где лучше искать носителей чукотского…

24.09.2025

Как это работает

Что такое рассуждающая языковая модель и как она работает

Прогресс больших языковых моделей через увеличение их размеров застопорился: их масштабирование уже почти не дает прироста качества. Выход ищут в…

15.09.2025

Искусство

Музыка на «костях»: как рентгеновские снимки заменили винил

Когда в СССР пластинки с западной музыкой оказались под запретом, меломаны нашли неожиданный выход. Вместо винила они использовали... медицинские рентген-снимки.…

21.08.2025

Техноистория

Небоскребы из бумаги: как упорядочить деловую переписку в эпоху капитализма

Почему ваши файлы на компьютерах и смартфонах до сих пор лежат в «папках»? Все началось с бухгалтеров XIX века и…

10.07.2025

Цифровое наследие

Как визуализировать книги мира на одной полке с помощью ISBN

Как «разложить» все книги мира на одной гигантской полке? 📚 Оказывается, для этого достаточно внимательно посмотреть на коды ISBN. Рассказываем,…

26.06.2025

Цифровая память

Герои и драконы с привязкой к местности: как цифровая картография помогает исследовать мифы

Драконы, духи и герои древних легенд теперь не бродят по туманным мирам — они появляются на картах. Современные базы данных…

02.06.2025

Как это работает

Как работают мультимодальные модели: от пикселей — к пониманию

Как работает поиск изображений по текстовым описаниям? Как это связано с генерацией изображений? Как языковые модели «понимают» не только текст,…

21.05.2025

Техноистория

Эксперт всегда под рукой: забытая история первых цифровых помощников

Искусственный интеллект повсюду: заменяет врачей, ищет нефть, а инженеры разрабатывают специальные чипы для машинного разума. Звучит как заголовки из 2025…

16.05.2025

Образование

Цифровые репетиторы: как ИИ помогает готовиться к экзаменам

ЕГЭ — нервное событие, а подготовка к экзаменам — долгая и сложная. На помощь ученикам и учителям приходят сервисы на…

28.04.2025

Обзоры

DeepSeek: обзор китайской нейросети и ее возможностей

DeepSeek — новая китайская нейросеть, вызвавшая фурор как среди простых пользователей, так и специалистов. Некоторые даже окрестили ее «убийцей ChatGPT».…

23.04.2025

История

Археология памяти. Как цифровые методы помогают исследовать преступления нацистского режима

Исследование мест массовых убийств позволяет высветить обстоятельства и корни преступление против человечности, а также делает нас свидетелями прошлого. Современные технологии…

17.04.2025

История

Искусственный интеллект помог обнаружить сотни геоглифов в пустыне Наска

Геоглифы Наски известны людям с XVI века — о них упоминали конкистадоры, которые проходили через пустыню. Тем не менее научное…

09.04.2025

История

Вспоминайте иногда вашего студента: изучаем базу данных средневековых университетов

Средневековые студенты часто перемещались из одного университета в другой, чтобы получить всестороннее образование и ученую степень. Все это, наряду с…

25.03.2025

История

Как 3D-моделирование спасает памятники древнерусской письменности: Corpus Inscriptionum Rossicarum

Могут ли новые технологии помочь прочесть нечитаемую древнюю надпись на камне? Как трехмерные модели старинных надгробий, крестов, камней и эпиграфических…

13.03.2025

Биоинформатика

Паузы в словах: ИИ учится диагностировать болезнь Альцгеймера по речи

Болезни Альцгеймера подвержены миллионы людей по всему миру, и с каждым годом число заболевших продолжает расти. Однако традиционные методы диагностики…

22.02.2025

Филология

«Дисциплинировать литературоведческую мысль может только рациональный метод»: научное завещание Бориса Ярхо

Борис Ярхо — один из самых недооцененных филологов знаменитого поколения «русских формалистов» 1910-х — 1920-х. В отличие от куда более…

04.02.2025

Биоинформатика

Как биологи и лингвисты вместе изучают эволюцию языков

Язык — естественная система. Он распространяется, развивается и даже мутирует, подчиняясь законам естественных наук. Можно ли с его помощью реконструировать…

28.01.2025

Лингвистика

Взламывая шифр Зодиака: как энтузиасты разгадали послание серийного убийцы

Современные технологии хорошо помогают в криптоанализе: программы, перебирающие тысячу вариантов за несколько секунд, в разы превосходят возможности человека. Однако слепого…

22.01.2025

Обзоры

«Системный Блокъ»: лучшее за 2024 год

В 2024 году «Системный Блокъ» опубликовал 180 материалов. В этом посте мы рассказываем о наших итогах года: о запуске новых…

31.12.2024

Искусство

Как изучать наскальные изображения оленей Чукотки с помощью нейросетей

Петроглифы — небольшие древние наскальные изображения — часто сложно датировать и атрибутировать. При этом для некоторых рисунков может быть очень…

23.12.2024

Образование

Создай метательный аппарат и пробей крепостную стену: как понять науку через симуляторы

Хотите смоделировать процесс эволюции или работу человеческого глаза? Не можете разобраться в баллистике? Тогда воспользуйтесь интерактивным симулятором. Мы собрали самые…

18.12.2024

Интервью

Языковые модели — это адронный коллайдер для языка: интервью с Татьяной Шавриной

Куда развивается искусственный интеллект и какие новые умения он приобретет в ближайшем будущем? Что делать с тем, что коммерческие продукты…

19.08.2024

Общество

Девушки, живущие в сети: женщины-хакеры на экране

23 года назад вышел фильм «Пароль “Рыба-меч”» — знаковая лента о хакерах с Джоном Траволтой. Это не только первый массовый…

20.06.2024

Техноистория

Всемирная история картотек: как в эпоху Просвещения классифицировали знание

Как Линней придумал таксономию живых организмов, в чём польза игральных карт для каталогизации знания и сколько человек нужно, чтобы описать…

12.06.2024

Техноистория

Всемирная история картотек: как учёные и библиотекари пытались упорядочить всё

Информация бесполезна, если мы не знаем, как и где её найти. С появлением книгопечатания проблема упорядочивания выпущенных книг занимала учёных…

07.06.2024

NLP

Музыкальная «энциклопедия русской жизни»: о чём пела русскоязычная поп-эстрада с 1990 по 2019 год

Популярная музыка транслирует социальные нормы. Чем популярнее музыка, тем больше людей могут себя с ней соотнести. На какие детали быта…

05.06.2024

Интервью

«Меня интересует знать, а не уметь»: Игорь Мельчук о нетрадиционной лингвистике, машинном переводе и жизни в Канаде

Как в СССР возник машинный перевод? Чем нетрадиционная лингвистика отличается от традиционной? Почему эмиграция иногда становится спасением жизни? Об этом…

16.05.2024

Образование

«Воскрешение» исторических личностей и лекция от суперзвезды: как использовать дипфейки в образовании

Эйнштейн объясняет старшеклассникам теорию относительности. Маяковский читает стихи у доски. Ученик «обменивается» телом с учителем, а у педагогов остаётся время…

07.05.2024

Образование

Цифровые технологии против гендерного неравенства в образовании

По данным ООН, закрытие школ во время пандемии, сокращение и автоматизация рабочих мест отодвинули равноправие женщин и мужчин на 31…

01.05.2024

Филология

Гид по Voyant Tools: анализ и визуализация

Продолжаем наше руководство по анализу текста с помощью Voyant Tools. В прошлом материале мы рассказали, как загрузить и подготовить корпус.…

24.04.2024

Филология

Невыносимая лёгкость атрибуции: новая пьеса Милана Кундеры

Филологи уже долгое время подозревают, что одна из пьес чешского драматурга Карела Штайгервальда на самом деле принадлежит перу Милана Кундеры.…

10.04.2024

Общество

Четыре проекта по борьбе с коррупцией онлайн. Как они работают?

Может ли работа с данными помочь в борьбе с коррупцией? «Системный Блокъ» выяснил, какие цифровые сервисы и проекты занимаются антикоррупционной…

30.03.2024

Интервью

«Ты же не думаешь, что можно заниматься диалектологией как профессией?»: интервью с диалектологом Игорем Исаевым

Как отделить язык от диалекта? Должна ли вся страна говорить на одном «стандартном» языке и какие преимущества есть у использования…

01.03.2024

Искусство

10 необычных экспонатов музейного Госкаталога РФ

Где можно найти настольную игру, иронизирующую над перестройкой, матрёшку с мордой собаки Стрелки и сборник суеверий из XVIII века? Рассказываем…

22.02.2024

Интервью

«Нас вообще все боятся»: Александра Архипова о том, зачем фольклористы и социальные антропологи собирают слухи и считают репосты

Как примирить сторонников количественных и качественных исследований культуры? Как исследователям фольклора помогают цифровые базы данных? О чём могут рассказать лозунги…

15.02.2024

Филология

Понять Льва Толстого: как векторно-семантические модели помогают литературоведам

Идиостиль — это авторский стиль писателя. И если на небольших стихах его изучать удобно, то вот на текстах Льва Толстого…

07.02.2024

Филология

Стилометрия древнегреческих текстов: работает ли Дельта — и что кроме нее

Стилометрия — количественный метод определения авторства, который проверен на десятках современных языков. А что там с языками древними? Историк философии…

22.11.2023

Интервью

«Digital Humanities — это крыша для всех, кто применяет цифровые технологии»: интервью с Леонидом Бородкиным об исторической информатике

Какие советские ученые стоят у истоков исторической информатики? Как математические методы позволяют моделировать исторические процессы? Как складывались отношения российских исторических…

08.11.2023

Филология

Стилометрия кинодиалогов: шесть жанров в поисках автора

Статья Агаты Холобут и Яна Рыбицкого The Stylometry of Film Dialogue: Pros and Pitfalls показывает связь между жанровыми особенностями кино…

28.09.2023

Техноистория

Интернет на службе коммунизма: как СССР создавал свою электронную сеть

В конце 60-х гг. не только США разрабатывали компьютерные сети. В СССР также строили грандиозные планы по созданию системы, которая…

25.09.2023

Филология

Поясни за стиль. Какому поэту подражает нейросеть?

Цифровые филологи научились «измерять стиль»: у «Системного Блока» есть подборка статей о стилометрии и гайд о том, как провести собственное…

22.09.2023

Филология

Шесть рукопожатий Владимира Маяковского

Представляем результаты авторского цифрового исследования: граф социальных связей персоналий Серебряного века на основе материалов проекта «Устная история». Центральная фигура —…

06.09.2023

Интервью

Фонограммархив для науки: Светлана Подрезова о коллекции аудиозаписей Пушкинского Дома и работе с источниками

Как связаны имена Блока и Гумилёва с историей крупнейшей коллекции этнографических аудиозаписей? Когда исполнители перестали бояться раструба фонографа? Что происходит,…

01.09.2023

Филология

Искусственный интеллект vs. феномен Владимира Набокова

Владимир Набоков известен тем, что писал и на русском, и на английском. Сможет ли компьютер распознать его оригинальный стиль? Этот…

23.08.2023

Филология

Голос(а) автора: может ли один человек писать как несколько?

Стилометрический анализ позволяет определить, принадлежат ли тексты одному и тому же автору. Но что если писатель творит под несколькими литературными…

17.08.2023

Техноистория

Машина управляет танцем: кибернетика в театре и музыке XX века

Может ли машина писать мелодии, разговаривать с музыкантом во время выступления и руководить групповым танцем? В середине прошлого столетия последователи…

04.08.2023

Востоковедение

Как научить компьютер распознавать арабские тексты

Исследователи-филологи, занимающиеся древними текстами, давно используют компьютерную обработку текста. Но арабистика пока лишена многих цифровых инструментов текстового анализа. Рассказываем, почему…

03.08.2023

Цифровое наследие

От аналогового к цифровому: как происходит оцифровка в архивах, музеях и библиотеках

Современный мир захлестнула цифровизация. Это не обошло стороной, в том числе, и институции культурного наследия, которые начали массово переводить свои…

18.07.2023

Общество

Домашнее и партнерское насилие в России: сколько у него жертв и как им помочь

Проблема домашнего насилия — одна из наиболее острых социальных проблем в современной России. А вопрос о достоверной статистике по этой…

12.07.2023

Цифровое наследие

Изучение русской культуры: подборка цифровых ресурсов

За последние годы появилось много возможностей исследовать русскую культуру, не выходя из дома. Сейчас для этого нужен лишь компьютер либо…

30.06.2023

Техноистория

Поиграем в прошлое: как исторические видеоигры влияют на современность

Исторические игры регулярно попадают в десятку самых продаваемых видеоигр в разных странах, а опирающаяся на всемирную историю Assassin's Creed —…

21.06.2023

Филология

500 героев в одной схеме: о чем говорит сетевой анализ «Войны и мира»

Ранее мы рассказывали про цифровой анализ речи героев «Войны и мира». В этом материале с помощью сетевого анализа разбираемся, как…

15.06.2023

Искусство

Нужный, живой, веселый, пьяный, хороший: цифровой анализ текстов песен «Короля и Шута»

Наверняка вы когда-нибудь слышали о группе «Король и Шут». Даже, если вы не преданный фанат, то мы почти уверены, что,…

30.05.2023

Как это работает

Как работают языковые модели

Что такое языковая модель? Что общего между клавиатурой вашего телефона и GPT? Почему языковые модели умеют не только моделировать язык?…

25.05.2023

Интервью

«Открытые данные против мракобесия и пренебрежения реальностью»: интервью с Кириллом Маслинским

Кирилл Маслинский — цифровой филолог, руководитель Лаборатории цифровых исследований литературы и фольклора в Пушкинском Доме, создатель Детского корпуса и Репозитория…

16.05.2023

Цифровое наследие

Уникальные книжные памятники онлайн: от старинных карт Сибири до мохнатого «лесного чюда»

Исторические сокровища, ранее доступные лишь немногим, впервые появились в сети благодаря проекту «Книжные памятники». Мы расскажем, как и зачем происходит…

15.05.2023

Лингвистика

От древнерусского до корпуса блогов: как изменился Национальный корпус русского языка после редизайна

Национальный корпус русского языка (НКРЯ) — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной…

06.05.2023

Техноистория

Шифропанки — анархисты интернета

В конце 80-х годов опасения, что госструктуры будут контролировать зарождающийся интернет, привели к возникновению движения шифропанков. Эти интернет-активисты выступали за…

03.05.2023

Общество

«Цифровой концлагерь»: как закон о повестках через «Госуслуги» взбудоражил россиян

В России вступил в действие закон, объявляющий повестку из военкомата врученной вне зависимости от ее получения призывником. Теперь повестку достаточно…

19.04.2023

Общество

Хактивизм: кто и как ведет борьбу в киберпространстве

Сайт Госуслуг «упал» после объявления в России мобилизации. Rutube обрушился 9 мая 2022 года и не работал три дня. Некоторые…

11.04.2023

Новости

Что умеет GPT-4 — новая и самая совершенная языковая модель от OpenAI

Новая нейросеть семейства GPT не только точнее, надёжнее и безопаснее GPT-3 и ChatGPT. Еще она умеет работать с изображениями. Благодаря…

27.03.2023

Интервью

«И пусть все читают “Одумайтесь”»: Анастасия Бонч-Осмоловская о цифровом Толстом и пересборке DH после 24 февраля

Анастасия Бонч-Осмоловская ― лингвист, филолог, цифровая исследовательница, идейная вдохновительница и душа российских Digital Humanities. «Системный Блокъ» поговорил с Анастасией о…

25.02.2023

Филология

Гулливер и нейросети: интернет-банкинг и онлайн-торговля в произведениях писателей XVIII-XIX века

Фантастика часто предугадывает будущие достижения науки и техники. «Системный Блокъ» уже рассказывал, как русские писатели XIX века предсказали появление генеративных…

20.02.2023

«Пишу тебе»

Голос Холокоста в «Пишу тебе»: как мы получили открытку из гетто

«Пишу тебе» всегда призывает наших читателей и волонтеров делиться открытками из семейного архива. История, которой мы хотим сегодня поделиться, началась…

15.02.2023

Как это работает

Собери их всех: как record linkage помогает обогащать большие биографические данные

Сейчас историки всё чаще уделяют внимание не столько выдающимся деятелям прошлого, сколько целым группам людей, жившим в ту или иную…

03.02.2023

Филология

Как писатели XIX века предсказали мессенджеры, интернет на Марсе и нейросети

Научная фантастика в русской литературе имеет давнюю историю. Писатели XIX и первой половины XX века предсказали многое: от телевидения до…

23.01.2023

Обзоры

«Системный Блокъ»: лучшее за 2022 год

В 2022 году «Системный Блокъ» опубликовал 247 материалов. В этом посте мы сформулировали краткие итоги ушедшего года: открытие дата-отдела, оцифровка…

16.01.2023

История

Скифия, Египет, Вавилон: как цифровые методы помогают в изучении средневековых карт

По сравнению с современными картографическими сервисами старинные средневековые карты выглядят загадочно и непонятно. Точно так же до недавнего времени на…

07.12.2022

Искусство

Юдифь vs Саломея: какой библейский сюжет всему голова?

Две библейские героини — неприступная Юдифь и обольстительница Саломея — очень непохожи друг на друга. Но в истории каждой из…

01.12.2022

Новости

Что такое взлиза и кто носил чаплыжку: цифровое «Слово Толстого»

23 ноября команда Tolstoy Digital запустила сайт «Слово Толстого» – первый цифровой путеводитель по необъятному наследию писателя

24.11.2022

Искусство

Эволюция приемов в кино: фильмы с нарушенной хронологией

Людьми часто движет любопытство. Мы хотим узнать, чем кончится история, были ли мы правы, что же автор всё-таки имел в…

10.11.2022

История

Культурная дипломатия: о чем рассказывал советский стоматолог в открытках из США и Германии?

«Шумно, дергано, стук ужасный» — среди материалов «Пишу тебе» обнаружились открытки знаменитого советского стоматолога, отправленные из Америки и Германии. О…

05.11.2022

Экология

Что такое гражданская наука и как участвовать в контроле воздуха

Можно ли принимать участие в экологических проектах, не будучи экологом? Можно! Ведь существует гражданская наука. Рассказываем, как каждый из нас…

03.11.2022

Филология

Chekhov Digital: как Чехов писал письма жене и куда течет время в его текстах

Знали ли вы, что слово «время» в произведениях А. П. Чехова имеет определенные схемы употребления, повторяющиеся от тома к тому?…

28.10.2022

Филология

Цифровой Чехов: как устроено семантическое издание и где искать 4500 писем Чехова

Каждый филолог желает знать, что такое семантическое издание. В этой статье мы расскажем вам об одном из них. В нем…

11.10.2022

История

Мобилизация после репрессий. Как Большой террор повлиял на участников ВОВ

Даже если государственный террор не воздействует на человека напрямую, он влияет на формирование его представлений о государстве и отношение к…

07.10.2022

Как это работает

Большие языковые модели умеют рассуждать

Модель психики «Думай медленно… решай быстро» оказалась верна не только для людей, но и для больших нейросетей. Вслед за интуитивными…

04.10.2022

История

Что статистические отношения в лексике могут рассказать про средневековую власть?

Чем тексты аббатов и епископов отличались от текстов графов и королей? Рассказываем, как при помощи статистики употребления слов и анализа…

15.09.2022

Интервью

«Город без данных — город-призрак»: Алексей Новиков о том, как Big Data меняет представление о планировке и застройке

Алексей Новиков — кандидат географических наук, глава и соучредитель компании Habidatum, специализирующейся на аналитике городских данных. «Системный Блокъ» поговорил с…

07.09.2022

Общество

«Игнорируется и не ценится»: вклад женщин в науку через цифры

Если посмотреть на голую статистику, может показаться, что женщины-ученые публикуют меньше научных статей, чем их коллеги-мужчины, а также реже получают…

26.08.2022

Инфографика

Камера на сотню: как развивается видеонаблюдение в Москве

Москва входит в топ-30 городов по покрытию камерами. Цифровизация наблюдения уменьшает риск преступности, но при этом и помогает государству выследить…

25.08.2022

Экология

Бёрдвотчинг: что это за птица такая?

Лето почти закончилось, а вы все еще не отличаете сатанинского козодоя от башенного стрижа? А может, вам хотелось стать орнитологом,…

17.08.2022

История

Обсуждая гуманизм: тематическое моделирование немецкоязычной прессы XIX в.

Как цифровые методы помогают понять эволюцию идеи гуманизма в Германии XIX века? Рассказываем об исследовании «гуманистического дискурса» в немецкоязычных газетах…

11.08.2022

Филология

Кто скрывается за псевдонимом «Элена Ферранте»: стилометрия против мистификаций

Системный Блокъ много писал о стилометрии: об атрибуции и верификации авторства, анализе эмоций в песнях и стиля переводчика. Теперь на…

03.08.2022

Филология

Цифровое шекспироведение: драма в трех действиях

Человеку из XXI века может быть сложно понять социальные реалии, в которых создавались пьесы Шекспира. С помощью цифрового анализа исследователи…

30.07.2022

Интервью

«К идее разных интернетов мы пока не привыкли»: Полина Колозариди об исследованиях интернета

Полина Колозариди — интернет-исследователь, координатор Клуба любителей интернета и общества, преподавательница ИТМО и НИУ ВШЭ. «Системный Блокъ» поговорил с ней…

14.07.2022

NLP

«Размечено»: как распознавать именованные сущности в исторических дневниках

Дневники людей, живших в различных исторических эпохах, могут многое сказать исследователю, но анализировать их вручную — тяжело и долго. Разбираемся,…

12.07.2022

Лингвистика

Точка, точка, запятая: как меняется язык в интернет-пространстве

«Привет» или «ПРИВЕТ»? А, может быть, «првиет!»? Вариантов поздороваться в онлайн-переписке, как и написать любое другое слово, множество. Причем каждый…

06.07.2022

История

Тревоги «маленьких людей» Англии XVI-XVIII веков

В наши дни подписание петиций или краудфандинговый сбор средств на чьи-нибудь нужды стали привычным делом. Кажется, постоянный фидбек прочно вошел…

02.06.2022

История

Отличить Святополка от Святослава: цифровая генеалогия Древней Руси

Схемы, модели и другие способы наглядно представить информацию давно стали неотъемлемой частью повседневной жизни. В исторической науке к методу визуализации…

17.05.2022

Филология

Автор(ы) умер(ли), а проблемы остались

Продолжаем разгадывать вечную тайну «Беовульфа» и рассказывать о том, как цифровые филологи строят научный диалог в поисках правды.

02.05.2022

Филология

«Заговори, чтобы я тебя увидел»: эволюция диалога в русской литературе XIX века

Литература как любая сложная система развивается и эволюционирует. Какие-то произведения остаются в центре внимания читателей на десятки и даже сотни…

26.04.2022

Общество

«Агрессии нет, сочувствие есть»: что говорят россияне об отношении к ним за рубежом

С начала боевых действий на Украине мы регулярно слышим о том, что за границей притесняют людей из России. Но чаще…

15.04.2022

Искусство

Нетворкинг Пикассо и Уорхола: сетевой анализ выставок в МоМА

Нью-йоркский музей МоМА — один из старейших музеев современного искусства в мире. В MoMA хранятся работы Рене Магритта и Энди…

08.04.2022

Искусство

Цифровой культурный колониализм в Google Arts&Culture

Пандемии, кризисы и войны бьют не только по людям, но и по культуре. Многие музеи оказываются недоступны, а то и…

31.03.2022

Общество

Неизвестное будущее: как не сойти с ума в условиях неопределенности

Еще месяц назад мы с уверенностью смотрели в будущее, почти привыкнув к «новой нормальности» в мире с пандемией. Но оказалось,…

22.03.2022

Новости

Ученые спасают украинское культурное наследие и сетевые архивы

Международное сообщество исследователей запустило инициативу по сохранению украинского культурного наследия в цифровой форме

09.03.2022

NLP

Как сделать тематическое моделирование

Рассказываем, как сделать тематическое моделирование для большого объема текста, предположить его содержание и разделить по темам

01.03.2022

Интервью

Культура в цифровом сите: что остается за кадром

Инна Кижнер — старший преподаватель кафедры информационных технологий в креативных и культурных индустриях, научный сотрудник лаборатории «Digital Humanities» Сибирского федерального…

17.02.2022

NLP

Как работают диалоговые системы и чем они отличаются

Алиса Яндекса, Олег Тинькофф-банка и телеграм-бот для демотиваторов — одно и то же? Или нет? Разбираемся, как работают диалоговые системы…

10.02.2022

Как это работает

Как плести виртуальные сети с помощью Gephi

Gephi — самый известный инструмент для визуализации графов и сетевого анализа. С его помощью можно исследовать и население Викторианской Англии,…

31.01.2022

Лингвистика

«Впереди сущий сахарный голод»: что говорит о дневниках 1917 года анализ данных

Революция 1917 года — одно из крупнейших потрясений в российской истории. О чем думал Николай II в день отречения? Что…

18.01.2022

Филология

Русские классики – сексисты или все-таки нет? Корпусный анализ текста Пушкина

В октябре «Системный блокъ» опубликовал корпусное исследование русской классики, в котором были проанализированы произведения школьной программы. Тогда в анализ текста…

13.01.2022

Музыка

Идеальная формула депрессивной песни на примере Radiohead

В наше время компьютер может работать практически с чем угодно, в том числе и с музыкой: существует множество методов как…

12.01.2022

«Пишу тебе»

«Желаю в веселье и радости провести и не нажить, опохмелившись, головной боли»: как поздравляли с Рождеством 100, 50 и 10 лет назад

Проект по оцифровке открыток «Пишу тебе» подготовил очередную тематическую подборку. На этот раз мы подобрали открытки, в которых есть поздравления…

07.01.2022

Обзоры

«Системный Блокъ»: лучшее за 2021 год

По традиции 31 декабря «Системный Блокъ» публикует подборку лучших материалов уходящего года. В 2021-м в подборке оказались спецпроект в духе…

31.12.2021

Тесты

Знаете ли вы, как информационные технологии повлияли на общественно-политические процессы?

Реформы, перевороты, вооружённые конфликты, распад СССР… Все это происходило параллельно с развитием интернета и становлением массовой IT-индустрии. Как информационные технологии…

22.12.2021

Биология

Мне нужны твоя геолокация, камера и телефон: для чего ученым ваши фото птиц и растений

Что такое «гражданская наука» (citizen science)? Как определить редкий вид орхидеи? И зачем фотографировать углозубов? Читайте в новом материале СБъ

14.12.2021

Интервью

«Интернет-среда влияет на политическую активность»: интервью с Ольгой Гулевич

Системный Блокъ поговорил с психологом Ольгой Гулевич, профессором департамента психологии НИУ ВШЭ о том, как психологи изучают поведение в цифровой…

03.12.2021

Цифровая память

Как создать цифровой проект по публичной истории: опыт «Истории немцев ХМАО»

Участница НКО «Немецкая национально-культурная автономия города Ханты-Мансийска» Юлия Папанова рассказывает о цифровом проекте «История немцев ХМАО»: от замысла и сбора…

01.12.2021

Лингвистика

Скажи «да» по-русски: зачем нужен «Прагматикон»

Многие говорят, что эффективный способ выучить иностранный язык – смотреть сериалы на этом языке. Если вы тоже пробовали такой метод,…

26.11.2021

Новости

Виртуальный «‎Город Гоголя» посетили аватары

С произведениями классика в интерпретации русских авангардистов и исследователя теперь можно познакомиться на онлайн-экскурсии по мультимедийному музею

11.11.2021

Образование

В школьных учебниках пересчитали березки и программистов

В Институте имени Пушкина создали технологию лингвистической оценки учебников. С ее помощью тексты цифрового Яндекс.Учебника сравнили с другими школьными пособиями…

01.11.2021

Филология

Толстой и Пушкин — сексисты? Корпусное исследование русской классики

«Системный Блокъ» писал об исследованиях того, как по-разному мужчины и женщины описывались в литературе XIX и XX веков. Сегодня перейдем…

18.10.2021

Как это работает

Как превратить текст в генеалогическое древо с помощью Python

Как понять, кем вам приходится сваха внучатого племянника вашей сестры? Проще всего - нарисовать генеалогическое древо, которое отразит все родственные…

11.10.2021

«Пишу тебе»

«Я совсем без денег»: о чем писали в открытках 120 лет назад

1 октября — Международный день открытки. В этот день в 1869 году австрийский экономист Эммануэль Херрман написал статью о том,…

01.10.2021

Искусство

Цифровое искусство: как современные художники создают шедевры в TouchDesigner

Экспрессионизм обычно ассоциируется с Джейсоном Поллоком с его красочными разводами. Но создать подобное искусство можно и не пачкая рук. Рассказываем…

27.09.2021

Лингвистика

Компьютер учит срамоту

Как обучить нейросеть генерировать жёлтые тексты в духе самых трешовых баннеров? Наш автор Иван Торубаров погрузился в глубины кликбейта и…

02.09.2021

Нейронауки

«Да что они понимают»: как младенцы учатся говорить

В младенчестве нам предстояло выучить незнакомый язык на основе речи вокруг себя. Как мы осваивали язык и отделяли слова друг…

26.08.2021

NLP

«Кладмен мудак»: анализ тональности отзывов о запрещенных веществах

Язык интернета имеет свои характерные черты. И если исследованию языка Рунета посвящено множество работ, то DarkNet все еще остается серым…

18.08.2021

Музыка

ИИ по классике: компьютер досочинил Десятую симфонию Бетховена

Людвиг ван Бетховен создал девять симфоний, а еще он успел набросать несколько заметок и к симфонии № 10. Рассказываем, как…

10.08.2021

История

История про людей: как устроены просопографические базы данных

Для исторической науки важны не только битвы, революции, переселения народов, смены экономических укладов и политических режимов. Важно еще понимать, кем…

27.07.2021

Как это работает

Как работает GPT-3 — самая продвинутая языковая модель

GPT-3 — самая известная из современных нейросетевых моделей языка. Вокруг нее много мифов, но модель действительно умеет впечатлить. Она отлично…

21.07.2021

NLP

UniLM — языковая модель для тех, кому мало BERT

Сегодня каждая большая IT-корпорация пытается сделать «еще более умную» нейросетевую языковую модель, которая решала бы сразу множество задач: и ответы…

13.07.2021

Визуализация данных

«Марь Иванна, у вас воротничок сине́ет»: исследование СБъ о зарплатах учителей

Сегодня в России более 1,3 млн учителей средних школ. «Системный Блокъ» решил узнать, насколько учитель средней школы в России подходит…

30.06.2021

Цифровое наследие

Transkribus: как компьютерное зрение помогает переводить тексты сирийских мистиков

Сколько ваших знакомых без проблем смогут прочитать рукописи Пушкина? А петровскую скоропись? А рецепт своего лечащего врача? Чтобы разобрать написанное,…

15.06.2021

Как это работает

Как устроена нейросеть BERT от Google

BERT — нейросетевая модель-трансформер от Google, на которой сегодня строится большинство инструментов автоматической обработки языка. Модель появилась в начале 2018-го,…

09.06.2021

Лингвистика

«Нравственное право» и «немеркнущая правда»: как речи президентов на 9 мая влияют на коллективную память

Мы проанализировали все речи президентов, которые произносились в честь 9 мая с 2000 года. О том, как эти выступления влияют…

31.05.2021

Новости

3D-моделирование разоблачило убийц Андрея Боголюбского

Ученые НИУ ВШЭ и РАН при помощи 3D-модели прочитали текст XII века на стене собора. В надписи перечисляются убийцы князя…

20.05.2021

Искусство

Генеративное искусство: от калейдоскопа до машинного обучения

Со временем машины получают все больше способностей. Одной из них стало творчество. Произведения искусства, созданные автономными механизмами, существовали еще несколько…

13.05.2021

Интервью

Программирование для филологов и нейропоэзия: интервью с Борисом Ореховым

Для чего филологу учиться программировать? Зачем учить нейросети писать стихи? Как мы опираемся на корпусные методы исследования языка в повседневной…

05.05.2021

Цифровое наследие

Пообедать у Канта: калининградские ученые воссоздают дом философа в 3D

К грядущему 300-летию одного из самых цитируемых философов мира специалисты из Центра социально-гуманитарной информатики Балтийского федерального университета реконструируют дом своего…

21.04.2021

Искусство

Ткани онлайн: как оцифровать полотно в 6 метров

Мы писали о том, как оцифровывают почти все, даже алтари. Но можно ли перевести ткани в цифровой формат? Разбираемся, как…

22.03.2021

История

От разобщенности к войне: что показывает сетевой анализ византийских писем

Может ли сеть средневековых писем рассказать исследователям о политических связях византийцев? Видно ли в ней наступление разобщенности элит, за которым…

03.03.2021

Филология

По словам их узнаете их: как вычисляли автора «Беовульфа»

Рассказываем, как одни ученые устанавливали авторство знаменитого древнеанглийского эпоса «Беовульф» при помощи статистики, а другие с ними спорили. Ведь научные…

15.02.2021

Как это работает

Определяем дату написания картины онлайн без регистрации и СМС

Научить нейросети понимать искусство пытаются уже много лет. И хотя про «понимание» говорить рано, некоторые задачи, ранее доступные лишь искусствоведу,…

09.02.2021

Цифровая память

Посты о смерти: оценить нельзя игнорировать

Все видели мемы «Проспал дистанционку» с траурной свечкой, «Здоровья погибшим» и «Press F to pay respect»? Кому-то они покажутся циничными,…

01.02.2021

Филология

Опубликован открытый корпус европейских романов

Проект «Дальнее чтение для европейской литературной истории» выпустил собрание старых произведений. В коллекцию вошли 884 романа на 18 языках

28.01.2021

Урбанистика

Как построить карту возрастов зданий на открытых данных: проект How old is this house?

Визуализация возраста зданий на карте — не новая идея, в том числе для Москвы. Подобную вещь несколько лет назад сделал…

20.01.2021

Обзоры

«Системный Блокъ» 2020: лучшие посты

В 2020 году Системный Блокъ опубликовал примерно 400 материалов, включая статьи, интервью, подкасты, видео и мемы. Сегодня мы собрали для…

31.12.2020

История

Пелопоннесская война и анализ данных: статистические модели для историков

При изучении прошлого ученые часто сталкиваются с нехваткой данных о событиях. Это вызывает проблемы при проверке подлинности фактов и ведет…

24.12.2020

Цифровое наследие

Как сходить в Эрмитаж онлайн

Как посмотреть коллекцию одного из самых известных музеев мира, спланировать посещение или просто насладиться искусством, не тратя время на очереди…

08.12.2020

Общество

Социальный digital вместо нелегальных помидоров: интервью с соосновательницей IT-проекта для беженцев TaQadam

Платформа TaQadam — пример интеграции социальных задач и IT-предпринимательства. Рожденный в стенах ООН проект направлен на помощь одному из самых…

25.11.2020

Интервью

«Цифровой антрополог отличается от Data Scientist’а вниманием к деталям»: интервью с Дарьей Радченко (КБ «Стрелка»)

COVID-19 изменил повседневные практики миллионов людей — и это видно по их «цифровым следам». Что говорят об эффективности весеннего карантина…

23.11.2020

Искусство

Онлайн-выставки, цифровое кураторство и музейные IT: интервью с Владимиром Определеновым

Коронавирус повысил важность цифровой трансформации для музеев. Когда физический поход на выставку становится невозможен, остается надеяться на онлайн. Мы поговорили…

16.11.2020

Как это работает

Как работают трансформеры — крутейшие нейросети наших дней

Трансформер — самая модная сегодня нейросетевая архитектура. Она появилась в 2017 и перевернула всю обработку языка машинами. Мы расскажем о…

12.11.2020

Цифровая память

Искусство до и после: как создать онлайн-выставку на Google Arts&Culture?

История диджитал-арта насчитывает уже не один десяток лет, но сегодня союз искусства и цифровых технологий вступает в новую фазу отношений.…

09.11.2020

Цифровое наследие

Что хранит крупнейший онлайн-архив исторических документов Америки

Огромное количество исторических документов США теперь доступны онлайн в архиве Гилдера-Лермана. Разбираемся, как такие архивы помогают студентам, исследователям и всем…

06.11.2020

Цифровое наследие

TEI: текстовый инструментарий, который смог

TEI (Text Encoding Initiative) – это формат кодирования текстов и отличная возможность перенести рукописи в удобный электронный вид. TEI используется…

28.10.2020

Как это работает

Маяковский и корпусный анализ: «несоветский» поэт Революции

Продолжаем серию постов о применении Sketch Engine в цифровой филологии на примере исследования текстов Маяковского. В прошлом материале мы узнали,…

21.10.2020

Филология

Sketch Engine и Маяковский. Часть I: человек до и после революции

Системный Блокъ уже рассказывал, как провести собственное корпусное исследование при помощи antconc и mystem. Теперь мы обратимся к другому инструменту…

14.10.2020

Искусство

Реставрация картин: от вакуумных столов до машинного обучения

Разбираемся в том, как излечить хронически больные картины XIX столетия. Расскажем о методах реставрации картин: от клея из пузыря осетра…

10.10.2020

Искусство

Русский 360°: виртуальный музей без границ

Русское искусство все быстрее переезжает в цифровой мир. Расскажем о виртуальных прогулках по Русскому музею — и о его цифровых…

08.10.2020

Цифровая память

Осторожно: ретросимулякр! Советское прошлое в медиапроектах про 1968 год и Перестройку

Ностальгия по СССР подстерегает нас везде. Эту тему эксплуатируют многие, от эфирного ТВ до Лапенко. А мы разбираемся с механизмами…

30.09.2020

Биология

Цифровой гербарий МГУ: новая жизнь исторической коллекции растений

Второй по величине гербарий в России обрел цифровую форму. В свободном доступе более одного миллиона изображений с оригинальными оцифрованными этикетками…

28.09.2020

Музыка

Покажи мне свой Spotify, и я покажу тебе, кто ты

«Spotify опоздал» — говорят одни. «Spotify — всего лишь один из многих!», — говорят другие. «Spotify неудобен» — говорят третьи.…

17.09.2020

Цифровое наследие

Стереть нельзя оцифровать: эпиграфика открывает второе дыхание

Допустим, историк нашел древнюю надпись на скале — и хочет ее сохранить. Что делать? Классические методы: переписывание текста, зарисовка или…

14.09.2020

Интервью

Над пропастью поржи: интервью с техноблогером Вастриком

Технологический блогер vas3k (в миру программист Василий Зубарев) известен всему просвещенному интернету как автор постов о машинном обучении, VR, машинном…

03.09.2020

Филология

Джеймс против Джойса: вычислима ли сложность художественной литературы

Измерение сложности текста — задача для компьютерной лингвистики не новая, и в этой области многое уже придумано. Но применимо ли…

25.08.2020

Интервью

Цифровая этнография и «дьявольский значок» уведомлений

В книге «Жизнь онлайн: исследование реального опыта в виртуальном пространстве» цифровой этнограф Аннет Маркхэм показывает, как личность, социум и отношения…

20.08.2020

Искусство

Стеклянные негативы блудного фотографа и другие приключения русских в американской библиотеке

Филиал России в Америке — это не только про русскую мафию или русских на Брайтон-Бич в Нью-Йорке. Это еще и…

12.08.2020

Музыка

Поделись наушником своим: еще раз о том, как устроены рекомендации Spotify

О том, что в Россию пришел крупнейший в мире стриминговый сервис, не сказал только ленивый. Но чем же Spotify так…

10.08.2020

Цифровое наследие

Что не скрывает Конгресс США?

Крупнейшая в мире библиотека Конгресса США ничего не скрывает, хотя многое хранит — и это не только книги, но и…

06.08.2020

Филология

Цифровой Ван Гог: на грани вечности

Некоторые знают об этом художнике благодаря легенде об отрезанном ухе. Другие вспоминают его единственную проданную картину «Подсолнухи». Есть те, кто…

29.07.2020

Филология

Лев Толстой онлайн: цифровые проекты о творчестве и жизни писателя

Каждый знакомится с литературным наследием Льва Толстого по-разному. Одни изучают его творчество одновременно с биографией, другие читают для себя, а…

21.07.2020

История

С миру по нитке — фельдшеру зарплата: финансирование здравоохранения в Москве в начале XX века

Врач — профессия, отношение к которым колеблется от тотальной демонизации до безусловного обожествления, однако за этическими и нравственными вопросами жизни…

13.07.2020

Интервью

«Если бы по Евангелию жили бездумные роботы, они были бы одноглазые, однорукие и одноногие»

Как сочетаются компьютерные технологии и Церковь? Зачем настоятелю монастыря алгоритм дистрибутивной семантики word2vec? Исследовать церковные тексты количественными методами — это…

10.07.2020

Искусство

Русский рэп через тематическое моделирование. О чем читает русскоговорящая хип-хоп сцена?

Кто такой русский рэпер, и о чем он читает? Пацан с района в трениках «три полоски», воспевающий «родных жульбанов»? Татуированный…

29.06.2020

Интервью

Мы вытаскиваем людей из небытия: интервью с техническим руководителем ОБД «Мемориал» Виктором Тумаркиным

В России трудно найти семью, где не было бы родственника-участника ВОВ. Но многие почти ничего не знают о судьбе близких,…

22.06.2020

Как это работает

Мама мыла LSTM: как устроены рекуррентные нейросети с долгой краткосрочной памятью

Крафтовый техно-лонгрид издания Системный Блокъ, в котором мы разбираем по винтикам одну из самых ходовых технологий в современной компьютерной лингвистике…

17.06.2020

Интервью

Системный Блокъ на самоизоляции

Как вы проводите время на самоизоляции? Наш урбанист Оля, например, встречается с друзьями в Zoom на кулинарных пятницах, куратор Ира…

03.06.2020

Филология

Вся классика в один клик: как выделить из текста события

Школьники, зависающие на сайтах с краткими содержаниями, многое бы отдали за чудо-ресурс, которому можно было бы отдать какое-нибудь художественное произведение…

16.05.2020

История

Разделить цену победы: кого, откуда и когда призывали в годы ВОВ?

В истории войны много неизвестных и спорных мест. К сожалению, до сих пор многие данные засекречены, ведутся споры о количестве…

09.05.2020

История

Кого учили иезуиты?

Орден иезуитов был передовым отрядом католической церкви в деле сопротивления Реформации. Иезуиты создали сеть школ и университетов по всей Европе.…

04.05.2020

NLP

Трудно быть ботом: как сделать чатбота с помощью DeepPavlov

Наряду с разработкой таких ботов-гигантов, как Алекса, Сири и Алиса, за которыми стоят крупнейшие IT-корпорации, появляются и доступные инструменты для…

29.04.2020

Музыка

Идея для карантина: виртуальный хор

В 2009 году известный композитор, лауреат премии Грэмми Эрик Витакер придумал собрать людей со всего мира в виртуальный хор. Рассказываем,…

27.04.2020

Филология

Все переплетено: как распутать социальную сеть раввинской литературы

Что может рассказать об истории иудаизма социальная сеть мудрецов которые четыре века только и делали, что спорили?

21.04.2020

Искусство

Компьютерный анализ Сезанна: что объединяет серию Купальщиков?

С помощью алгоритмов компьютерного зрения искусствоведы подтвердили теорию о том, что Поль Сезанн в своем творчестве пользовался математическими расчетами, а…

13.04.2020

Искусство

Европейское культурное наследие онлайн

Пока границы закрыты, изучим возможности, которые предоставляют крупнейшие онлайн-коллекции объектов культурного наследия

08.04.2020

История

Как 3D-технологии воскресили Страстной монастырь

То место в центре Москвы, где сейчас находится Пушкинская площадь и главный в стране памятник Пушкину, почти три века занимал…

06.04.2020

Общество

«Прямо как в Plague Inc.» Что объединяет игры и фильмы про эпидемии

Какие общие тропы можно найти в Plague Inc., Pandemic и Left 4 Dead? Проводим сетевой анализ печально актуальной игры, в…

29.03.2020

Биология

В лес за большими данными: как ваши фотки белок и грибов помогут науке

Если у вас есть смартфон — вы можете почувствовать себя немного биологом и внести вклад в науку. Информатика биоразнообразия —…

25.03.2020

NLP

Как устроен шрифт Брайля и зачем его распознавать

Брайлевский шрифт придумали для передачи военных секретов, а в итоге он пригодился незрячим. Как устроен Брайль, зачем на нем пишут…

16.03.2020

NLP

Fembot’s tale: как виртуальным помощникам добиться равенства с людьми

На наших глазах происходит один из первых кибер-витков истории человечества. Виртуальные помощники выходят из зоны покорных слуг и обретают больше…

06.03.2020

NLP

Корпус для всех: как используют НКРЯ

Кому и почему «важно, чтобы корпус жил»? Системный Блокъ узнал, как применяют Национальный корпус русского языка: от школьных исследований до…

05.02.2020

Филология

Многомерное «Слово о полку Игореве»: от кукушки до алкогольного брендинга

Когда мобильный интернет был экзотикой, а отчёты по грантам сдавали на 3,5-дюймовых дискетах... в Рунете уже были цифровые гуманитарные проекты!…

03.02.2020

Исследование

Невидимые кинозвезды: как Голливуд не замечает женщин-режиссеров

В 2010 году «Оскар» за лучшую режиссуру впервые получила женщина — Кэтрин Бигелоу с фильмом «Повелитель бури». Стали ли после…

20.01.2020

Филология

Код «Мастера и Маргариты»

Как устроен шедевр Булгакова: анализируем роман «Мастер и Маргарита» с помощью методов цифрового литературоведения

09.01.2020

Нейронауки

Зрение, мозг и нейросети

Как ученые пытаются понять по активности мозга, что видит человек, и при чем тут машинное обучение

23.12.2019

Гайды

Где учить Python: обзор онлайн-курсов от «Системного Блока»

Научиться программировать мечтают многие, но как выбрать подходящий курс из сотен доступных вариантов? Мы сделали обзор курсов по Python, которые…

17.12.2019

NLP

Ищем смыслы: как сделать тематическое моделирование корпуса текстов

Тематическое моделирование — легкий способ понять смысловой состав большой коллекции текстов, которую невозможно быстро прочесть глазами. Пользоваться инструментами тематического моделирования…

06.12.2019

Как это работает

Разбираем нейросети по частям: как работает градиентный спуск

Градиентный спуск — это способ поиска точек минимума или максимума в сложных функциях. Рассказываем, почему это так важно для обучения…

20.11.2019

NLP

Разбираем по частям научно-популярные ресурсы

Научпоп стремительно обзаводится почитателями по всему миру. Какие ученые хотят рассказать о своей работе больше всего, что ресурсы и паблики…

04.11.2019

Филология

Соцсети русской драмы, часть II Ревизор vs. Городничий: кто же главный герой?

Как, сколько и с кем общаться, чтобы стать по-настоящему главным героем пьесы — отвечает математика

30.10.2019

NLP

Семантические сети: как представить значения слов в виде графа

Компьютерные лингвисты из Вышки, университета Тренто и университета Осло разработали vec2graph — инструмент для визуализации семантической близости слов в виде…

28.10.2019

NLP

Нейросеть-предатель: алгоритм обучили выявлять тексты-подделки

Нейросети научились неплохо подражать человеку в написании текста. Но теперь есть симметричный ответ: системы обнаружения текста, порожденного нейросетями. Запасаемся попкорном…

15.10.2019

NLP

Перенос стиля нейросетями: Дрейк, Летов, Оксимирон

Авторский стиль тяжело определить формально — это целый комплекс деталей, которые заметны человеческому глазу, но могут ускользнуть от компьютера. Указать…

11.10.2019

Филология

Соцсети русской драмы, часть I: основы сетевого анализа

Сегодня модно исследовать художественную литературу методами анализа социальных сетей. Мы начинаем серию постов по сетевому анализу русской драматургии. В первом…

04.10.2019

Музыка

Компьютерные языки музыки, часть II

Мы продолжаем цикл постов о компьютерных языках, используемых для передачи музыки. Сегодня рассказываем о принципиальных отличиях музыки от других видов…

02.10.2019

Филология

Тест Тьюринга для киберпоэтов

Как обычный «слепой тест» по отделению машинной поэзии от той, что написана людьми, приводит ученых к философскому спору об относительности…

12.09.2019

История

Накануне войны: что можно увидеть в сети родства монархов Европы 1914 года

Как соотносятся семейные связи европейских монархов начала XX века с их вероисповеданием? Сказалось ли родство на выборе стороны в Первой…

30.08.2019

Нейронауки

Говорящий мозг

Ученые сумели перевести электрические импульсы коры мозга в звучащую речь. Это может стать прорывом в лечении речевых расстройств и поддержке…

11.03.2019

Дайджест

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

США усилили контроль над лидирующими ИИ моделями, ученые смогли полностью прочитать античный свиток, не разворачивая его — что произошло в…

06.07.2026

NLP

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Агенты, которые самостоятельно планируют свои действия и пользуются внешними инструментами. Модели, способные работать с миллионами токенов. Системы, которые помогают сохранять…

02.07.2026

Новости

Национальный корпус русского языка вырос в шесть раз

Теперь в него входят тексты ВКонтакте — почти 11,3 млрд слов из соцсетей

30.06.2026