Центр цифровых гуманитарных исследований НИУ ВШЭ

Центр цифровых гуманитарных исследований НИУ ВШЭ (DH-центр)

Центр цифровых гуманитарных исследований входит в состав факультета гуманитарных наук НИУ ВШЭ и объединяет специалистов на стыке компьютерных методов и гуманитарного знания. Проекты и исследования центра посвящены созданию цифровых изданий, сетевому анализу, геоинформационным системам, компьютерному анализу художественного текста, созданию корпусов и электронных инструментов для гуманитарных исследований. 

Преподаватели и студенты выступают на международных конференциях, центр входит в ассоциацию Russian DH Network, сотрудничает с российскими и иностранными специалистами. В 2019 году открылась родственная центру магистерская программа Цифровые методы в гуманитарных науках.

Центр регулярно проводит научные и образовательные мероприятия. В их числе — Московско-Тартуская школа по цифровым гуманитарным наукам, хакатоны по Digital Humanities, DH Advent, лекции и мастерклассы.

Наши проекты и исследования

Что такое сетевой анализ?

Сетевой анализ ― это метод исследования, с помощью которого можно визуализировать и исследовать связи между людьми в сообществе, персонажами в художественном произведении, животными в стае и вообще любыми объектами. Из чего состоит сеть как модель? Какие параметры у них есть и о чём они говорят? Объясняем основы сетевого анализа на простых примерах.

Ресурсы для цифровых стиховедов: поэтические корпуса

Корпус — это собрание текстов в электронной форме, в котором можно осуществлять поиск. Важное отличие корпуса от электронной библиотеки — в корпусе всегда присутствует разметка. Корпуса бывают самыми разными, и мы уже рассказывали про литературные корпуса отдельных авторов. Расскажем еще об одном специальном типе литературных корпусов — поэтических корпусах

О чем еще мы писали в Системном Блоке

Романтика в эпоху больших данных: что делает аниме хитом?

«Твоя апрельская ложь», «Форма голоса», «Очень приятно, Бог»… Романтическое аниме овладело сердцами миллионов зрителей по всему миру. Но что именно делает этот жанр таким привлекательным? За ответом обратимся к большим данным. Статья написана в рамках проекта НИУ ВШЭ по анализу данных «Цифровые методы в востоковедении: опыт описания исследовательской работы».

цель искусственного интеллекта

Достигла ли своих целей разработка искусственного интеллекта?

В 1972 году ученые составили список из 12 задач, которые нужно решить для создания искусственного интеллекта в ближайшие десятилетия. В список входили автоматический перевод, самоуправляемые автомобили и даже автономные роботы-планетоходы. Мы попробовали оценить, что сделано, а что еще нет

Иллюстратор: Анна Руденко

«Цифровой антрополог отличается от Data Scientist’а вниманием к деталям»: интервью с Дарьей Радченко (КБ «Стрелка»)

COVID-19 изменил повседневные практики миллионов людей — и это видно по их «цифровым следам». Что говорят об эффективности весеннего карантина данные Инстаграма и других соцмедиа, как люди на самоизоляции «переоткрыли» заново свои спальные районы, а также каковы ограничения Data Science в социальных исследованиях — рассказывает Дарья Радченко, заместитель руководителя Центра городской антропологии КБ «Стрелка».

Sketch Engine и Маяковский. Часть II: «несоветский» поэт Революции

Продолжаем серию постов о применении Sketch Engine в цифровой филологии. В прошлом материале мы узнали, что такое Sketch Engine, научились создавать свой корпус и выяснили, каков был лирический герой Маяковского до и после Революции. Познакомимся с оставшимися функциями Sketch Engine и узнаем, что значили для Маяковского Советы и Россия, что в его жизни изменил 1917 год и как это повлияло на лирику

Sketch Engine и Маяковский. Часть I: человек до и после революции

Системный Блокъ уже рассказывал, как провести собственное корпусное исследование при помощи antconc и mystem. Теперь мы обратимся к другому инструменту — корпусному менеджеру Sketch Engine и с его помощью проанализируем корпус текстов Владимира Маяковского.

Над пропастью поржи: интервью с техноблогером Вастриком

Технологический блогер vas3k (в миру программист Василий Зубарев) известен всему просвещенному интернету как автор постов о машинном обучении, VR, машинном переводе, цифровой фотографии, блокчейне и других хайповых технологиях. Посты Вастрика — это панк-версия журнала «Юный техник» для читателей 18+. «Системный Блокъ» поговорил с Вастриком о вдохновении для постов, зацикленности IT на себе же и о том, почему в закрытых сообществах не работает демократия

Цифровая этнография и «дьявольский значок» уведомлений

В книге «Жизнь онлайн: исследование реального опыта в виртуальном пространстве» цифровой этнограф Аннет Маркхэм показывает, как личность, социум и отношения между людьми трансформируются под действием виртуальной среды, насколько реален цифровой опыт и что с этим делать исследователю. В интервью «Системному Блоку» Маркхэм рассказала, какие социальные стереотипы мы переносим в нашу виртуальную жизнь и другие этические проблемы будущего, что меняют в нашем поведении и восприятии Google и Netflix, а еще — как можно изучать самого себя в цифровой среде (и почему после этого люди начинают ненавидеть уведомления)

«Если бы по Евангелию жили бездумные роботы, они были бы одноглазые, однорукие и одноногие»

Как сочетаются компьютерные технологии и Церковь? Зачем настоятелю монастыря алгоритм дистрибутивной семантики word2vec? Исследовать церковные тексты количественными методами — это вообще нормально? Системный Блокъ поговорил об этом с настоятелем Свято-Троицкого Данилова монастыря игуменом Пантелеимоном

Мы вытаскиваем людей из небытия: интервью с техническим руководителем ОБД «Мемориал» Виктором Тумаркиным

В России трудно найти семью, где не было бы родственника-участника ВОВ. Но многие почти ничего не знают о судьбе близких, побывавших на войне. К 22 июня «Системный Блокъ» подготовил интервью с Виктором Тумаркиным — техническим руководителем проектов ОБД «Мемориал» и «Подвиг народа», на которых можно узнать о судьбах миллионов участников войны.

Как менялись песни Битлов и можно ли вычислить эмоции компьютерными методами?

От She Loves You до She’s So Heavy: как психологи исследовали композиции Beatles цифровыми методами и ранжировали их от радостных — до депрессивных

Вся классика в один клик: как выделить из текста события

Школьники, зависающие на сайтах с краткими содержаниями, многое бы отдали за чудо-ресурс, которому можно было бы отдать какое-нибудь художественное произведение и получить взамен описание событий в тексте. Возможно, в скором будущем их мечта воплотится в реальность. Рассказываем, как работает технология извлечения событий из художественных текстов — и что она позволяет узнать о литературе уже сейчас

Стали ли современные поп-песни грустнее за последние 50 лет?

Поп-музыка — практически неограниченное пространство для исследователя. Можно попробовать изучать ее инструментами социологии, теории музыки, культурологии и еще десятка дисциплин, но самый простой способ — проверить, как меняются тексты в самом распространенном музыкальном стиле последнего столетия

В мозге нашли «пусковой механизм» сознания

Недавнее исследование, проведенное на макаках, показало, что стимуляция определенной части переднего мозга пробуждает животных от наркоза. Ученые подозревают, что нашли область мозга, ответственную за сознание. Результаты исследования были опубликованы 12 февраля 2020 года в журнале Neuron

Игра в войнушку: выживет ли кто-нибудь после нажатия красной кнопки

С приходом коронавируса интерес к апокалиптическим сценариям будущего заметно вырос. «Системный Блокъ» уже писал об эпидемиях, поэтому теперь поговорим не о них, а об атомной войне. SIGNAL — многопользовательская игра, созданная учеными чтобы выяснить, какие сценарии развития событий возможны, если страны начнут обмениваться ядерными ударами

Есть ли стиль у переводчика? А если найдем?

Как инструменты стилометрии помогают исследовать относительную силу стилистического отпечатка автора и переводчика в художественном тексте

На распутье Digital Humanities

Недотехнари, псевдоученые, шарлатаны — как только не называли цифровых гуманитариев (и как они сами себя только не называли). Представители этого направления проводят исследования, выигрывают гранты, и при этом Digital Humanities все еще не имеет до конца сформированной методологии и научной базы. Так кто же такие дигитальные гуманитарии и что их ждет в будущем?

"Область, в которой я работаю, рождается прямо на глазах"

Значение слов постоянно меняется, отражаясь в контекстах. Следом меняются и типичные ассоциации, связанные со словами. Как «тюремная камера» превращалась в «сотовый телефон» и какие цифровые методы позволяют отследить эти изменения — рассказывает Андрей Кутузов

Корпус для всех: как используют НКРЯ

Кому и почему «важно, чтобы корпус жил»? Системный Блокъ узнал, как применяют Национальный корпус русского языка: от школьных исследований до изучения перевода культурных реалий

Джон Сноу vs Холера

Коронавирус из Китая разлетается по планете. Уже появились первые жертвы в других странах, а в самой КНР погибло более 400 человек, заражены десятки тысяч. Весь мир ищет способы остановить распространение эпидемии. А мы, конечно, сразу вспомнили классическую историю о том, как доктор Джон Сноу остановил эпидемию холеры при помощи сбора, анализа и визуализации статистики. Хочется верить, что и в этот раз человечество спасут умные врачи и передовые технологии, в том числе анализ данных

Как делать тематическое моделирование без боли и командной строки

«Системный Блокъ» уже рассказывал, как делать тематическое моделирование при помощи Mallet — классического инструмента выделения тем с опорой на алгоритм LDA. Однако есть и более современные инструменты, не требующие возни с командной строкой. На этот раз мы расскажем об одном из таких инструментов — сервисе TopicModellingTool, а также о визуализации тем при помощи Tableau Public

Скоро ли появится Альтрон? Битва за лидерство в военном ИИ

Хотя искусственный интеллект все еще находится на ранней стадии своего развития, он способен изменить экономический и военный баланс в международной системе. Все больше государств и негосударственных организаций разрабатывают свои системы ИИ. Пока главные лидеры в гонке вооружений — США и Китай. США стремится удержать первенство, Китай же амбициозно планирует обогнать своего соперника к 2030 году. Несмотря на независимые национальные разработки, США и Китай все же ориентируются на идеи друг друга. Ну, а в чем же тактика и стратегия, сейчас разберемся

Ищем смыслы: как сделать тематическое моделирование корпуса текстов

Тематическое моделирование — легкий способ понять смысловой состав большой коллекции текстов, которую невозможно быстро прочесть глазами. Пользоваться инструментами тематического моделирования может каждый — а научиться можно в нашем тьюториале. Здесь вы найдете пошаговое руководство с решением основных технических трудностей

Как начать свой путь в NLP (не путать с НЛП)

Хотите разобраться в автоматической обработке языка и стать NLP-инженером? Вам сюда

Роботы вступают в гонку вооружений: военные применения ИИ

Военные используют искусственный интеллект с момента его появления. Самонаводящиеся ракеты с компьютерным зрением поступили на вооружение еще в разгар Холодной войны, с начала 2000-х активно применяются беспилотные ударные дроны, обретающие все больше самостоятельности в решении вопросов жизни и смерти... Что дальше?

Семантические сети: как представить значения слов в виде графа

Компьютерные лингвисты из Вышки, университета Тренто и университета Осло разработали vec2graph — инструмент для визуализации семантической близости слов в виде сети. Воспользоваться vec2graph может любой желающий. Рассказываем, как это работает и зачем нужно

Когнитивная стилистика и образование речи

Никогда не задумывались, как мы строим предложения? Конечно, нет, это невозможно. Молодая наука когнитивная стилистика объясняет, почему

Перенос стиля нейросетями: Дрейк, Летов, Оксимирон

Авторский стиль тяжело определить формально — это целый комплекс деталей, которые заметны человеческому глазу, но могут ускользнуть от компьютера. Указать на характерный выбор слов, конструкций, моделей легко, но как рассказать алгоритму про метафоры или научить его распознавать другие тонкие материи?

Разделяй и определяй, или Кто автор «Сна в красном тереме»

Как метод Дельты Бёрроуза и тематическое моделирование помогают решить проблему атрибуции текста

Красота и божественная слава: статистический анализ Корана

Исследование священных текстов с помощью методов автоматической обработки языка и статистики — то, с чего начались современные Digital Humanities. Сегодня статистика применяется для анализа священных текстов разных религиозных традиций, в том числе исламской. Публикуем перевод недавней работы, где анализируется соотношение божественных черт в Коране

Знакомый почерк: цифровые технологии для юристов

Любой текст, написанный от руки, имеет много особенностей: форма, размер и расположение букв, даже сила, с которой ручка отпечаталась на бумаге. Усталость пишущего, количество доступного места — это тоже влияет на почерк. Эти и другие признаки выделяют юристы, когда проводят почерковедческую экспертизу. Главная задача экспертизы — установление автора рукописи. Можно ли использовать для этого цифровые технологии?

Теперь с перламутровыми пуговицами: как алгоритмы работают в модной индустрии

Мода, с одной стороны, довольно консервативна - сложно придумать альтернативу рубашке, джинсам и платью, а с другой - крайне продвинута: новые ткани, новые способы их обработки и новые модели появляются каждые несколько месяцев. Если ли в этой индустрии место для цифровых технологий? Оказывается, да

"Объединить классических филологов и специалистов по цифре"

Какие возможности даёт историческому лингвисту программирование? Об этом в интервью Системному Блоку рассказал Йоханн-Маттис Лист — исследователь в области исторической лингвистики и разработчик цифровых методов для сравнительного анализа языков

Что такое кросс-языковая морфология и зачем она нужна

Машинный перевод и другая компьютерно-лингвистическая магия работают тогда, когда есть много данных для обучения нейросетей. Но что делать, если язык редкий и данных почти нет? Рассказываем про хитрый способ выкрутиться с помощью лингвистики

Под зонтиком Digital Humanities

Ученый и писатель Роман Лейбов о том, что делать с корпусом, учить ли гуманитарию математику и чем заниматься в Рунете, если ты его пионер

Великий, могучий и понятный… Или нет?

Что такое простой и понятный русский язык? Хотелось бы, чтобы разобрался компьютер. Пока он лучше справляется с английским, но можно его научить

Электронный след Анны Ахматовой

Учимся визуализировать открытые геоданные на примере Ахматовских мест в Москве. К 130-летию Анны Ахматовой.

Цифровая история польских евреев

Последний путь Януша Корчака и 200 детей из дома сирот, истребление Варшавского гетто, истории обычных людей — на карте, в скетчах и комиксах. Изучаем, как прошлое можно оживить цифровыми инструментами

«Хочу сделать Sci-Hub легальной платформой»

Создатель Sci-Hub Александра Элбакян — о том, как работает Sci-Hub, что нужно, чтобы этот ресурс стал легальным, и чем грозит изоляция Рунета.

Москва, мэрия, миллиарды: что расследовал Иван Голунов

Инфографика по расследованиям арестованного спецкора «Медузы» Ивана Голунова

У вас вся спина белая: как искусственный интеллект учится шутить

Шутки — дело серьезное. Исследовательница из Стенфорда Хё Хё точно это знает, потому что она разрабатывает генератор каламбуров для искусственного интеллекта и даже устраивает соревнования живых комиков и машин. Пока наши выигрывают, но Хё не собирается прекращать работать над шуточным генератором

Гуманитарии должны прогнозировать культуру

Лев Манович — о будущем соцсетей, смещении глобальных культурных центров и экспорте русского страдания

О чем говорят герои фильмов Уэса Андерсона?

Первого мая режиссер и волшебник Уэс Андерсон отмечает пятидесятилетний юбилей. Перечитываем его фильмографию и делаем визуализацию. Так, как ее сделал бы Уэс, конечно!

Гендерные трудности английской литературы

За двести пятьдесят лет положение женщин в обществе изменилось, и эти изменения затронули не только реальную жизнь, но и книжное пространство. Как изменялось место женщины в литературе как автора и персонажа? Возможно ли определить пол героя по его описанию? И, наконец, существует ли мужская и женская литература?

Поприветствуем волдемортинг: Главнейший Анти-Поиск

Обмануть Google: как эвфемизмы помогают прятать информацию и зачем люди делают это

Сгоревший Нотр-Дам может спасти компьютерная игра (на самом деле нет)

Assassin’s Creed снова был готов выручить мировую культуру, но на этот раз не сложилось

Цифра на службе у филолога

“Гумилёва считали?”: лингвист и популяризатор Александр Пиперски рассказывает, как открыл для себя количественные методы, что из этого получилось и зачем они нужны филологу-исследователю

«Черный ящик» нейросетей приоткрылся

Система искусственного интеллекта из MIT научилась объяснять свои решения через цепочки рассуждений. Теперь люди смогут понимать, почему нейросеть приняла столб за пешехода

Как геймеры древнеегипетское письмо расшифровывали

Фанаты Assassin’s Creed за одну ночь помогли собрать материал для переводчика египетских иероглифов

Смерть у Шекспира

Шекспир не щадил своих персонажей — каждая вторая пьеса кончалась горой трупов. Но как именно они умерли? Какие виды смерти предпочитал Шекспир?

Жутко громко, запредельно тихо: звуки в романах

Крик, рёв, бормотание, шепот: измеряем громкость в литературе

Бандитский Лондон: интерактивная карта

«Два гребца забили человека веслами», «священник из ревности заколол соперника» — криминальная хроника средневекового Лондона с привязкой к координатам

5 лучших новогодних инфографик

Зачем елке аспирин, что говорят политики в новогодних обращениях и как правильно приготовить селедку под шубой

Рембрандт к успеху шел — не фартануло

Как анализ данных предсказывает успех художника

Как нейросеть пишет песни

Языковую модель на основе рекуррентной нейросети научили подбирать тексты под мелодию с учетом пауз и длительности нот. Разбираемся, как это сделано

Персональный склерозник: от альбома XVII века до цифровых тетрадей

Почему XXI век — золотой век альбомов и чем хороши сервисы заметок

Не бездушная машина

Могут ли роботы сострадать? Искусственный интеллект для тяжелых эмоций и сложных ситуаций

Искусственный интеллект смотрит сериалы

Распознавание лиц используют не только в камерах слежения. Можно следить и за героями сериалов! Зачем — читайте в нашей статье!

Большой Брат узнает по походке

Прятать лицо от камеры слежения скоро станет бесполезно