История на службе игровой индустрии: как низаритские исмаилиты стали Орденом Ассасинов

Assassin’s Creed — серия игр, сюжет которых построен вокруг многовековой борьбы двух тайных организаций — ассасинов и тамплиеров. Прототипом ассасинов послужили члены средневекового мусульманского течения исмаилитов-низаритов. В нашем материале рассказываем, как видеоигры адаптируют исторические реалии под свой формат.

Каждый ML желает знать, где сидит фазан: машинное обучение на службе биоразнообразия

Биологи, экологи и географы используют машинное обучение для предсказания ареалов самых разных живых существ — в прошлом, настоящем и будущем. Из нашего материала вы узнаете, что такое экологическая ниша, где в Воронежской области можно найти первоцвет B. versicolor, и разберёмся, почему синицы якобы предпочитают Москву, но не Тверь.

Гид по Voyant Tools: анализ и визуализация

Продолжаем наше руководство по анализу текста с помощью Voyant Tools. В прошлом материале мы рассказали, как загрузить и подготовить корпус. Теперь рассмотрим, как исследовать и визуализировать ваши материалы. Автор материала — Екатерина Волженина, выпускница DH-магистратуры НИУ ВШЭ в Москве, историк, менеджер центра глубинного обучения и байесовских методов ФКН.

Text-mining корейского языка: гайд по библиотеке koNLPy

Как автоматически провести токенизацию и морфологический анализ текстов на корейском языке? Рассказываем про библиотеку koNLPy, которая выделяет токены, определяет морфемы и части речи. А также приводим таблицу, которая показывает, как различные методы этой библиотеки справляются с корейскими смайликами, глаголами вежливости и уважительными суффиксами (не всё так просто!).

Архивы, сети и шифры в дневниках и письмах: цифровые исследования эго-документов

Изучение дневников и писем — это возможность услышать голоса людей из прошлого и понять, как они воспринимали и оценивали мир вокруг. В новой подборке мы рассказываем, как цифровые методы помогают сохранять, исследовать и публиковать исторические эго-документы.

Жизнь и научная деятельность Романа Якобсона: лингвистика vs двадцатый век

Помешает ли постоянная вынужденная миграция развивать фонологию, исследовать русский авангард, заниматься сербо-хорватским эпосом, изучать нейрофизиологические нарушения речи, перенести структурализм с одного континента на другой и создать работы, которые окажут влияние на Леви-Стросса? Жизнь Романа Осиповича Якобсона показывает, что даже сложное время не может остановить искреннее желание заниматься наукой.

Новая открытая языковая модель, обновление GPT-4 и скорый выход LLaMa 3: дайджест новостей из мира ИИ

Метеорологи обещали осадки в виде LLM: новая открытая языковая модель, обновление GPT-4 и скорый выход LLaMa 3.

Гид по Voyant Tools: подготовка корпуса

«‎‎Системный Блокъ» пополняет свою коллекцию гайдов. Сегодня покажем, как сделать анализ текстов с помощью Voyant Tools, популярного инструмента среди цифровых гуманитариев. Разнообразные визуализации, частотный анализ, тренды, коллокации — вот только часть возможностей инструмента. Автор материала — Екатерина Волженина, выпускница DH-магистратуры НИУ ВШЭ в Москве, историк, менеджер центра глубинного обучения и байесовских методов ФКН.

Text-mining японского текста: гайд по библиотеке fugashi

Мы уже рассказывали, как работать с японским языком с помощью сервиса Voyant Tools. Покажем, как можно самостоятельно провести токенизацию текстов на японском, применяя библиотеку fugashi, которая способна также провести морфологический анализ и выделять именованные сущности.

Как провести лингвистический эксперимент онлайн? От интроспекции до Amazon

Что такое лингвистический эксперимент и как его запрограммировать? Какие инструменты стоит использовать при его проведении и где для этого найти участников? Узнаем в материале «Системного Блока».

Невыносимая лёгкость атрибуции: новая пьеса Милана Кундеры

Филологи уже долгое время подозревают, что одна из пьес чешского драматурга Карела Штайгервальда на самом деле принадлежит перу Милана Кундеры. Рассказываем, что по этому поводу думают цифровые филологи и специально обученные ими модели стилометрии

GPT-4 больше не лучшая языковая модель, суперкомпьютер за 100 млрд долларов и новые открытые модели

OpenAI и Microsoft строят суперкомпьютер для нейросетей, модель Claude 3 Opus от Anthropic обошла GPT-4 в одном из основных рейтингов, Илон Маск опубликовал свою большую языковую модель без цензуры.

Четыре проекта по борьбе с коррупцией онлайн. Как они работают?

Может ли работа с данными помочь в борьбе с коррупцией? «Системный Блокъ» выяснил, какие цифровые сервисы и проекты занимаются антикоррупционной деятельностью с помощью открытых и не очень открытых данных.

Угадайте, что попросили сгенерировать нейросеть

Специально для вас мы попросили нейросети сгенерировать изображения. Пройдите тест и проверьте, сможете ли вы понять, результатом какого запроса является картинка перед вами.

Автономный ИИ-инженер и новое о Sora: дайджест новостей в мире искусственного интеллекта

Создатели Sora рассказали, откуда брали видео для обучения, но кое о чем умолчали. Компания Cohere — один из главных конкурентов OpenAI/ChatGPT — выпустила модель с 35 млрд параметров. Вышла сопоставимая с трансформерами RNN-модель EagleX — неужели рекуррентные нейросети рано хоронить? Рассказываем, что произошло в мире ИИ за прошедшую неделю

О чём говорят на «Разговорах о важном»?

С сентября 2022 года во всех российских школах ввели новый предмет — «Разговоры о важном». По замыслу составителей курса, данный предмет должен показывать школьникам, что происходит в мире, и формировать у них определённые ценности. Предлагаем пройти наш тест и понять, насколько хорошо вы знакомы с этим новым предметом.

Виртуальный визит в Помпеи: как архитектура управляет нашим вниманием

Можно ли проанализировать взаимодействие человека и архитектурной среды? И при чём тут ГИС и айтрекинг? Рассказываем, как люди ходят в гости к древним римлянам в VR-очках, чтобы лучше понять культуру и повседневную жизнь римского города

Интернет-эстетика Dark Academia в исторической перспективе 2010–2020-х гг.

Почему COVID-19 сделал популярной Dark Academia? Рассказываем, как романтизация мрачности связана с самоизоляцией.

Следи за ушами: как кошки чувствуют боль?

Учёные из Монреальского университета долго задавались вопросом, как понять, что животному больно, и вовремя помочь ему. Результатом их эксперимента стала шкала кошачьей боли. Пройдите наш тест и узнайте, как она создавалась. Подробности о работе учёных можно прочитать в нашем материале.

Sora: как работает модель для генерации видео по тексту

Недавно компания OpenAI, создавшая модели GPT и сервис ChatGPT, выпустила новую модель Sora, которая генерирует видео по текстовому описанию. Такие модели были и раньше, но здесь произошёл качественный скачок. Во-первых, Sora умеет генерировать реалистичные видео в высоком разрешении (вплоть до FullHD), во-вторых, объекты в видео консистентны в течение всего времени. Рассказываем, как работает Sora, какие у неё есть ограничения и неожиданные особенности.

Как создавать расшифровки аудиозаписей в программе ELAN

У вас есть аудиофайл от информанта и вам его нужно расшифровать? Возможно, вы пытаетесь при этом жонглировать несколькими программами сразу: у вас открыты медиаплеер, в котором вы слушаете звук, текстовый файл, в который вы записываете транскрипцию, мессенджер, в котором вы видите корректировки от руководителя. Но расшифровку можно сделать гораздо быстрее и удобнее — с помощью программы ELAN, которая была создана как раз для аннотирования звуковых и видеофайлов.

Не вандализм, а уличное искусство: как устроена самая большая цифровая карта граффити

Цифровые карты позволяют изучать не только географию и историю, но и современное уличное искусство. Граффити часто живут недолго, а вот цифровая карта позволяет сохранить их для анализа и изучения, причем в привязке к месту. Рассказываем о некоммерческом проекте по картографированию граффити

На пыльных дорожках прошедших эпох: семь статей об исторической картографии

Карты всегда были ценным историческим источником, но цифровые технологии сделали их поистине незаменимыми в руках учёных. Геоинформатика и пространственный анализ помогают обнаруживать связи между социальными процессами и окружающей средой. С помощью визуализации геоданных исследователи восстанавливают этапы развития городов и торговых путей, изучают средневековую преступность и превращают сюжеты из прошлого в увлекательные рассказы

«Ты же не думаешь, что можно заниматься диалектологией как профессией?»: интервью с диалектологом Игорем Исаевым

Как отделить язык от диалекта? Должна ли вся страна говорить на одном «стандартном» языке и какие преимущества есть у использования диалектов? Имеют ли смысл политизированные споры вокруг разграничения русского, украинского и белорусского языков? Как проходят диалектологические экспедиции? Всё это «Системный Блокъ» обсудил с диалектологом, замдиректора Института языкознания РАН по науке Игорем Исаевым.

Как ChatGPT помогла получить литературную премию

В начале этого года в Японии выдали престижную литературную премию писательнице Риэ Кудан. Затем она призналась, что около 5% текста написаны ChatGPT. Случился скандал. Сможет ли ИИ заменить писателей? Как нейросети «проникают» в литературу? Читайте в новом материале «Системного Блока»‎.

10 необычных экспонатов музейного Госкаталога РФ

Где можно найти настольную игру, иронизирующую над перестройкой, матрёшку с мордой собаки Стрелки и сборник суеверий из XVIII века? Рассказываем о необычных экспонатах Госкаталога — цифрового архива экспонатов российских музеев и частных собраний.

Цифровая история Узбекистана и память о репрессиях: платформа Raqamli tarix

Узбекистан — солнечный, хлопковый, гостеприимный. Но в XX веке и тут проходили сталинские репрессии. Проект Raqamli tarix («Цифровая история») помогает сохранить память об этом периоде в истории страны. В одном месте собраны база данных о репрессированных, фотографии и видео, а также архивные материалы на трёх языках: узбекском, русском и английском.

Глазами нейросети: мир как набор стереотипов

Миром управляют белые мужчины. Они же в основном работают врачами, юристами и судьями — хотя среди них иногда встречаются и белые женщины. Преступления совершают темнокожие парни, а женщины с афроамериканскими корнями готовят бургеры в забегаловках. Ну а если в ресторан зашел русский, то он непременно возьмет стопку водки. Именно так видит наш мир нейросеть Stable Diffusion. Алгоритмы искусственного интеллекта не только генерируют изображения или тексты, но и воспроизводят общественные стереотипы. Рассказываем, как и почему они это делают.

«Нас вообще все боятся»: Александра Архипова о том, зачем фольклористы и социальные антропологи собирают слухи и считают репосты

Как примирить сторонников количественных и качественных исследований культуры? Как исследователям фольклора помогают цифровые базы данных? О чём могут рассказать лозунги митингующих и народные рецепты лечения COVID-19? Почему конспирологические теории так привлекательны? Обо всём этом «Системный Блокъ» поговорил с антропологом Александрой Архиповой.

Цвет антиутопии зелёный: цифровая рецензия на роман «Радио Мартын»

Сегодня гуманитарии стремительно осваивают цифровой мир и уже совсем по-другому смотрят на литературные произведения. В этой статье мы проанализировали книгу Филиппа Дзядко «Радио Мартын» с помощью языка программирования R и отразили в цифрах уникальность авторского стиля писателя

Цифровые коллекции японского искусства

Как технологии открывают миру богатство культурного наследия? Японские гравюры, живопись и каллиграфию можно увидеть и изучать не только вживую, но и через интернет. Исследуем платформу Google Arts & Culture, цифровой ресурс Cultural Japan, базу данных японских гравюр на дереве Ukiyo-e Search и Центр исследования искусства Университета Рицумэйкан, которые позволяют соприкоснуться с оцифрованными произведениями японской культуры из любой точки мира.

👋 Тест: какой вы жест из мультимедийного корпуса русского языка?✍️

«Закатить глаза» или «троекратный поцелуй»? Узнайте, каким жестом вы были бы во вселенной мультимедийного корпуса русского языка.

Понять Льва Толстого: как векторно-семантические модели помогают литературоведам

Идиостиль — это авторский стиль писателя. И если на небольших стихах его изучать удобно, то вот на текстах Льва Толстого — очень непросто. Рассказываем, как филолог Борис Орехов использует векторно-семантические модели для анализа идиостиля Толстого.

Как автоматически расшифровать аудио: пошаговая инструкция для Whisper

Расшифровка аудиозаписи — дело утомительное и времязатратное. К счастью, появляется всё больше сервисов, которые умеют это делать автоматически. Рассказываем, как сделать это с помощью модели Whisper от OpenAI и смотрим, насколько хорошо она справляется с русскоязычными записями

Агрессивная сеть: что мы знаем о кибербуллинге

Каковы риски стать жертвой кибербуллинга? Кто страдает от интернет-агрессии больше всех? Где искать помощи? Обо всём этом — в материале «Системного Блока»

Кто какую часть произведения написал? Выясняем с помощью Stylo

«‎Системный Блокъ» уже рассказывал, что такое стилометрия, и как сделать её своими руками с помощью библиотеки Stylo на языке программирования R. В новом гайде мы познакомим вас с функцией rolling.classify(), которая может помочь в исследований произведений, написанных в соавторстве.

О дивный «Визуальный мир»

Что такое «Визуальный мир», кто в нём живёт и причём тут яблоки? Продолжаем серию материалов про айтрекинг и рассказываем об экспериментальном методе «Визуальный мир». При помощи записи движения глаз учёные изучают, как мозг человека понимает предложения и справляется с лингвистической неоднозначностью.

Перестаньте читать книги и начните их анализировать: тест про дальнее чтение

Пройдите тест и узнайте, какую информацию можно получить из корпусов художественных текстов с помощью дальнего чтения.

«Нам надоели префиксы и инфиксы, что мы можем для людей сделать?»: Ольга Драгой о настоящем и будущем нейролингвистических исследований

Нейролингвистические исследования находятся на стыке психологии, неврологии и лингвистики: здесь изучается речь пациентов, переживших инсульт, разрабатываются приложения для определения дислексии и даже синтезируются слова по активности нейронов. О соединении нейролингвистических экспериментов с машинным обучением «Системный Блокъ» поговорил с Ольгой Драгой, директором Центра языка и мозга НИУ ВШЭ и доктором филологических наук.

Карточный активизм. Как контркартографирование помогает социальным меньшинствам

Может ли карта стать политическим инструментом? Как контркартографирование создаёт альтернативную реальность? Узнаем в материале «Системного Блока».

KuroNet: как работает модель для распознавания старых японских иероглифов

Для распознавания старинных японских иероглифов применяется OCR под названием KuroNet. В основе KuroNet лежит специальная нейросетевая модель. Пошагово разберем что делать, когда нужно распознать рукописный текст на японском языке: от выбора текста до использования приложения miwo для смартфона.

Зима бёрдвотчеру не помеха! Определите птицу по фотографии

Наблюдать за птицами можно даже зимой — время искать снегирей! Мы уже рассказывали вам о сервисах, которые помогают изучать природу и заниматься бёрдвотчингом, или наблюдением за птицами. При помощи разных сайтов и приложений можно определить вид птицы не только по внешнему виду, но и по пению и даже перу! Проверьте свои познания в орнитологии. Пройдите тест и узнайте, насколько хорошо вы разбираетесь в птицах.

Религии Африки через данные: во что и как верит самый религиозный континент Земли

Рассказываем, чем уникальны конфессии Африки — континента, где переход от этнических религий к христианству и исламу во многих сообществах произошёл всего за несколько десятилетий. Благодаря собранным датасетам изменения в вероисповеданиях можно отследить и измерить.

«Долой копирайт!»: история и философия open source

Мы привыкли, что контент, программа или информация обязательно находится в чьей-то собственности. Но всегда ли это так? Проблема повсеместной коммерциализации всегда волновала компьютерных разработчиков. Многие из них с 80-х годов XX века поддерживают идеи свободного программного обеспечения, или open source. Рассмотрим историю этого движения и разберёмся, как его философия влияет на наше общество.

Из семинарии в Совет экспертов: кто и как попадает в иранскую коллегию выборщиков

В Иране есть избираемый орган, состоящий целиком из духовенства, — Совет экспертов. Что это за совет и как он устроен? Илья Васькин, старший преподаватель и младший научный сотрудник Центра изучения Ближнего Востока, Кавказа и Центральной Азии (CSMECCA) Института Классического Востока и Античности ФГН НИУ ВШЭ, проанализировал данные о членах Совета экспертов и обнаружил, какие изменения происходили в политизированной части иранского духовенства с 1983 года.

Как устроена оцифровка дневников: Михаил Мельниченко о проекте «Прожито» и его перезапуске

Проект «Прожито» начался с небольшой группы волонтёров, собиравших и оцифровывавших личные дневники. Сегодня это крупный центр по цифровой архивации эго-документов: дневников, мемуаров, писем и других личных свидетельств времени. Основатель «Прожито» Михаил Мельниченко рассказал «Системному Блоку» о том, кто и как приносит документы для оцифровки, откуда берутся тысячи волонтёров и как изменится «Прожито» в ближайшем будущем.

Забытые голоса истории: граффити древнего храма переходят в цифру

Как лазеры и трехмерное моделирование помогают изучать древние изображения на стенах храма богини Исиды на египетском острове Филы? Рассказываем о цифровом проекте «Граффити Храма Фил».

Больше, чем энциклопедия: 4 истории о том, что такое Википедия

Почему Википедия — сообщество с иерархией? У кого она стала ассоциироваться с либеральными идеями? И в каких отношениях «свободная энциклопедия» находится с большими корпорациями? Об этом и многом другом — в новом материале «Системного Блока» к 23-летию Википедии.

Удалить из друзей: история tie-breaking («расфренживания») в соцсетях

Социальные сети позволяют установить контакт практически с любым человеком на планете. С приходом цифровой коммуникации появилась возможность не только публично зафиксировать социальный статус между людьми («Добавить в друзья»), но и отменить его («Удалить из друзей» или «Заблокировать»). «Системный Блокъ» разобрался, как за двадцать лет изменилась функция разрыва контактов в цифровой среде.

Как появились смайлики: тест на знание эмодзи ✅ ❌ 🎉

Как появились смайлики? Где их больше всего используют? Какой самый популярный? А можно ли написать и понять целое предложение только из картинок? Пройдите тест и узнайте, насколько вы разбираетесь в эмодзи.

История форматов музыки: От Эдисона до Spotify

Какой была первая песня, записанная на носитель? Что можно считать первым музыкальным альбомом? Как менялся характер прослушивания музыки по мере развития технологий? В чём сходство стримингов с радио? Рассказываем об истории звукозаписи и музыкальных форматов.

Читаем секретные письма опальной королевы: историческая криптография на примере Марии Стюарт

Расшифровка старинных кодов и древних систем письменности роднит работу историка с детективным расследованием. Это требует от учёного не только недюжинных способностей к анализу искусственных знаковых систем, но и хотя бы поверхностного знакомства с теорией вероятностей и другими математическими дисциплинами. На примере эпистолярного наследия Марии Стюарт рассказываем, как историку, который занимается разгадкой старинных шифров, могут помочь дата-инженеры и разработчики нейросетей.

Танцы, эрос и зачатие: о чем писали «Платоновские исследования» за последние 10 лет

В 2024 году исполняется 10 лет с журналу «Платоновские исследования» — первому научному изданию в России, посвященному Платону и платоновскому наследию. Историк философии, доцент НИУ ВШЭ Ольга Алиева построила тематическую модель архива журнала при помощи алгоритма LDA и узнала, какие темы на протяжении этих лет интересовали платоноведов.

Оксана Мороз, интервью для издания Системный Блокъ

Что происходит в интернете: Оксана Мороз о цифровом бессмертии и языке онлайн-скорби

Почему в онлайн-среде люди ведут себя более агрессивно? Можно ли обрести бессмертие с помощью «цифры»? В чём феномен коллективного интернет-горевания? Об этом в интервью изданию «Системный Блокъ» рассказала Оксана Мороз, культуролог, исследователь цифровой среды, академический руководитель образовательной программы НИУ ВШЭ «Практики кураторства в современном искусстве».

«Системный Блокъ»: лучшее за 2023 год

По традиции 31 декабря «Системный Блокъ» публикует подборку лучших материалов уходящего года. В 2023-м в подборке есть стилометрия Набокова, интервью об исторической информатике, открытка из варшавского гетто, дата-исследование поляризации российских СМИ, предсказание появления ChatGPT от современника Пушкина… С Новым годом!

Рецепт Нобелевской премии: исследуем открытые данные о лауреатах

10 декабря в Стокгольме Нобелевский комитет наградил лауреатов 2023 года. По этому поводу мы изучили сведения о том, кому вручали премию в течение всей её истории — с 1901 года. Теперь мы знаем, где нужно родиться, в каком университете работать и до скольких лет ждать, чтобы получить признание комитета. Эти и другие наблюдения — в нашем новом материале.

Как цифровые методы спасают людей от аварий?

Власти Нью-Йорка решили к 2024 году снизить число аварий с летальным исходом до нуля. Для этого была создана цифровая карта безопасности уличного движения Vision Zero. «‎Системный Блокъ» разобрался, как цифровые данные помогают спасать людей от аварий.

Краш-тест для любителей дешёвых драм

Применить цифровые технологии к пьесам Шекспира? Да легко! Если вы хотите проанализировать связи между персонажами драматических текстов, то в этом вам поможет интернет-ресурс DraCor. Пройдите наш тест и проверьте, насколько хорошо вы знаете, как работает DraCor!

Из России — с данными. Узнайте регион по статистике

Тест о том, как числа могут рассказывать о социальных проблемах. Узнайте, насколько хорошо вы представляете себе Россию

От корпусов до карты бомбардировок Хиросимы: Digital Humanities в Японии

Оцифровка данных о землетрясениях в Японии, эталонный корпус японского языка на DVD, интерактивная карта бомбардировки Хиросимы, изучение буддийских текстов. Посмотрим, чем сегодня занимаются цифровые гуманитарии в Японии и как они это делают.