Вспоминайте иногда вашего студента: изучаем базу данных средневековых университетов

Средневековые студенты часто перемещались из одного университета в другой, чтобы получить всестороннее образование и ученую степень. Все это, наряду с их происхождением, статусом и другими характеристиками, тщательно документировалось. В результате сегодня ученые могут создавать базы данных выпускников и преподавателей прошлого. Об одной из них — Repertorium Academicum Germanicum — рассказываем в нашем новом материале.

Специальные рубрики

Наши статьи

OpenAI против китайского ИИ, новая open-source модель от Google и Mistral Small

OpenAI выступила за ужесточение доступа к чипам, экспортируемым из США, Google и Mistral обновили свои открытые модели — что произошло в мире ИИ за последнее время.

Цифровая библиотека японской литературы Aozora Bunko

Aozora Bunko — это цифровая библиотека, где собраны произведения японской классической литературы, которые находятся в открытом доступе. «Системный Блокъ» рассказывает, как устроена библиотека, какие правовые нормы приняты в Японии и о том, как автоматически собрать свой корпус из материалов «Аодзора-бунко».

ИИ без правил: как ОАЭ бьется за первые позиции в новой AI-экономике

Могут ли Объединенные Арабские Эмираты конкурировать с мировыми державами за первенство в сфере искусственного интеллекта? Рассказываем, что ОАЭ делают (а также НЕ делают) для того, чтобы к 2031 году стать лидером в области ИИ, и как страна реагирует на риски, связанные с быстрым развитием генеративного ИИ.

Технологии в Большом египетском музее: 3D-модели, VR и цифровой двойник

Большой египетский музей (The Grand Egyptian Museum) в Гизе — огромный проект-долгострой с самой большой коллекцией египетских древностей. Рассказываем, как цифровые инновации вписались в проектирование и строительство музея.

Как 3D-моделирование спасает памятники древнерусской письменности: Corpus Inscriptionum Rossicarum

Могут ли новые технологии помочь прочесть нечитаемую древнюю надпись на камне? Как трехмерные модели старинных надгробий, крестов, камней и эпиграфических табличек позволяют не только сохранить эти памятники в цифровой форме, но и добыть новое знание о прошлом? Знакомимся с проектом «Свод русских надписей», проблемами работы эпиграфистов и тем, как решать насущные проблемы в этом направлении.
Благодарим за помощь в написании статьи сотрудника проекта «Свод русских надписей» Анну Зиганшину.

Стилометрия и древнескандинавская литература: определение авторства исландских саг

Можно ли применять алгоритмы определения авторства к текстам древних исландских саг? Какие гипотезы о создателях этих текстов помогает подтвердить метод дельты, который ранее применяли для поиск поддельных стихов XIX века и раскрытия псевдонима Джоан Роулинг? Рассказываем про исследование исландского лингвиста Хёйка Торгейрссона.

Огромная GPT, новая модель от Anthropic и OCR от Mistral

Более человечная GPT-4.5, новая флагманская модель от Anthropic и OCR от Mistral — что произошло в мире ИИ за последнее время.

Подборка к 8 Марта: неравенство, женщины в DH и гендерная социолингвистика

В честь Международного женского дня мы собрали для вас подборку полезных и познавательных публикаций, в которых мы напоминаем о сферах, где все еще сохраняется неравенство, изучаем, чем занимаются DH-исследовательницы, и ищем различия между мужской и женской речью.

Люди чуть не вымерли 20 тысяч лет назад: об этом рассказали их геномы и зубы

Кто из древних людей пережил последний ледниковый период, а кому холода принесли смерть и исчезновение навсегда? Как останки зубов помогли открыть «бутылочное горлышко», через которое прошло всё человечество и едва не вымерло? Рассказываем, как палеогенетики изучали ранние миграции людей в Европе и выясняли, какие популяции Homo Sapiens исчезли навсегда

Деньги в руки, ИИ в помощь: как искусственный интеллект помогает благотворительности

Рутинная работа и борьба за ресурсы изматывают благотворительные организации, но технологии могут стать их спасением. Искусственный интеллект уже помогает находить доноров, писать гранты и прогнозировать социальные изменения. Рассказываем, как технологии помогают решать глобальные задачи благотворительности и какие риски они несут в мир добрых дел.

Вас слили: как личные данные утекают через онлайн-сервисы и умные устройства

Вы закончили писать рабочий отчет, перевели его, проверили онлайн на плагиат и отправили в зарубежный филиал. И… теперь отчет может быть доступен не только иностранным коллегам, но и любому пользователю, умеющему гуглить. Звучит как паранойя? Вовсе нет. Утечка данных через онлайн-сервисы — реальная угроза. В чужих руках оказывается и безобидная переписка, и конфиденциальная информация. Рассказываем, как личные данные попадают в открытый доступ через редакторы текста, переводчики, антиплагиат-сервисы и умные колонки.

Как это будет по-русски? Цифровые технологии для изучения русского как иностранного

Как учить русскому языку иностранцев? Как перестать путать звуки [ы] и [и], если русский для вас не родной? Как технологии помогают понять Толстого и Достоевского в оригинале? В статье собрали основные цифровые инструменты для изучения русского языка как иностранного.

От периодики до личных документов: как работает контент-анализ исторических источников?

Как на базе мемуаров можно вычислить характер исторических личностей? О чем писали в газете заключенных на Соловках? Как с помощью анекдотов разобраться в перипетиях отношений между советской властью и гражданами? «Системный Блокъ» рассказывает, что такое контент-анализ и как в историческую науку внедряются цифровые методы.

Новая LLM от Маска, генератор видео от Google стал доступен, стартап бывшей техдиректрисы OpenAI

Лаборатория Илона Маска обновила модель Grok, лучшая нейросеть для генерации видео от Google стала доступна, бывшая топ-сотрудница OpenAI рассказала про свой новый стартап — что произошло в мире ИИ за последнее время.

Паузы в словах: ИИ учится диагностировать болезнь Альцгеймера по речи

Болезни Альцгеймера подвержены миллионы людей по всему миру, и с каждым годом число заболевших продолжает расти. Однако традиционные методы диагностики этого заболевания имеют свои ограничения, что делает их недостаточно эффективными. Рассказываем, как искусственный интеллект и анализ речи могут предложить новый способ решения этой сложной проблемы.

Онлайн-словари японского языка

Где искать в интернете японские словари? Какие из них вызывают доверие у востоковедов-японистов? «Системный Блокъ» рассказывает об онлайн-словарях японского языка и их особенностях. Три системы письменности, развитая лексическая многозначность, непростая история японского языка и культуры — все это определяет, как выглядят словари в цифровую эпоху

Пушкин <цифровой>: два века работы в одном интерактивном издании

В 2024 году А. С. Пушкину исполнилось 225 лет, а его фамилия стала словом года. Возможно ли собрать двухсотлетнее наследие Пушкина и пушкинистики в единую систему? Рассказываем о проекте, который сэкономит фанатам поэта 58 лет чтения.

Какие языковые модели (LLM) хорошо пересказывают истории

Иногда сложно понять, что же хотел сказать автор своим сочинением, а пересказать текст кажется нереальной задачей — из-за необычной структуры повествования или при использовании разных рассказчиков. Как справляются с подобными задачами LLM? Ученые Колумбийского университета спросили у самих писателей.

Жизнь и связи древних римлян: о чем могут рассказать просопографические базы данных?

Просопография занимается тем, что собирает данные о жизни и связях людей прошлого. Оцифрованные просопографические базы могут много рассказать о круге общения или перемещениях целых социальных групп или классов. На примере проекта Romans One by One рассказываем, как историки собирают такие базы, анализируют их и какие драматические сюжеты там могут скрываться.

Как можно улучшить ответы языковых моделей? Гайд по промтам

Можно ли повысить качество ответов языковых моделей с помощью более продуманных промтов? Как сделать так, чтобы ответы LLM следовали определенному формату? Как заставить модели объяснять свои ответы? Рассказываем о методах формулирования эффективных запросов к LLM в нашем материале.

Шум вокруг DeepSeek, «глубокий ресерч» от OpenAI, новые LLM от Google

Что происходит после выхода нашумевших моделей от DeepSeek, как работает новый автономный исследователь от OpenAI, какие обновления получили LLM семейства Gemini от Google — рассказываем, что произошло в мире ИИ за последнее время.

«Дисциплинировать литературоведческую мысль может только рациональный метод»: научное завещание Бориса Ярхо

Борис Ярхо — один из самых недооцененных филологов знаменитого поколения «русских формалистов» 1910-х — 1920-х. В отличие от куда более известных Проппа, Шкловского, Тынянова и Эйхенбаума, Ярхо оставался неизвестен на Западе и малоизвестен в России вплоть до начала XXI века, когда его пионерские работы по количественному литературоведению стали актуальны с приходом цифровых методов. Чтобы немного восстановить справедливость, «Системный Блокъ» подготовил «посмертное интервью» с Ярхо на основе его главной книги.

«Гипотеза Поллианны»: насколько позитивна детская зарубежная литература?

Что такое «гипотеза Поллианны»? Как она проявляется в зарубежной детской и юношеской литературе? Какие существуют методы, чтобы ее подтвердить или опровергнуть? В материале рассказываем о том, как исследователи провели сентимент-анализ корпусов англоязычной и немецкоязычной детской литературы и какие результаты они получили.

Наперекор всему. Как выживают правосторонние шрифты в цифровом пространстве?

Адаптированы ли современные цифровые инструменты для работы с системами письменности, которые пишут справа налево, как арабская вязь или еврейское письмо? Как «сломать» Word или VS Code, смешав текст на латинице и арабице? И почему крупные разработчики ПО не обращают внимание на эту проблему?

Как биологи и лингвисты вместе изучают эволюцию языков

Язык — естественная система. Он распространяется, развивается и даже мутирует, подчиняясь законам естественных наук. Можно ли с его помощью реконструировать эволюцию человечества? Рассказываем, как генеалогические деревья объединили биологов и лингвистов и какой вклад в языкознание внес Чарльз Дарвин.

Дата-центры стоимостью 500 млрд долларов, ИИ-агенты и открытый конкурент OpenAI o1

OpenAI и SoftBank должны создать инфраструктуру для ИИ стоимостью 500 млрд долларов по предложению Дональда Трампа, сразу несколько компаний выпустили ИИ-системы для автоматического выполнения задач на компьютере, китайская DeepSeek выложила конкурента модели o1 от OpenAI в открытый доступ — что произошло в мире ИИ за последнее время.

Сложно ли учиться в Zoom после 55: как устроено цифровое образование для старших возрастов

После 55 лет жизнь человека словно замедляется и становится менее интересной… но точно не для тех, кто даже в таком возрасте не боится сесть за парту и шагнуть навстречу новым знаниям и технологиям. В нашем материале читайте о том, что сфера цифрового образования сейчас предлагает самым старшим.

Письменности Западной Африки в цифровом мире

Западная Африка — место жительства более 450 млн человек, говорящих на сотнях разных языков. Это регион огромного культурного, этнического и языкового разнообразия. Рассказываем, как некоторые из западноафриканских языков обрели свою письменность, как она сохраняется и распространяется в цифровом мире и почему это помогает людям заявить о своей идентичности.

Взламывая шифр Зодиака: как энтузиасты разгадали послание серийного убийцы

Современные технологии хорошо помогают в криптоанализе: программы, перебирающие тысячу вариантов за несколько секунд, в разы превосходят возможности человека. Однако слепого применения софта недостаточно, особенно если речь идёт о самом приоритетном неразгаданном шифре в списке ФБР — криптограмме серийного убийцы Зодиака. В новом материале разбираемся, какие вообще бывают шифры, почему шифр Зодиака не могли дешифровать на протяжении 50 лет и как криптографам всё-таки удалось его раскусить.

¡Escándalo! Классификаторы токсичности против drag queens

Со словами I don’t need luck. I’m about to slay this thing дрэг-королева Miss Vanjie отправляется покорять жюри реалити-шоу RuPaul’s Drag Race. «Это на 33% токсичное высказывание. Не желаете заблокировать?» — говорит ИИ. Разбираемся, почему классификаторы токсичности иногда и сами не прочь «потоксичить».

Играем по-серьёзному: как Serious Games меняют подход к обучению

Современное образование требует современных подходов, которые помогут ученикам и студентам не просто выучить, но понять материал. Одно из решений — серьёзные игры, симбиоз обучения и игры. Что это такое? Есть ли исследования, подтверждающие пользу серьёзных игр? В чём отличия от обычных компьютерных игр и симуляторов? Спойлер: серьёзные игры действительно ведут к серьёзным успехам.

Прогулка по древней Москве: виртуальная реконструкция Белого города

Как реконструировать исторический облик города, который постоянно меняется? Гуляем по Белому городу Москвы XVI–XVIII веков вместе с проектом исторического и механико-математического факультетов МГУ.

История развития диалоговых систем: от распознавания цифр до Siri

В какой момент чат-боты стали повсеместными онлайн-собеседниками? И как у них получается воспроизводить естественный разговор? Краткий обзор того, как говорящие машины постепенно учились и становились более человечными.

Думать или делать: исследуем глаголы в английской литературе

Что важнее для создания целостного образа персонажа в литературе: его слова или его действия? Как выбор глаголов отражает индивидуальность героя? Рассказываем о недавнем исследовании корпуса английской прозы, которое даёт ответы на эти (и не только) вопросы.

k-pop

Как английский вытесняет корейский в K-pop музыке: анализ данных и визуализация

Как международная популярность корейских поп-групп повлияла на тексты их песен? Как часто исполнители используют английские слова? Как отличаются песни о любви у мужских и женских групп? Этими вопросами задались студенты-востоковеды из Высшей школы экономики. Публикуем результаты их исследования.

Разметка по правилам: как Национальный корпус русского языка помогает изучать орфографию

Ветреный или ветренный, ожёг и ожог, приставки пре- и при-, стеклянный, оловянный, деревянный... В жизнь каждого школьника рано или поздно приходит экзамен по русскому языку, а нудные примеры из учебников вызывают скуку. А если взять произведения, которые читают сами дети, и разметить в них сложные места русской орфографии? Именно такой инструмент готовят в Национальном корпусе русского языка. Эллина Куцевал, создательница алгоритма, рассказывает, как создавалась разметка.

Тест: угадайте, Путин или нейросеть

Мы попросили нейросети сгенерировать новогодние обращения Владимира Путина, стилизуя их под разные года и события. Пройдите тест и проверьте, сможете ли вы отличить настоящее обращение президента России от созданного нейросетью.

«Системный Блокъ»: лучшее за 2024 год

В 2024 году «Системный Блокъ» опубликовал 180 материалов. В этом посте мы рассказываем о наших итогах года: о запуске новых рубрик, лучших публикациях, создании DH-портала и других новостях. Несмотря ни на что, наша команда собирала для вас всё самое интересное из сферы цифровых гуманитарных исследований. Это наш способ сделать мир — если не лучше, то хотя бы понятнее.

Новые рассуждающие модели от OpenAI и Google, open-source-конкурент GPT и Claude

Новая модель o3 от OpenAI вырывается вперёд, китайская DeepSeek создала конкурента для лучших LLM, Google выпустила свою первую рассуждающую модель — что произошло в мире ИИ за последнее время.

Визуализируя воспоминания: как AR- и VR-технологии погружают в прошлое

Прошлое, какое бы оно ни было, всегда удостоено особого отношения к себе. События можно забыть или, наоборот, вернуть из глубин памяти. Исторический опыт влияет на человека: меняет его и выстраивает его представления о действительности. У современного человека появились новые инструменты сохранения памяти. Исследуем, как цифровые технологии помогают сохранять и переживать опыт прошлого.

Как изучать наскальные изображения оленей Чукотки с помощью нейросетей

Петроглифы — небольшие древние наскальные изображения — часто сложно датировать и атрибутировать. При этом для некоторых рисунков может быть очень много однотипных образцов — например, таковы петроглифы с изображениями оленей в долине чукотской реки Пегтымель. Выпускница магистратуры Digital Humanities НИУ ВШЭ рассказывает, как можно классифицировать петроглифы по типам при помощи нейросети.

Холм невзгод: когда наступает возраст несчастья

Официально диагноза «кризис среднего возраста» не существует. Но что происходит в этот период? Узнаем, как связаны возраст и несчастье и почему кривая несчастья похожа на холм.

Создай метательный аппарат и пробей крепостную стену: как понять науку через симуляторы

Хотите смоделировать процесс эволюции или работу человеческого глаза? Не можете разобраться в баллистике? Тогда воспользуйтесь интерактивным симулятором. Мы собрали самые интересные и рассказали, как они делают науку понятней и ближе.

Иллюстрация: Надя Луценко

Как провести анализ тональности текста

Эмоции и их выражение в тексте — важная часть человеческой коммуникации. Но как зафиксировать эти тонкие и динамичные изменения, особенно в больших текстах? Как формально визуализировать эмоциональное содержание текста, превратив его в график? Ответы на эти и многие другие вопросы можно получить, построив кривые эмоциональной тональности выбранных текстов. О том, как это сделать, вам расскажет этот гайд!

Новинки от OpenAI, новая LLM от Google, модель для генерации изображений от лаборатории Маска

OpenAI составляет «адвент-календарь» из новых релизов, Google обновил свою LLM, а xAI Илона Маска выпустила нейросеть для генерации изображений — что произошло в мире ИИ за последнее время.

Бешеный принтер 2020–2022: как плодятся «чрезвычайные» законы

Чрезвычайные события, такие как пандемия или военные действия, порождают ограничительные законы. При этом многие законодательные изменения, изначально принимавшиеся как «чрезвычайные», оказываются долгосрочными и становятся нормой. Например, «ковидные ограничения» уже пять лет выступают формальной причиной запрета акций протеста. Рассказываем, как политологи исследуют переход временных ограничительных мер в постоянные, опираясь на статистику законотворчества.

A real area: что такое ареальная типология и как её изучают цифровыми методами

В мире почти 7000 языков, и они очень разные. Лингвистическая типология — раздел науки о языке, описывающий эти различия. Часто, хотя и не всегда, сходство языков обусловлено географически — тогда языки можно даже объединить в языковые ареалы. Но выделять их вручную — задача трудоёмкая и полная неоднозначностей. Тут на помощь исследователям приходят вычислительные методы.

Утечка доступа к Sora, открытые аналоги OpenAI o1, протокол общения между LLM и приложениями от Anthropic

Художники, получившие доступ к модели для генерации видео Sora от OpenAI, слили доступ в сеть, китайские лаборатории выпустили модели-аналоги OpenAI o1, Anthropic представила открытый протокол общения между LLM и приложениями — что произошло в мире ИИ за последнее время.

Учебники советской школы: возрождение в цифре

Век цифровых технологий и новых образовательных стандартов не смог стереть интерес к старым, в том числе советским и дореволюционным, учебникам. Почему люди продолжают искать эти книги? Рассказываем в нашем исследовании архивов учебной литературы. Где их можно найти, кто их оцифровывает и что привлекает читателей?

«Все мы немножко более дикие, чем могли бы быть»: интервью с Даниилом Скоринкиным

Что важнее: наука, преподавание или популяризация науки? Чем отличаются Digital Humanities в России и за рубежом? Какова цель существования «Системного Блока»? Свои ответы на эти вопросы дал главный редактор нашего издания Даниил Скоринкин.

Языковые модели упёрлись в потолок, AlphaFold3 в открытом доступе, новые LLM для генерации кода

Компаниям, работающим над языковыми моделями, стало сложнее их улучшать, нейросеть для расшифровки белков AlphaFold3 теперь доступна исследователям, новые версии моделей от Qwen для генерации кода — что произошло в мире ИИ за последнее время.

Как найти в геноме проблему? Зачем секвенировать здоровых людей

Секвенирование генома — это способ «прочитать» ДНК человека, который преобразил генетику и уже стал частью рутинных исследований. Сегодня этот метод используют, чтобы точнее ставить диагнозы при генетических заболеваниях и выявлять редкие мутации. Но как диагностике помогает массовое секвенирование геномов здоровых людей? Рассказываем в нашем материале.

Поисковики с ChatGPT и Gemini, новые релизы от Anthropic, открытые модели для генерации видео

OpenAI и Google объединяют LLM и поисковые системы, Anthropic обновила свои языковые модели, а компания Genmo выпустила самую большую на сегодня открытую модель для генерации видео с 10 млрд параметров.

Машинное обучение и японская уличная мода: как возникают и распространяются стили

Зачем компьютерные науки изучают уличную моду? Можно ли с помощью цифровой базы изображений одежды предсказывать появление и угасание новых стилей? Правда ли, что женский костюм отражает экономическое состояние страны? На примере японского цифрового архива моды CAT STREET рассказываем об исследованиях на стыке антропологии и машинного обучения.

Тысяча монгольских буддистских монастырей на одной интерактивной карте

Интересуетесь буддизмом, Внутренней Азией, Монголией? Посмотрите на карту более чем тысячи буддистских монастырей на территории Монголии! Рассказываем про онлайн-проект Mapping a Thousand Buddhist Monasteries in Mongolia, где помимо карты монастырей можно найти устные истории, образцы религиозной живописи, биографии лам.

Нобелевские премии за нейросети, ИИ-функции в приложениях Adobe, новые модели от Mistral

Две нобелевские премии вручены за работы, связанные с машинным обучением, Adobe добавила новые ИИ-функции в свои продукты, Mistral представила новые компактные языковые модели — рассказываем, что произошло в мире ИИ за последнее время.

10 слов машинного обучения

Что такое языковые модели, как их обучают и зачем нужна тестовая выборка? Объясняем основные термины машинного обучения.

Тест: угадайте произведение по частотным словам из Национального корпуса русского языка

В каком произведении школьной программы умирают лягушки, а в каком — скачут блохи? Пройдите наш тест на основе Национального корпуса русского языка и попробуйте отличить Гоголя от Салтыкова-Щедрина, а Лермонтова от Блока.

Гендерное неравенство в литературе: от персонажей до писательниц

Проблема гендерного неравенства заметна во всех сферах общества — в том числе в литературе. Писательниц было традиционно меньше, чем писателей, сюжетные линии между персонажами разного пола представлены неравномерно, а гендерные стереотипы касаются и героев, и героинь произведений. В подборке материалов «Системного Блока» мы рассказываем о роли женщин в литературном процессе и о том, почему представители обоих полов по-разному воспринимаются как авторами, так и читателями.

Что изучают антропологи в интернете? Подборка материалов «Системного Блока»

Развитие интернета и цифровых технологий открыло новое поле исследований для антропологов. Учёные осознали, что в онлайн-среде формируются уникальные сообщества, культуры и практики, которые можно и нужно изучать. Публикуем подборку наших материалов о цифровой антропологии. Из неё вы узнаете, какие методы можно применить к исследованию интернет-пространства, как за последние 40 лет изменились интернет-интерфейсы и зачем собирать слухи в соцсетях?