Читать нас в Telegram

Собери их всех: как record linkage помогает обогащать большие биографические данные

Сейчас историки всё чаще уделяют внимание не столько выдающимся деятелям прошлого, сколько целым группам людей, жившим в ту или иную эпоху. Это неудивительно — ведь с появлением больших исторических баз данных стало проще анализировать множество биографий одновременно. Автоматизировать обработку данных об одних и тех же людях в разных базах помогает сопоставление данных, или record linkage.

Публикация недели

Блоги

Фото автора

Алексей Серегин

Ведущий научный сотрудник биологического факультета МГУ, доктор...

Дрыц-тыц, помогатор

Слова детской песенки засели где-то глубоко внутри и в нужный момент подвернулись под язык, когда зашла речь о создании краудсорсингового модуля Цифрового гербария МГУ
Фото автора

Борис Орехов

Гуманитарий среди компьютерщиков, компьютерщик среди гуманитариев

Эзотерика программирования

Поэзия и программирование. Очень далекие одна от другой области. Но есть ли у них точки пересечения? Они сходятся в чарующей и прекрасной зоне бесполезного.
Фото автора

Алексей Богданов

Лингвист, кандидат филологических наук, бывший ученый, дата...

Правильность в языке: а судьи кто?

Кто решает, что звОнит — это неправильно, а «кофе» мужского рода? И главное, откуда у этого кого-то знание о том, как правильно? Продолжаем разбираться с «нормой» в языке.

Наши статьи

С приветом из Англии: у мультиязычных языковых моделей обнаружился «английский акцент» 

Если вы выучили иностранный язык во взрослом возрасте, вполне вероятно, вы говорите не нем не так же бегло, как носитель языка. Оказывается, подобная проблема встречается и у мультиязычных моделей: если в обучающей выборке для них преобладает английский, текст на других языках они будут генерировать «с английским акцентом». Объясняем, почему так происходит и что можно с этим сделать.

Еврейская культура в музеях РФ и США: в чем разница и как ее объяснить

Музейные коллекции пополняются очень разными способами: в разное время туда попадали и военные трофеи, и частные покупки коллекционеров. Ну а сами музеи существуют не в вакууме, и конечно на отбор экспонатов влияет политика, идеология, государственное и общественное устройство. Разбираемся в том, каким искажениям подвержены цифровые музейные коллекции, на примере еврейской культуры.

Как писатели XIX века предсказали мессенджеры, интернет на Марсе и нейросети

Научная фантастика в русской литературе имеет давнюю историю. Писатели XIX и первой половины XX века предсказали многое: от телевидения до космических полетов. А насколько хорошо они предвидели современные информационные технологии? Удивительно, но современники Пушкина и Толстого смогли предсказать мессенджеры, генеративные нейросети, 3D-кино и что-то вроде интернета на Марсе.

«Всех благ вам земных и небесных»: подборка открыток из корреспонденции духовных лиц

Закрытая жизнь святых обителей всегда представлялась чем-то таинственным и малоизвестным. Жизненный уклад духовных лиц разных исторических периодов всегда вызывал интерес исследователей, писателей и художников. Одним из проводников в повседневную жизнь служителей церкви являются эпистолярные источники личного характера — частная переписка. Здесь команда «Пишу тебе» собрала открытки, которые получали и отправляли представители православного духовенства и монахини в начале XX века.

Виртуальные кладбища: от кладбищ геймеров до кладбищ домашних животных

Разбираемся, какие есть виды виртуальных кладбищ и почему некоторые виды приобретают отклоняющиеся формы.

Виртуальные кладбища: можно ли создать себе цифровой памятник?

Разбираемся, что такое виртуальные кладбища и пробуем понять, как трансформируется отношение к кладбищам в новой реальности.

«Системный Блокъ»: лучшее за 2022 год

В 2022 году «Системный Блокъ» опубликовал 247 материалов. В этом посте мы сформулировали краткие итоги ушедшего года: открытие дата-отдела, оцифровка новых открыток, свежие интервью, тесты и инфографики, а также подборка лучших постов за весь год. Но самое главное в тяжелом 2022-м — это наша поддержка друг друга. Лучи этой поддержки мы шлем читателям и в новый 2023 год!

«Персоналистские диктатуры чаще начинают войны»: Эрика Франтц об автократиях, Украине и поводах для оптимизма

Системный Блокъ поговорил с политологом Эрикой Франтц о недемократических режимах, диктаторах и возможностях перехода к демократии. Спойлер: наши шансы на демократический транзит невысоки, но они есть.

Цифровое и классическое искусство: точки соприкосновения

Что общего у нейросети и Рафаэля? Разбираемся, почему цифровое и классическое искусство не так далеки друг от друга, как мы привыкли думать.

Спасая наследие: как активисты сохраняют культуру Украины

Культурное наследие — еще одна жертва военного конфликта. Уничтожение культуры разрушает историю народа. Активисты проекта по спасению культурного наследия Украины SUCHO продолжают сохранять историю и культуру украинского народа, перенося уникальные данные в цифру.

Тест: что загадать под бой курантов?

Нет поздравления лучше, чем красивая открытка. Команда «Пишу тебе» поздравляет вас с наступающим новым годом!

«Говорить о войне небесполезно»: Динара Гагарина о Digital Humanities в России после 24 февраля

Динара Гагарина — основательница магистратуры по цифровым методам в гуманитарных науках в Пермском филиале НИУ ВШЭ, а также один из главных популяризаторов Digital Humanities в России. В октябре из-за антивоенных постов Динару Гагарину отстранили от руководства магистратурой, а саму магистратуру попытались закрыть. В этом интервью мы обсудили с Динарой, как ей удалось отстоять магистратуру, удастся ли властям милитаризация образования и что будет с Digital Humanities в России после 24 февраля 2022.

Что говорит о персонажах «Войны и мира» их речь

Из уроков литературы мы помним долгие обсуждения монологов героев в «Войне и мире» Льва Толстого. Но что, если взглянуть на прямую речь персонажей под другим углом? Рассказываем, как цифровые методы анализа прямой речи персонажей помогают узнать, кто из героев ближе всех к светскому обществу, у кого самая «живая» и самая «сухая» речь, и в чем драматическое различие между речью Наташи Ростовой и Андрея Болконского.

«Пузырь фильтров» знает о вас всё: что это такое и как он формирует медиапотребление

За последние месяцы русскоязычная аудитория СМИ и соцсетей резко поделилась на два лагеря ― на тех, кто поддерживает СВО и тех, кто выступает против. Люди получают и воспроизводят совершенно разную информацию о боевых действиях в Украине. Одна из причин ― «пузырь фильтров» . Рассказываем, что такое эффект пузыря и как его можно «проткнуть»

Скифия, Египет, Вавилон: как цифровые методы помогают в изучении средневековых карт

По сравнению с современными картографическими сервисами старинные средневековые карты выглядят загадочно и непонятно. Точно так же до недавнего времени на них смотрели и ученые. Но сегодня с помощью цифровых методов можно узнать чуть больше о средневековых представлениях о мире.

Лазеры, GPS и камера на 360 градусов: как студенты сделали 3D-тур по церкви X века

Тотальная станция, GPS, лазерный сканер, камера на 360 градусов, термокамера — что это за приборы, как ими пользоваться и зачем они нужны? Участники летней школы в Италии за неделю с помощью этих приборов создали виртуальную прогулку по монастырю Сан Саба, 3D-модель части здания и виртуальную реконструкцию фресок. Одна из участниц проекта рассказала подробности «Системному Блоку».

«Наповал из револьвера» и укус кролика: любимые открытки расшифровщиков «Пишу тебе»

Любовные и дружеские стихотворения, поздравления и рассказ об убийстве во время отдыха, счастливое спасение с парохода и кролики, прейскурант и тоска по родине… Каждый день волонтеры проекта «Пишу тебе» трудятся над расшифровкой открыток и знакомятся с удивительными историями жизни людей разных эпох, с их маленькими и большими радостями и даже трагедиями. Представляем вам подборку самых интересных находок от участников проекта.

Юдифь vs Саломея: какой библейский сюжет всему голова?

Две библейские героини — неприступная Юдифь и обольстительница Саломея — очень непохожи друг на друга. Но в истории каждой из них фигурирует голова погубленного мужчины. Поэтому в живописи их изображали удивительно похоже. C помощью викиданных мы выяснили, какая из двух героинь пользуется большей популярностью, и попытались понять почему.

Капитализм слежки: как нас продают корпорациям, государству и хакерам

Нам говорят: «Мы используем файлы cookies для вашего удобства» — но просил ли я об этом удобстве? Мы ставим галочку «Я согласен на обработку персональных данных» — а если не согласен? Нас уверяют: «Мы не продаем персональные данные третьим лицам» — а как проверить? Разбираемся, почему в Интернете нас везде просят на что-то согласиться и что на самом деле за этим стоит.

Что такое взлиза и кто носил чаплыжку: цифровое «Слово Толстого»

23 ноября команда Tolstoy Digital запустила сайт «Слово Толстого» – первый цифровой путеводитель по необъятному наследию писателя

Шизофрения, эпилепсия, сломанные руки: что гуглили россияне после объявления мобилизации в России

Как сломать руку, каковы симптомы психических болезней, есть ли списки мобилизованных… «Системный Блокъ» продолжает изучать, что искали россияне в поисковиках после объявления частичной мобилизации.

Эволюция приемов в кино: фильмы с нарушенной хронологией

Людьми часто движет любопытство. Мы хотим узнать, чем кончится история, были ли мы правы, что же автор всё-таки имел в виду, и так далее. Поэтому мы ходим на квесты, участвуем в викторинах и… смотрим фильмы, где ничего не понятно, но всё очень интересно. А некоторым учёным интересно, почему это интересно нам — об этом и будет наша статья.

Культурная дипломатия: о чем рассказывал советский стоматолог в открытках из США и Германии?

«Шумно, дергано, стук ужасный» — среди материалов «Пишу тебе» обнаружились открытки знаменитого советского стоматолога, отправленные из Америки и Германии. О том, зачем врач путешествовал за границу и при чем здесь международная культурная политика — в статье Системного Блока.

Что такое гражданская наука и как участвовать в контроле воздуха

Можно ли принимать участие в экологических проектах, не будучи экологом? Можно! Ведь существует гражданская наука. Рассказываем, как каждый из нас может внести вклад в мониторинг чистоты воздуха.

«Скорого конца войны не предвидится»: русско-японская война в открытках

Уже восьмой месяц длятся полномасштабные боевые действия на территории Украины. Так называемая «специальная военная операция» превратилась в затяжной позиционный конфликт. В историческом контексте ситуация отчасти напоминает ход русско-японской войны 1904-05 гг. Именно с ней и связано крылатое выражение «маленькая победоносная война».

Chekhov Digital: как Чехов писал письма жене и куда течет время в его текстах

Знали ли вы, что слово «время» в произведениях А. П. Чехова имеет определенные схемы употребления, повторяющиеся от тома к тому? Могли ли подумать о том, что письма к любимой супруге Ольге Леонардовне драматург писал как к чужому человеку? Как связаны стили Чехова-писателя и Чехова-личности? Ответы на эти вопросы читайте в продолжении статьи о семантическом издании Chekhov Digital.

Терменвокс: на чем играли Ленин и Шелдон Купер и как с этим связана машина времени

Помните, как Шелдон Купер из «Теории Большого взрыва» учился играть саундтрек «Звездного пути» на терменвоксе? Появление этого инструмента в сериале неслучайно: Шелдон, фанат технологий, не мог не заинтересоваться первым в мире электронным музыкальным инструментом, созданным физиком и музыкантом Львом Терменом.

Что ищут россияне в поисковиках после объявления мобилизации в России

Официально о частичной мобилизации в России было объявлено 21 сентября 2022 года. Но запросы «как уехать» стали появляться днем раньше. «Системный Блокъ» проанализировал, как менялись поисковые запросы россиян во время и после объявления мобилизации

Тест: какой вы герой с открытки?

Пройдите тест и узнайте, какая открытка из коллекции проекта «Пишу тебе» отражает вас!

Цифровой Чехов: как устроено семантическое издание и где искать 4500 писем Чехова

Каждый филолог желает знать, что такое семантическое издание. В этой статье мы расскажем вам об одном из них. В нем можно исследовать социальные сети Чехова и посмотреть, кого писатель упоминал в своей обширной переписке.

Подборка любимых открыток редакции

Сегодня, 9 октября, отмечается День почты. Именно в этот день в 1874 году был основан Всемирный почтовый союз. Его цель — продвигать почтовые услуги, делать их удобными и доступными на всей планете. В честь этой даты команда «Пишу тебе» поделилась любимыми открытками.

Мобилизация после репрессий. Как Большой террор повлиял на участников ВОВ

Даже если государственный террор не воздействует на человека напрямую, он влияет на формирование его представлений о государстве и отношение к нему. Нашел ли Большой террор отражение в действиях солдат на фронтах Великой Отечественной? Ответ поможет найти анализ данных. Спойлер: статистика показывает, что солдаты из «более репрессивных» регионов чаще подвергались уголовному преследованию в годы войны и реже сдавались в плен. В исследовании использованы данные «Международного Мемориала», получившего 7 октября 2022 года Нобелевскую премию мира.

памятники архитектуры россии

От жилых домов до Ипатьевского монастыря: ученые создали электронный свод памятников архитектуры России

Ученые из Государственного института искусствознания создали электронный свод памятников архитектуры и монументального искусства России. В нем содержится информация о всех исторических постройках трех областей страны. Помимо этого на сайте проекта можно найти архивные и современные фотографии, чертежи этих памятников и много другой полезной для людей, интересующихся историей и искусством, информации.

Большие языковые модели умеют рассуждать

Модель психики «Думай медленно… решай быстро» оказалась верна не только для людей, но и для больших нейросетей. Вслед за интуитивными навыками они приобретают и аналитические. Рассказываем, как языковые модели решают математические и логические задачи, если немного «подумают».

О любви, семье, друзьях и хобби: где черпать силы

Даже в самые тяжелые времена не стоит забывать о том, что нас радует. Мы отобрали самые жизнеутверждающие открытки о простом и человеческом: любви, семье, друзьях и хобби. Авторы всех писем, которые мы выбрали, верят в лучшее (или даже не думают о плохом).

Куда бежать, если больше нельзя в Россию: к 100-летию «философского парохода»

29 сентября 2022 года исполняется сто лет «философскому пароходу» — массовой высылке большевиками интеллигенции, не принявшей революцию. Сегодня годовщина выглядит актуально как никогда: из России уже полгода вылетают «философские самолеты», а в последние дни на границах РФ можно встретить и «философский самокат». Размышляя о судьбах страны, мы решили вспомнить, как сложились пути эмигрантов сто лет назад, наложив их жизненные траектории на электронную карту.

Статистика империи инков: студент дешифровал узлы кипу — ими вели перепись населения

Студент Гарварда сравнил документ переписи населения Испании и шесть шнурков кипу. Благодаря этому своеобразную письменность империи инков, состоящую из сплетений и узлов, можно прочитать. Рассказываем, как студент совершил открытие во время весенних каникул.

Что статистические отношения в лексике могут рассказать про средневековую власть?

Чем тексты аббатов и епископов отличались от текстов графов и королей? Рассказываем, как при помощи статистики употребления слов и анализа их совместной встречаемости можно изучать жизнь французской аристократии XIII века.

«Отмена русской культуры»: что показывает статистика цифровых следов?

С февраля 2022 года в новостях и разговорах можно услышать про «отмену русской культуры» в рамках «культуры отмены». Что это такое, можно ли отменить культуру и как любопытство пользователей интернета может помочь в этом разобраться? «Системный Блокъ» посчитал упоминания в СМИ и проанализировал поисковые запросы.

«Город без данных — город-призрак»: Алексей Новиков о том, как Big Data меняет представление о планировке и застройке

Алексей Новиков — кандидат географических наук, глава и соучредитель компании Habidatum, специализирующейся на аналитике городских данных. «Системный Блокъ» поговорил с ним о том, что такое «цифровой двойник» города, чем советские города похожи на SimCity, и какие возможности открываются в градостроительстве благодаря большим данным.

Стеганография: оцифрованное искусство против цензуры

Многие слышали о криптографии — науке о шифровании данных. Но при должном усердии любой шифр можно взломать. Что если не просто зашифровать послание, а скрыть сам факт его передачи? Для этого и нужна стеганография. Разбираемся, что это такое и как она помогает в борьбе с цензурой.

Стилометрия, сетевой анализ и золотой век испанской поэзии: Фернандо де Эррера как мост между мирами

Доказать авторство поэта, чей сборник стихов был издан уже после его смерти, – трудная задача. К счастью, стилометрия помогает разобраться в этом вопросе, а заодно понять эволюцию поэтического стиля в испанской поэзии раннего Нового времени. Рассказываем, как цифровая филология помогла исследователям глубже изучить, какую роль Фернандо де Эррера сыграл в искусстве XVI – XVII веков.

«Будь умницей, а то приеду и налуплю»: подборка открыток к 1 сентября

Казалось бы: времена идут, столько всего должно поменяться… Но отношения к учебе это как будто не касается — о ней всегда говорят похожие вещи. Кто-то жалуется на загрузку, кому-то не нравятся соседи в общежитии, а у кого-то обучение проходит за границей и он/она страдает от непривичных и суровых правил. Ко дню знаний делимся подборкой открыток о школе, университете и даже учебных курсах!

«Игнорируется и не ценится»: вклад женщин в науку через цифры

Если посмотреть на голую статистику, может показаться, что женщины-ученые публикуют меньше научных статей, чем их коллеги-мужчины, а также реже получают гранты и патенты. Исследование Мэтью Росса из Северо-восточного университета в Бостоне и его коллег показало, что реальное положение дел может быть куда сложнее: женщинам в науке бывает нелегко добиться указания их авторства из-за дискриминации.

Ай да натуралист! Какие экологические приложения помогут с пользой провести летние выходные

Летом можно не только хорошо отдохнуть, но и поучаствовать в экопроекте и даже помочь науке. «Системный Блокъ» рассказывает, как с пользой провести летние выходные.

Бёрдвотчинг: что это за птица такая?

Лето почти закончилось, а вы все еще не отличаете сатанинского козодоя от башенного стрижа? А может, вам хотелось стать орнитологом, когда вырастете? Системный Блокъ рассказывает, как, вооружившись мобильными приложениями, с пользой провести выходные.

Терабайты пропаганды: где лежит телеархив 2022 года

Специалисты по веб-архивации собрали более 46 тысяч телепередач в одном проекте для исследования медиаобраза «спецоперации»

Сибирские пожары, взрыв в Бейруте и машины на парковке: подборка о том, что можно увидеть из космоса

Рубрика «урбанистика» в «Системном Блоке» рассказывала и об эволюции городов, и о краудсорсинге, и о геокодировании, а еще… о космосе. Собрали для вас четыре важных текста о том, кому, когда и зачем нужны космоснимки.

Обсуждая гуманизм: тематическое моделирование немецкоязычной прессы XIX в.

Как цифровые методы помогают понять эволюцию идеи гуманизма в Германии XIX века? Рассказываем об исследовании «гуманистического дискурса» в немецкоязычных газетах при помощи тематического моделирования.

Кто скрывается за псевдонимом «Элена Ферранте»: стилометрия против мистификаций

Системный Блокъ много писал о стилометрии: об атрибуции и верификации авторства, анализе эмоций в песнях и стиля переводчика. Теперь на примере известного итальянского автора рассказываем, как стилометрия помогает раскрывать литературные мистификации.

Цифровое шекспироведение: драма в трех действиях

Человеку из XXI века может быть сложно понять социальные реалии, в которых создавались пьесы Шекспира. С помощью цифрового анализа исследователи выяснили особенности национальных, гендерных и других ролей, использованных автором. Разбираемся, каким языком пользовались кельты, женщины и обманщики в шекспировских пьесах.

Тогда и сейчас: 4 статьи о том, как (не) изменился мир

В материалах по истории мы часто проводим параллели между миром сегодня и 300, 400, 500 лет назад. В этой подборке «Системный Блокъ» собрал для вас тексты, которые особенно наглядно показывают изменчивость и постоянство общества, в котором мы живём, и мира, который нас окружает.

Не навреди: новейшие способы изучения «Мира мертвых»

Мексиканские ученые предложили изучать древние города с помощью георадаров и томографии, чтобы не разрушить их.

Знатный борщ, голодная тетка и мужик-молодец: как менялись значения слов в русском языке на протяжении XVIII-XIX веков

За два века слово может изменить свое значение до неузнаваемости. Многие слова, которыми мы пользуемся сегодня, совершенно иначе воспринимались нашими предками. Тест на лингвистическую интуицию: сможете ли вы догадаться, когда возникла поговорка «голод не тетка», а слово «молодец» стало похвалой?

«Системному Блоку» четыре года: вспоминаем четыре главных поста последних месяцев

В последний год работы «Системный Блокъ» много писал о том, что происходит не только в мире науки, но и в мире вообще. Неудивительно, что в числе главных постов этого года — сухие страшные цифры, новые технологии и значимые исследования.

Подборка материалов по стилометрии

Сегодня филологи не только активно читают, но и активно вычисляют: авторство, особенности перевода, даже эмоции в текстах. О том, когда и почему это может быть важно, читайте в нашей подборке стилометрических исследований.

«К идее разных интернетов мы пока не привыкли»: Полина Колозариди об исследованиях интернета

Полина Колозариди — интернет-исследователь, координатор Клуба любителей интернета и общества, преподавательница ИТМО и НИУ ВШЭ. «Системный Блокъ» поговорил с ней о том, чем занимаются интернет-исследователи, как развивался и чем различается интернет в разных городах России, и как связаны интернет и демократия.

«Размечено»: как распознавать именованные сущности в исторических дневниках

Дневники людей, живших в различных исторических эпохах, могут многое сказать исследователю, но анализировать их вручную — тяжело и долго. Разбираемся, как цифровые инструменты используются для упрощения анализа дневниковых записей.

Собираем «фотолетопись» прошлого

Фотография — важный свидетель нашего культурного и исторического прошлого. Проект «История России в фотографиях» дает возможность увидеть быт людей Российской Империи, Советского Союза и России 1990-х годов: их жизнь в повседневности и в период тяжелых испытаний.

Точка, точка, запятая: как меняется язык в интернет-пространстве

«Привет» или «ПРИВЕТ»? А, может быть, «првиет!»? Вариантов поздороваться в онлайн-переписке, как и написать любое другое слово, множество. Причем каждый из них обладает своим эмоциональным оттенком и передает настроение собеседника. В интернет-пространстве смысл может быть спрятан в отдельных символах языка, будь то точка в конце сообщения или буква «а» в слове «молоко». Изучение того, как языки меняются в виртуальной сети, только начинается, но уже есть немало исследований, посвященных этим правилам.