Фото автора

Марина Панкова

Редактор, выпускающий редактор, корректор

Редактор статей

Гид по Voyant Tools: подготовка корпуса

«‎‎Системный Блокъ» пополняет свою коллекцию гайдов. Сегодня покажем, как сделать анализ текстов с помощью Voyant Tools, популярного инструмента среди цифровых гуманитариев. Разнообразные визуализации, частотный анализ, тренды, коллокации — вот только часть возможностей инструмента. Автор материала — Екатерина Волженина, выпускница DH-магистратуры НИУ ВШЭ в Москве, историк, менеджер центра глубинного обучения и байесовских методов ФКН.

Text mining японского текста: гайд по библиотеке fugashi

Мы уже рассказывали, как работать с японским языком с помощью сервиса Voyant Tools. Покажем, как можно самостоятельно провести токенизацию текстов на японском, применяя библиотеку fugashi, которая способна также провести морфологический анализ и выделять именованные сущности.

Что такое лемматизация?

Как компьютеры понимают, что зло, зла и (из двух) зол — формы одного и того же слова? Рассказываем про лемматизацию — один из основных методов предобработки текстов, который помогает компьютеру лучше их понимать.

Что такое тест Тьюринга?

Тест Тьюринга появился в середине XX века и должен был определить, может ли компьютер думать. Рассмотрим подробнее, что такое тест Тьюринга: как он появился, в чём заключается и смогла ли ChatGPT его пройти?

«Ты же не думаешь, что можно заниматься диалектологией как профессией?»: интервью с диалектологом Игорем Исаевым

Как отделить язык от диалекта? Должна ли вся страна говорить на одном «стандартном» языке и какие преимущества есть у использования диалектов? Имеют ли смысл политизированные споры вокруг разграничения русского, украинского и белорусского языков? Как проходят диалектологические экспедиции? Всё это «Системный Блокъ» обсудил с диалектологом, замдиректора Института языкознания РАН по науке Игорем Исаевым.

Цифровая история Узбекистана и память о репрессиях: платформа Raqamli tarix

Узбекистан — солнечный, хлопковый, гостеприимный. Но в XX веке и тут проходили сталинские репрессии. Проект Raqamli tarix («Цифровая история») помогает сохранить память об этом периоде в истории страны. В одном месте собраны база данных о репрессированных, фотографии и видео, а также архивные материалы на трёх языках: узбекском, русском и английском.

Цифровые коллекции японского искусства

Как технологии открывают миру богатство культурного наследия? Японские гравюры, живопись и каллиграфию можно увидеть и изучать не только вживую, но и через интернет. Исследуем платформу Google Arts & Culture, цифровой ресурс Cultural Japan, базу данных японских гравюр на дереве Ukiyo-e Search и Центр исследования искусства Университета Рицумэйкан, которые позволяют соприкоснуться с оцифрованными произведениями японской культуры из любой точки мира.

KuroNet: как работает модель для распознавания старых японских иероглифов

Для распознавания старинных японских иероглифов применяется OCR под названием KuroNet. В основе KuroNet лежит специальная нейросетевая модель. Пошагово разберем что делать, когда нужно распознать рукописный текст на японском языке: от выбора текста до использования приложения miwo для смартфона.

Зима бёрдвотчеру не помеха! Определите птицу по фотографии

Наблюдать за птицами можно даже зимой — время искать снегирей! Мы уже рассказывали вам о сервисах, которые помогают изучать природу и заниматься бёрдвотчингом, или наблюдением за птицами. При помощи разных сайтов и приложений можно определить вид птицы не только по внешнему виду, но и по пению и даже перу! Проверьте свои познания в орнитологии. Пройдите тест и узнайте, насколько хорошо вы разбираетесь в птицах.

Из России — с данными. Узнайте регион по статистике

Тест о том, как числа могут рассказывать о социальных проблемах. Узнайте, насколько хорошо вы представляете себе Россию

От корпусов до карты бомбардировок Хиросимы: Digital Humanities в Японии

Оцифровка данных о землетрясениях в Японии, эталонный корпус японского языка на DVD, интерактивная карта бомбардировки Хиросимы, изучение буддийских текстов. Посмотрим, чем сегодня занимаются цифровые гуманитарии в Японии и как они это делают.

Люди на ладони: биографическая база данных по истории Японии

Как соединить визуализацию и сведения об исторических личностях? Биографическая база данных Японии — пример такого проекта. Здесь можно найти родственные и иные связи, а также события и биографические факты о людях, оставивших след в японской истории.

Интерактивная карта художественной жизни Франции XVIII века: где жили живописцы 

Как цифровой проект Artists in Paris позволяет любому заинтересованному узнать, где селились французские художники вплоть до Великой французской революции, кто переехал в Россию, а кто жил без адреса? Изучим, как устроена интерактивная карта художественной жизни Парижа в XVIII веке

Как это (не) работает: технологии нейросети-писателя

Как научить нейросеть писать в стиле Набокова? И насколько хорошо (или плохо) у нейросетей вообще получается писать художественные тексты? Могут ли нейросети привести филологов к мировому господству? Ответы на эти и другие вопросы нам дали цифровой филолог Борис Орехов и исследователь в области глубинного обучения Михаил Ким.

Telegram-спектакль «Невидимый Басмач»: как чат-бот может продлить жизнь театру

Как воссоздать театральный опыт в Telegram? Поставить спектакль — затратное дело: долгая подготовка, репетиции, декорации, реквизит, потом нужно собрать труппу и публику в одном месте и в одно время. Можно ли преодолеть ограничения и создать спектакль, который всегда доступен, и как в этом могут помочь цифровые методы? Рассказывают постановщицы Telegram-спектакля «Невидимый Басмач»

Почему медицине нужны информационные технологии

Виртуальная реальность, дополненная реальность и дистанционные методы взаимодействия проникают и в медицину. VR и AR-технологии помогают хирургам проводить операции, а люди с психическими проблемами погружаются в виртуальный гипноз. Рассказываем, как медицина занимается пациентами в эпоху цифровых технологий.

Что общего у литературы и биологии, или как развивались Digital Humanities в России

Точные методы в гуманитарных науках появились задолго до компьютеров — и в России их история перевалила уже за полтора века. Вспоминаем, как филологи, историки, лингвисты, математики и другие исследователи развивали количественные подходы к анализу литературы, языка и других гуманитарных объектов — и создавали базу для становления на российский почве Digital Humanities

Кому на Руси пить хорошо: какой алкоголь сегодня можно найти в магазинах и кто его покупает

Что стало с импортными виски, коньяком и аперолем в России после 24 февраля 2022 года и стали ли россияне меньше пить? Рассказываем в материале «Системного Блока» об изменениях на рынке алкогольной продукции за последние полтора года.

Стилометрия кинодиалогов: шесть жанров в поисках автора

Статья Яна Рыбицкого и Агаты Холобут The Stylometry of Film Dialogue: Pros and Pitfalls показывает связь между жанровыми особенностями кино и лексикой диалогов: с помощью стилометрии и сентимент-анализа авторы исследуют 178 фильмов из разных эпох. Рассказываем, что же у них получилось

Cultural heritage in action: лучшие практики сохранения и популяризации культурного наследия в Европе

Проект Cultural heritage in action собирает хорошие решения по работе с культурным наследием в Европе и открывает доступ к получившемуся каталогу.

Автор статей

Как создавать расшифровки аудиозаписей в программе ELAN

У вас есть аудиофайл от информанта и вам его нужно расшифровать? Возможно, вы пытаетесь при этом жонглировать несколькими программами сразу: у вас открыты медиаплеер, в котором вы слушаете звук, текстовый файл, в который вы записываете транскрипцию, мессенджер, в котором вы видите корректировки от руководителя. Но расшифровку можно сделать гораздо быстрее и удобнее — с помощью программы ELAN, которая была создана как раз для аннотирования звуковых и видеофайлов.