Фото автора

Марина Панкова

Редактор, выпускающий редактор, корректор

Редактор статей

Как найти в геноме проблему? Зачем секвенировать здоровых людей

Секвенирование генома — это способ «прочитать» ДНК человека, который преобразил генетику и уже стал частью рутинных исследований. Сегодня этот метод используют, чтобы точнее ставить диагнозы при генетических заболеваниях и выявлять редкие мутации. Но как диагностике помогает массовое секвенирование геномов здоровых людей? Рассказываем в нашем материале.

Тысяча монгольских буддистских монастырей на одной интерактивной карте

Интересуетесь буддизмом, Внутренней Азией, Монголией? Посмотрите на карту более чем тысячи буддистских монастырей на территории Монголии! Рассказываем про онлайн-проект Mapping a Thousand Buddhist Monasteries in Mongolia, где помимо карты монастырей можно найти устные истории, образцы религиозной живописи, биографии лам.

Гендерное неравенство в литературе: от персонажей до писательниц

Проблема гендерного неравенства заметна во всех сферах общества — в том числе в литературе. Писательниц было традиционно меньше, чем писателей, сюжетные линии между персонажами разного пола представлены неравномерно, а гендерные стереотипы касаются и героев, и героинь произведений. В подборке материалов «Системного Блока» мы рассказываем о роли женщин в литературном процессе и о том, почему представители обоих полов по-разному воспринимаются как авторами, так и читателями.

Все художественные тексты похожи друг на друга: как сюжетные тенденции выражаются на уровне слов

Знакомясь с новой книгой, вы наверняка замечали, что с чем-то подобным вам уже приходилось сталкиваться. Герой покидает дом в поисках чего-то ценного. Герой находит большую любовь в конце истории или, наоборот, трагически погибает. Таинственный незнакомец приносит вести, становящиеся фундаментом для завязки сюжета. А как выглядит «усреднённая» история? Существуют ли слова, которые наиболее характерны для завязки или финала книги? Попробуем разобраться, используя методы цифровой гуманитаристики!

Тест: как найти свой восточный язык?

Иногда сложно понять, какой язык нам ближе и нужнее. Хочется и аниме, и корейские дорамы смотреть в оригинале без субтитров, а то и отправиться в Китай или подняться на верхний этаж небоскрёба в ОАЭ. Если вы вдруг решили изучать восточную культуру и начать с языка, но никак не можете определиться, то этот тест для вас.

Виртуальная валюта в образовании: мотивируют ли учиться игровые деньги?

Образовательные технологии (эдтех) заимствуют у игровой индустрии способы мотивации учащихся. Среди них — внедрение виртуальной валюты. Но подтверждается ли эффективность виртуальных денег в образовании? Эксперименты показывают, что всё не так однозначно, иначе обучающиеся в школах и на курсах давно стали бы «виртуальными миллионерами».

Библиотека Faststylometry: стилометрия на Python

«Системный Блокъ» часто пишет о стилометрии и выпустил несколько учебных материалов (базовый, продвинутый и ещё один) о том, как провести собственное исследование с помощью библиотеки Stylo для языка R. А что делать тем, для кого Python удобнее? Рассказываем в новом тьюториале о стилометрии для англоязычных текстов, используя библиотеку Faststylometry.

Перфокарта: от механических баз данных к цифровым

В первой части рассказа о перфокартах мы узнали о том, как причудливо прошла история перфокарт от древнего ремесла ткачества до аналитических машин. Во второй части «Системный Блокъ» изучает, что же произошло дальше. А произошло немало: перфокарты через гомеопатию, переписи населения и первые базы данных привели к созданию компьютеров! Исследователь истории науки и техники, сотрудник Центра непрерывного образования факультета компьютерных наук НИУ ВШЭ Антон Басов описывает, какое наследие технологии из XVIII века мы имеем сейчас.

Перфокарта: от ткацкого станка до аналитической машины

Помните ли вы времена, когда компьютеры работали на перфокартах? Листы плотной бумаги с дырочками — они использовались до того, как появились дискеты, компакт-диски и флешки. Начав свою историю с ткацких станков, перфокарты помогли создать первые базы данных и сыграли важную роль в создании вычислительных машин. Исследователь истории науки и техники, сотрудник Центра непрерывного образования факультета компьютерных наук НИУ ВШЭ Антон Басов изучает, как изобретение XVIII века заложило основу цифровой эпохи. Публикуем первую часть «биографии» перфокарт.

Филологи и программирование: подборка интервью «Системного Блока»

Лингвистика и программирование. Филология и программирование. Нужны ли они друг другу? Нужно ли гуманитариям вообще уметь программировать или же все учёные чётко делятся на физиков и лириков? «Системный Блокъ» считает, что их знания можно взболтать, но не смешивать. Читаем интервью «Системного Блока» о том, насколько важно современным гуманитариям знание Python и нейросетей.

«Воскрешение» исторических личностей и лекция от суперзвезды: как использовать дипфейки в образовании

Эйнштейн объясняет старшеклассникам теорию относительности. Маяковский читает стихи у доски. Ученик «обменивается» телом с учителем, а у педагогов остаётся время на саморазвитие. Как дипфейки могут сделать учебный процесс интереснее?

Каждый ML желает знать, где сидит фазан: машинное обучение на службе биоразнообразия

Биологи, экологи и географы используют машинное обучение для предсказания ареалов самых разных живых существ — в прошлом, настоящем и будущем. Из нашего материала вы узнаете, что такое экологическая ниша, где в Воронежской области можно найти первоцвет B. versicolor, и разберёмся, почему синицы якобы предпочитают Москву, но не Тверь.

Гид по Voyant Tools: анализ и визуализация

Продолжаем наше руководство по анализу текста с помощью Voyant Tools. В прошлом материале мы рассказали, как загрузить и подготовить корпус. Теперь рассмотрим, как исследовать и визуализировать ваши материалы. Автор материала — Екатерина Волженина, выпускница DH-магистратуры НИУ ВШЭ в Москве, историк, менеджер центра глубинного обучения и байесовских методов ФКН.

Text-mining корейского языка: гайд по библиотеке koNLPy

Как автоматически провести токенизацию и морфологический анализ текстов на корейском языке? Рассказываем про библиотеку koNLPy, которая выделяет токены, определяет морфемы и части речи. А также приводим таблицу, которая показывает, как различные методы этой библиотеки справляются с корейскими смайликами, глаголами вежливости и уважительными суффиксами (не всё так просто!).

Жизнь и научная деятельность Романа Якобсона: лингвистика vs двадцатый век

Помешает ли постоянная вынужденная миграция развивать фонологию, исследовать русский авангард, заниматься сербо-хорватским эпосом, изучать нейрофизиологические нарушения речи, перенести структурализм с одного континента на другой и создать работы, которые окажут влияние на Леви-Стросса? Жизнь Романа Осиповича Якобсона показывает, что даже сложное время не может остановить искреннее желание заниматься наукой.

Гид по Voyant Tools: подготовка корпуса

«‎‎Системный Блокъ» пополняет свою коллекцию гайдов. Сегодня покажем, как сделать анализ текстов с помощью Voyant Tools, популярного инструмента среди цифровых гуманитариев. Разнообразные визуализации, частотный анализ, тренды, коллокации — вот только часть возможностей инструмента. Автор материала — Екатерина Волженина, выпускница DH-магистратуры НИУ ВШЭ в Москве, историк, менеджер центра глубинного обучения и байесовских методов ФКН.

Text-mining японского текста: гайд по библиотеке fugashi

Мы уже рассказывали, как работать с японским языком с помощью сервиса Voyant Tools. Покажем, как можно самостоятельно провести токенизацию текстов на японском, применяя библиотеку fugashi, которая способна также провести морфологический анализ и выделять именованные сущности.

Что такое лемматизация?

Как компьютеры понимают, что зло, зла и (из двух) зол — формы одного и того же слова? Рассказываем про лемматизацию — один из основных методов предобработки текстов, который помогает компьютеру лучше их понимать.

Что такое тест Тьюринга?

Тест Тьюринга появился в середине XX века и должен был определить, может ли компьютер думать. Рассмотрим подробнее, что такое тест Тьюринга: как он появился, в чём заключается и смогла ли ChatGPT его пройти?

«Ты же не думаешь, что можно заниматься диалектологией как профессией?»: интервью с диалектологом Игорем Исаевым

Как отделить язык от диалекта? Должна ли вся страна говорить на одном «стандартном» языке и какие преимущества есть у использования диалектов? Имеют ли смысл политизированные споры вокруг разграничения русского, украинского и белорусского языков? Как проходят диалектологические экспедиции? Всё это «Системный Блокъ» обсудил с диалектологом, замдиректора Института языкознания РАН по науке Игорем Исаевым.

Цифровая история Узбекистана и память о репрессиях: платформа Raqamli tarix

Узбекистан — солнечный, хлопковый, гостеприимный. Но в XX веке и тут проходили сталинские репрессии. Проект Raqamli tarix («Цифровая история») помогает сохранить память об этом периоде в истории страны. В одном месте собраны база данных о репрессированных, фотографии и видео, а также архивные материалы на трёх языках: узбекском, русском и английском.

Цифровые коллекции японского искусства

Как технологии открывают миру богатство культурного наследия? Японские гравюры, живопись и каллиграфию можно увидеть и изучать не только вживую, но и через интернет. Исследуем платформу Google Arts & Culture, цифровой ресурс Cultural Japan, базу данных японских гравюр на дереве Ukiyo-e Search и Центр исследования искусства Университета Рицумэйкан, которые позволяют соприкоснуться с оцифрованными произведениями японской культуры из любой точки мира.

KuroNet: как работает модель для распознавания старых японских иероглифов

Для распознавания старинных японских иероглифов применяется OCR под названием KuroNet. В основе KuroNet лежит специальная нейросетевая модель. Пошагово разберем что делать, когда нужно распознать рукописный текст на японском языке: от выбора текста до использования приложения miwo для смартфона.

Зима бёрдвотчеру не помеха! Определите птицу по фотографии

Наблюдать за птицами можно даже зимой — время искать снегирей! Мы уже рассказывали вам о сервисах, которые помогают изучать природу и заниматься бёрдвотчингом, или наблюдением за птицами. При помощи разных сайтов и приложений можно определить вид птицы не только по внешнему виду, но и по пению и даже перу! Проверьте свои познания в орнитологии. Пройдите тест и узнайте, насколько хорошо вы разбираетесь в птицах.

Из России — с данными. Узнайте регион по статистике

Тест о том, как числа могут рассказывать о социальных проблемах. Узнайте, насколько хорошо вы представляете себе Россию

От корпусов до карты бомбардировок Хиросимы: Digital Humanities в Японии

Оцифровка данных о землетрясениях в Японии, эталонный корпус японского языка на DVD, интерактивная карта бомбардировки Хиросимы, изучение буддийских текстов. Посмотрим, чем сегодня занимаются цифровые гуманитарии в Японии и как они это делают.

Люди на ладони: биографическая база данных по истории Японии

Как соединить визуализацию и сведения об исторических личностях? Биографическая база данных Японии — пример такого проекта. Здесь можно найти родственные и иные связи, а также события и биографические факты о людях, оставивших след в японской истории.

Интерактивная карта художественной жизни Франции XVIII века: где жили живописцы 

Как цифровой проект Artists in Paris позволяет любому заинтересованному узнать, где селились французские художники вплоть до Великой французской революции, кто переехал в Россию, а кто жил без адреса? Изучим, как устроена интерактивная карта художественной жизни Парижа в XVIII веке

Как это (не) работает: технологии нейросети-писателя

Как научить нейросеть писать в стиле Набокова? И насколько хорошо (или плохо) у нейросетей вообще получается писать художественные тексты? Могут ли нейросети привести филологов к мировому господству? Ответы на эти и другие вопросы нам дали цифровой филолог Борис Орехов и исследователь в области глубинного обучения Михаил Ким.

Telegram-спектакль «Невидимый Басмач»: как чат-бот может продлить жизнь театру

Как воссоздать театральный опыт в Telegram? Поставить спектакль — затратное дело: долгая подготовка, репетиции, декорации, реквизит, потом нужно собрать труппу и публику в одном месте и в одно время. Можно ли преодолеть ограничения и создать спектакль, который всегда доступен, и как в этом могут помочь цифровые методы? Рассказывают постановщицы Telegram-спектакля «Невидимый Басмач»

Почему медицине нужны информационные технологии

Виртуальная реальность, дополненная реальность и дистанционные методы взаимодействия проникают и в медицину. VR и AR-технологии помогают хирургам проводить операции, а люди с психическими проблемами погружаются в виртуальный гипноз. Рассказываем, как медицина занимается пациентами в эпоху цифровых технологий.

Что общего у литературы и биологии, или как развивались Digital Humanities в России

Точные методы в гуманитарных науках появились задолго до компьютеров — и в России их история перевалила уже за полтора века. Вспоминаем, как филологи, историки, лингвисты, математики и другие исследователи развивали количественные подходы к анализу литературы, языка и других гуманитарных объектов — и создавали базу для становления на российский почве Digital Humanities

Кому на Руси пить хорошо: какой алкоголь сегодня можно найти в магазинах и кто его покупает

Что стало с импортными виски, коньяком и аперолем в России после 24 февраля 2022 года и стали ли россияне меньше пить? Рассказываем в материале «Системного Блока» об изменениях на рынке алкогольной продукции за последние полтора года.

Стилометрия кинодиалогов: шесть жанров в поисках автора

Статья Агаты Холобут и Яна Рыбицкого The Stylometry of Film Dialogue: Pros and Pitfalls показывает связь между жанровыми особенностями кино и лексикой диалогов: с помощью стилометрии и сентимент-анализа авторы исследуют 178 фильмов из разных эпох. Рассказываем, что же у них получилось

Cultural heritage in action: лучшие практики сохранения и популяризации культурного наследия в Европе

Проект Cultural heritage in action собирает хорошие решения по работе с культурным наследием в Европе и открывает доступ к получившемуся каталогу.

Иллюстратор статей

Языковые модели упёрлись в потолок, AlphaFold3 в открытом доступе, новые LLM для генерации кода

Компаниям, работающим над языковыми моделями, стало сложнее их улучшать, нейросеть для расшифровки белков AlphaFold3 теперь доступна исследователям, новые версии моделей от Qwen для генерации кода — что произошло в мире ИИ за последнее время.

Поисковики с ChatGPT и Gemini, новые релизы от Anthropic, открытые модели для генерации видео

OpenAI и Google объединяют LLM и поисковые системы, Anthropic обновила свои языковые модели, а компания Genmo выпустила самую большую на сегодня открытую модель для генерации видео с 10 млрд параметров.

Нобелевские премии за нейросети, ИИ-функции в приложениях Adobe, новые модели от Mistral

Две нобелевские премии вручены за работы, связанные с машинным обучением, Adobe добавила новые ИИ-функции в свои продукты, Mistral представила новые компактные языковые модели — рассказываем, что произошло в мире ИИ за последнее время.

Большие изменения в OpenAI, долгожданное обновление голосового режима GPT, новые LLama

Техническая директриса OpenAI ушла из компании, а сооснователь перешёл к конкуренту, GPT получила обновлённый голосовой режим, Meta и Google выпустили новые модели — что произошло за последнее время в мире ИИ.

Новые модели от OpenAI, Mistral делает ИИ доступнее и запаздывающий Apple Intelligence

OpenAI представила модель, способную «рассуждать», француский стартап Mistral снизил цены на свои модели, Apple отстаёт в гонке за ИИ машинного обучения в смартфонах — что произошло за последнее время в мире ИИ.

AlphaProteo, стартап Ильи Суцкевера привлёк огромные инвестиции и самый мощный кластер для компаний Илона Маска

Нейросеть для генерации белков от Google DeepMind, экс-исследователь OpenAI привлекает миллиард долларов, Илон Маск обзавелся самым мощным кластером для обучения нейросетей — что прошло в мире ИИ за последнее время.

Исход людей из OpenAI, новые модели для решения математических задач и SAM 2

Сооснователь OpenAI ушёл к конкурентам, а технический директор объявил о длительном отпуске, релиз семейства математических моделей Qwen и новая модель для сегментации объектов на изображениях и видео от Meta*. Рассказываем, что произошло в мире ИИ за последние две недели.

Новые модели от OpenAI, Mistral и Meta*: дайджест новостей ИИ

OpenAI выпустила компактную дешёвую версию GPT-4, Meta* обновила семейство моделей LLama 3, релиз четырёх новых LLM от Mistral. Рассказываем, что произошло в мире ИИ за последние две недели.

Новая модель для дизайна белков, скорый выход самой большой LLama и FlashAttention 3

Llama 3 с 405 миллиардами параметров выйдет в конце июля. Компания EvolutionaryScale представила большую модель для дизайна белков. В главный блок всех языковых моделей на трансформерной архитектуре — блок внимания (attention) — добавили новые оптимизации. Рассказываем, что произошло в мире ИИ за последние две недели.

Новый лидер среди LLM, «безопасный сверхинтеллект» от бывшего топ-исследователя OpenAI и конкуренты Sora

Большая языковая модель от Anthropic обходит последнюю GPT, компания бывшего ведущего исследователя OpenAI обещает «безопасный сверхинтеллект», у Sora появились новые конкуренты в генерации видео. Рассказываем, что произошло в мире ИИ за последние две недели.

Новые открытые языковые модели, критика OpenAI от бывшего сотрудника и большой отчёт об опасностях общего ИИ

Новые открытые языковые модели, бывший сотрудник OpenAI раскритиковал компанию за безответственный подход к разработке, детальный отчёт о будущем общего ИИ и последствиях его появления. Рассказываем, что произошло в мире ИИ за прошедшие две недели.

Google встраивает языковую модель в поиск, Скарлетт Йоханссон обвиняет OpenAI, исследователи стали лучше понимать и контролировать ИИ

Google начала использовать свою языковую модель Gemini для суммаризации информации из поисковой выдачи. OpenAI подозревают в несанкционированном использовании голоса актрисы Скарлетт Йоханссон. Anthropic выпустили большое исследование интерпретируемости нейронных сетей. Рассказываем, что произошло в мире ИИ за прошедшие две недели.

Автор статей

Как создавать расшифровки аудиозаписей в программе ELAN

У вас есть аудиофайл от информанта и вам его нужно расшифровать? Возможно, вы пытаетесь при этом жонглировать несколькими программами сразу: у вас открыты медиаплеер, в котором вы слушаете звук, текстовый файл, в который вы записываете транскрипцию, мессенджер, в котором вы видите корректировки от руководителя. Но расшифровку можно сделать гораздо быстрее и удобнее — с помощью программы ELAN, которая была создана как раз для аннотирования звуковых и видеофайлов.