Фото автора

Ксения Здоровец

Иллюстратор

Иллюстратор статей

Как работает большая языковая модель: перцептроны в черном ящике

Несмотря на стремительное развитие больших языковых моделей, исследователи до сих пор плохо понимают, как и почему нейросети выдают тот или иной ответ. Однако изучение этих проблем находится на переднем крае компьютерных наук. В нашем новом материале рассказываем о механизмах работы языковых моделей. В первой части мы объясняем, почему нейросети работают, как «чёрные коробки», что такое интерпретируемость в контексте машинного обучения и как компьютеры моделируют работу нейрона.

Проверяем авторство: стилометрия для японских текстов

Стилометрия — это количественный метод в лингвистике, литературоведении и других гуманитарных науках, который определяет авторский стиль с помощью статистических метрик. Метод применяется для того, чтобы установить авторство спорного текста, датировать текст (такие исследования называются стилохронометрией) или определить другие метаданные, такие как жанр текста или пол автора. На примере работы японской исследовательницы Уэсака Аяка мы расскажем о том, как с помощью стилометрии было поставлено под сомнение авторство повести, приписываемой знаменитому поэту и прозаику XVII века Ихара Сайкаку.

Девушки, живущие в сети: женщины-хакеры на экране

23 года назад вышел фильм «Пароль “Рыба-меч”» — знаковая лента о хакерах с Джоном Траволтой. Это не только первый массовый фильм современности, целиком посвящённый хакерству, но и первое в XXI веке появление на экране хакерши. Мы решили вспомнить, когда женщины-хакеры впервые оказались на экране, как изменились их образы за это время и что объединяет их экранные воплощения.

Всемирная история картотек: движение к мировому стандарту

«‎Системный Блокъ»‎ продолжает публикацию цикла статей о том, как развивалась идея библиотечного каталога с XVI века и до наших дней. В третьей части исследователь истории науки и техники, сотрудник Центра непрерывного образования факультета компьютерных наук НИУ ВШЭ Антон Басов рассказывает, как каталожные карточки и библиотечные коды стали мировым стандартом и как картотеки повышают работоспособность философов.

Всемирная история картотек: как учёные и библиотекари пытались упорядочить всё

Информация бесполезна, если мы не знаем, как и где её найти. С появлением книгопечатания проблема упорядочивания выпущенных книг занимала учёных всё больше. Исследователь истории науки и техники, сотрудник Центра непрерывного образования факультета компьютерных наук НИУ ВШЭ Антон Басов изучил, как развивалась идея библиотечного каталога с XVI века и до наших дней. В этом материале он рассказывает, зачем разрезать конспекты книг на полоски и как крючки в шкафу заменяли библиотекарям теги.

Криминалистическая биоинформатика: как пыльца, грибы и микробы помогают раскрывать преступления

Помните, как в сериале BBC Шерлок Холмс по составу налипшей на кроссовки пыльцы выясняет, где жил их владелец? Это не фантазия сценариста, а научный метод геолокации, которому больше 55 лет. В нашем материале рассказываем, как по следам пыльцы раскрывают преступления, зачем криминалистам ДНК растений и можно ли по пыли на вашей двери определить, где вы живёте.

Text-mining корейского языка: гайд по библиотеке koNLPy

Как автоматически провести токенизацию и морфологический анализ текстов на корейском языке? Рассказываем про библиотеку koNLPy, которая выделяет токены, определяет морфемы и части речи. А также приводим таблицу, которая показывает, как различные методы этой библиотеки справляются с корейскими смайликами, глаголами вежливости и уважительными суффиксами (не всё так просто!).

Жизнь и научная деятельность Романа Якобсона: лингвистика vs двадцатый век

Помешает ли постоянная вынужденная миграция развивать фонологию, исследовать русский авангард, заниматься сербо-хорватским эпосом, изучать нейрофизиологические нарушения речи, перенести структурализм с одного континента на другой и создать работы, которые окажут влияние на Леви-Стросса? Жизнь Романа Осиповича Якобсона показывает, что даже сложное время не может остановить искреннее желание заниматься наукой.

Как провести лингвистический эксперимент онлайн? От интроспекции до Amazon

Что такое лингвистический эксперимент и как его запрограммировать? Какие инструменты стоит использовать при его проведении и где для этого найти участников? Узнаем в материале «Системного Блока».

Четыре проекта по борьбе с коррупцией онлайн. Как они работают?

Может ли работа с данными помочь в борьбе с коррупцией? «Системный Блокъ» выяснил, какие цифровые сервисы и проекты занимаются антикоррупционной деятельностью с помощью открытых и не очень открытых данных.

Виртуальный визит в Помпеи: как архитектура управляет нашим вниманием

Можно ли проанализировать взаимодействие человека и архитектурной среды? И при чём тут ГИС и айтрекинг? Рассказываем, как люди ходят в гости к древним римлянам в VR-очках, чтобы лучше понять культуру и повседневную жизнь римского города

Не вандализм, а уличное искусство: как устроена самая большая цифровая карта граффити

Цифровые карты позволяют изучать не только географию и историю, но и современное уличное искусство. Граффити часто живут недолго, а вот цифровая карта позволяет сохранить их для анализа и изучения, причем в привязке к месту. Рассказываем о некоммерческом проекте по картографированию граффити

10 необычных экспонатов музейного Госкаталога РФ

Где можно найти настольную игру, иронизирующую над перестройкой, матрёшку с мордой собаки Стрелки и сборник суеверий из XVIII века? Рассказываем о необычных экспонатах Госкаталога — цифрового архива экспонатов российских музеев и частных собраний.

Цвет антиутопии зелёный: цифровая рецензия на роман «Радио Мартын»

Сегодня гуманитарии стремительно осваивают цифровой мир и уже совсем по-другому смотрят на литературные произведения. В этой статье мы проанализировали книгу Филиппа Дзядко «Радио Мартын» с помощью языка программирования R и отразили в цифрах уникальность авторского стиля писателя

Как автоматически расшифровать аудио: пошаговая инструкция для Whisper

Расшифровка аудиозаписи — дело утомительное и времязатратное. К счастью, появляется всё больше сервисов, которые умеют это делать автоматически. Рассказываем, как сделать это с помощью модели Whisper от OpenAI и смотрим, насколько хорошо она справляется с русскоязычными записями

Кто какую часть произведения написал? Выясняем с помощью Stylo

«‎Системный Блокъ» уже рассказывал, что такое стилометрия, и как сделать её своими руками с помощью библиотеки Stylo на языке программирования R. В новом гайде мы познакомим вас с функцией rolling.classify(), которая может помочь в исследований произведений, написанных в соавторстве.