Читать нас в Telegram

«Меня интересует знать, а не просто уметь»: Игорь Мельчук о нетрадиционной лингвистике, машинном переводе и жизни в Канаде

Как в СССР возник машинный перевод? Чем нетрадиционная лингвистика отличается от традиционной? Почему эмиграция иногда становится спасением жизни? Об этом в интервью изданию «Системный Блокъ» рассказал Игорь Мельчук, лингвист, заслуженный профессор Монреальского университета, один из основоположников российской математической лингвистики и Московской семантической школы.

Специальные рубрики

Блоги

Фото автора

DH Center ITMO University

Центр цифровых гуманитарных исследований Университета ИТМО

UX в(c) DH. Интервью про UX-исследования, Human-Computer Interaction и связь юикса с цифровой гуманитаристикой

Чем отличается UX от UX-исследований? Как они соотносятся с цифровой гуманитаристикой и DH-проектами? Юиксеры изучают пользователей или объекты в цифре?
Фото автора

DH Center ITMO University

Центр цифровых гуманитарных исследований Университета ИТМО

Гуманитарные проблемы актуальных наук

Колонка академической руководительницы магистратуры по DH в ИТМО Полины Колозариди об актуальных и классических науках, гуманитарных проблемах и цифровых дисциплинах.

Наши статьи

С какими героями «Войны и мира» вы говорите на одном языке?

О человеке можно многое понять по его высказываниям. Пройдите тест и узнайте, на кого из персонажей «Войны и мира» Л. Н. Толстого вы больше похожи по манере общения.

GPT-4o научилась смеяться и петь, LSTM-нейросети наносят ответный удар, ChatGPT встроят в iPhone: дайджест ИИ-новостей

OpenAI выпустила новую версию GPT-4. Apple и OpenAI завершают сделку о сотрудничестве. Авторы архитектуры LSTM выпустили её обновление, которое не хуже Transformer. Google DeepMind анонсировала AlphaFold 3 — нейросеть, способную моделировать широкий спектр биомолекул. Рассказываем, что произошло в мире ИИ за прошедшие две недели.

Какие слова отличают один корпус от другого? Продолжаем изучать Stylo

В исследованиях по определению авторства и количественному анализу стиля широко используется метод Дельта филолога Джона Бёрроуза. Однако Дельта — не единственная придуманная им стилометрическая мера. Дж. Бёрроуз также является автором меры зета, с помощью которой можно сравнивать корпуса текстов. Расчёты на её основе встроены в одну из функций пакета Stylo — oppose().

Подборка статей о точных методах в лингвистике

В Москве на 95-м году жизни скончался лингвист Ю. Д. Апресян — основатель Московской семантической школы, соавтор множества словарей, один из первых исследователей машинного перевода. Мы решили почтить память Ю. Д. Апресяна подборкой статей о прошлом и настоящем точных методов в лингвистике и машинного перевода.

Тест: угадайте город с почтовой открытки

Часто на открытках печатают красивые и яркие фотографии городских достопримечательностей и улиц. В нашем тесте мы предлагаем вам угадать город с открытки — это не так просто, как кажется!

«Воскрешение» исторических личностей и лекция от суперзвезды: как использовать дипфейки в образовании

Эйнштейн объясняет старшеклассникам теорию относительности. Маяковский читает стихи у доски. Ученик «обменивается» телом с учителем, а у педагогов остаётся время на саморазвитие. Как дипфейки могут сделать учебный процесс интереснее?

Криминалистическая биоинформатика: как пыльца, грибы и микробы помогают раскрывать преступления

Помните, как в сериале BBC Шерлок Холмс по составу налипшей на кроссовки пыльцы выясняет, где жил их владелец? Это не фантазия сценариста, а научный метод геолокации, которому больше 55 лет. В нашем материале рассказываем, как по следам пыльцы раскрывают преступления, зачем криминалистам ДНК растений и можно ли по пыли на вашей двери определить, где вы живёте.

От Аввакума до Эсхила: анализ школьных программ по литературе в проекте «Список чтения»

Что такое литературное школьное образование — только ли книжки, которые год за годом читают ученики? И что из себя представляет «школьный канон»? Кажется, что нет поколения, которое бы не обошлось без «Дубровского» или «Муму», «Преступления и наказания» и «Мастера и Маргариты». Так ли это? Представить состав школьной программы по литературе на протяжении 170 лет и проследить его изменения — такова цель проекта Высшей школы экономики «Список чтения».

Text-mining китайского языка: гайд по библиотеке Jieba

Китайский язык может быть очень сложно токенизировать, чтобы извлечь информацию из большого объёма текста: стандартные инструменты путаются в иероглифах. Рассказываем, как пользоваться библиотекой Jieba, которая помогает решить эту проблему.

Цифровые технологии против гендерного неравенства в образовании

По данным ООН, закрытие школ во время пандемии, сокращение и автоматизация рабочих мест отодвинули равноправие женщин и мужчин на 31 год — со 100 лет до 131. Могут ли онлайн-образование и EdTech помочь наверстать этот разрыв и сократить его ещё больше? Разбираем в нашем материале.

Угадайте любимые слова известных писателей: тест по уникальным авторским словечкам из Национального корпуса русского языка

Национальному корпусу русского языка — 20 лет! По этому поводу мы приготовили для вас тест по уникальным словам русских писателей. Пройдите его — и узнаете, в чьих текстах раздавалось «хохотание»‎ и происходило «требоисправление»‎.

Две новых языковых модели и обучающая выборка в 15 триллионов токенов: дайджест новостей из мира ИИ

Компания Snowflake выпустила самую большую языковую модель, открытую для коммерческого использования. Разработчикам доступная новая обучающая выборка из 15 триллионов токенов. Microsoft представила новое поколение компактной модели Phi. Рассказываем, что произошло в мире ИИ на прошлой неделе.

Национальному корпусу русского языка — 20 лет: подборка

Мы собрали лучшие материалы «‎Системного Блока»‎, посвящённые главной цифровой коллекции текстов на русском языке: художественных, научных, церковнославянских, диалектных, списанных с бересты, поэтических, памятников литературы с XI века и многих других.

История на службе игровой индустрии: как низаритские исмаилиты стали Орденом Ассасинов

Assassin’s Creed — серия игр, сюжет которых построен вокруг многовековой борьбы двух тайных организаций — ассасинов и тамплиеров. Прототипом ассасинов послужили члены средневекового мусульманского течения исмаилитов-низаритов. В нашем материале рассказываем, как видеоигры адаптируют исторические реалии под свой формат.

Каждый ML желает знать, где сидит фазан: машинное обучение на службе биоразнообразия

Биологи, экологи и географы используют машинное обучение для предсказания ареалов самых разных живых существ — в прошлом, настоящем и будущем. Из нашего материала вы узнаете, что такое экологическая ниша, где в Воронежской области можно найти первоцвет B. versicolor, и разберёмся, почему синицы якобы предпочитают Москву, но не Тверь.

Гид по Voyant Tools: анализ и визуализация

Продолжаем наше руководство по анализу текста с помощью Voyant Tools. В прошлом материале мы рассказали, как загрузить и подготовить корпус. Теперь рассмотрим, как исследовать и визуализировать ваши материалы. Автор материала — Екатерина Волженина, выпускница DH-магистратуры НИУ ВШЭ в Москве, историк, менеджер центра глубинного обучения и байесовских методов ФКН.

Text-mining корейского языка: гайд по библиотеке koNLPy

Как автоматически провести токенизацию и морфологический анализ текстов на корейском языке? Рассказываем про библиотеку koNLPy, которая выделяет токены, определяет морфемы и части речи. А также приводим таблицу, которая показывает, как различные методы этой библиотеки справляются с корейскими смайликами, глаголами вежливости и уважительными суффиксами (не всё так просто!).

Архивы, сети и шифры в дневниках и письмах: цифровые исследования эго-документов

Изучение дневников и писем — это возможность услышать голоса людей из прошлого и понять, как они воспринимали и оценивали мир вокруг. В новой подборке мы рассказываем, как цифровые методы помогают сохранять, исследовать и публиковать исторические эго-документы.

Жизнь и научная деятельность Романа Якобсона: лингвистика vs двадцатый век

Помешает ли постоянная вынужденная миграция развивать фонологию, исследовать русский авангард, заниматься сербо-хорватским эпосом, изучать нейрофизиологические нарушения речи, перенести структурализм с одного континента на другой и создать работы, которые окажут влияние на Леви-Стросса? Жизнь Романа Осиповича Якобсона показывает, что даже сложное время не может остановить искреннее желание заниматься наукой.

Новая открытая языковая модель, обновление GPT-4 и скорый выход LLaMa 3: дайджест новостей из мира ИИ

Метеорологи обещали осадки в виде LLM: новая открытая языковая модель, обновление GPT-4 и скорый выход LLaMa 3.

Гид по Voyant Tools: подготовка корпуса

«‎‎Системный Блокъ» пополняет свою коллекцию гайдов. Сегодня покажем, как сделать анализ текстов с помощью Voyant Tools, популярного инструмента среди цифровых гуманитариев. Разнообразные визуализации, частотный анализ, тренды, коллокации — вот только часть возможностей инструмента. Автор материала — Екатерина Волженина, выпускница DH-магистратуры НИУ ВШЭ в Москве, историк, менеджер центра глубинного обучения и байесовских методов ФКН.

Text-mining японского текста: гайд по библиотеке fugashi

Мы уже рассказывали, как работать с японским языком с помощью сервиса Voyant Tools. Покажем, как можно самостоятельно провести токенизацию текстов на японском, применяя библиотеку fugashi, которая способна также провести морфологический анализ и выделять именованные сущности.

Как провести лингвистический эксперимент онлайн? От интроспекции до Amazon

Что такое лингвистический эксперимент и как его запрограммировать? Какие инструменты стоит использовать при его проведении и где для этого найти участников? Узнаем в материале «Системного Блока».

Невыносимая лёгкость атрибуции: новая пьеса Милана Кундеры

Филологи уже долгое время подозревают, что одна из пьес чешского драматурга Карела Штайгервальда на самом деле принадлежит перу Милана Кундеры. Рассказываем, что по этому поводу думают цифровые филологи и специально обученные ими модели стилометрии

GPT-4 больше не лучшая языковая модель, суперкомпьютер за 100 млрд долларов и новые открытые модели

OpenAI и Microsoft строят суперкомпьютер для нейросетей, модель Claude 3 Opus от Anthropic обошла GPT-4 в одном из основных рейтингов, Илон Маск опубликовал свою большую языковую модель без цензуры.

Четыре проекта по борьбе с коррупцией онлайн. Как они работают?

Может ли работа с данными помочь в борьбе с коррупцией? «Системный Блокъ» выяснил, какие цифровые сервисы и проекты занимаются антикоррупционной деятельностью с помощью открытых и не очень открытых данных.

Угадайте, что попросили сгенерировать нейросеть

Специально для вас мы попросили нейросети сгенерировать изображения. Пройдите тест и проверьте, сможете ли вы понять, результатом какого запроса является картинка перед вами.

Автономный ИИ-инженер и новое о Sora: дайджест новостей в мире искусственного интеллекта

Создатели Sora рассказали, откуда брали видео для обучения, но кое о чем умолчали. Компания Cohere — один из главных конкурентов OpenAI/ChatGPT — выпустила модель с 35 млрд параметров. Вышла сопоставимая с трансформерами RNN-модель EagleX — неужели рекуррентные нейросети рано хоронить? Рассказываем, что произошло в мире ИИ за прошедшую неделю

О чём говорят на «Разговорах о важном»?

С сентября 2022 года во всех российских школах ввели новый предмет — «Разговоры о важном». По замыслу составителей курса, данный предмет должен показывать школьникам, что происходит в мире, и формировать у них определённые ценности. Предлагаем пройти наш тест и понять, насколько хорошо вы знакомы с этим новым предметом.

Виртуальный визит в Помпеи: как архитектура управляет нашим вниманием

Можно ли проанализировать взаимодействие человека и архитектурной среды? И при чём тут ГИС и айтрекинг? Рассказываем, как люди ходят в гости к древним римлянам в VR-очках, чтобы лучше понять культуру и повседневную жизнь римского города

Интернет-эстетика Dark Academia в исторической перспективе 2010–2020-х гг.

Почему COVID-19 сделал популярной Dark Academia? Рассказываем, как романтизация мрачности связана с самоизоляцией.

Следи за ушами: как кошки чувствуют боль?

Учёные из Монреальского университета долго задавались вопросом, как понять, что животному больно, и вовремя помочь ему. Результатом их эксперимента стала шкала кошачьей боли. Пройдите наш тест и узнайте, как она создавалась. Подробности о работе учёных можно прочитать в нашем материале.

Sora: как работает модель для генерации видео по тексту

Недавно компания OpenAI, создавшая модели GPT и сервис ChatGPT, выпустила новую модель Sora, которая генерирует видео по текстовому описанию. Такие модели были и раньше, но здесь произошёл качественный скачок. Во-первых, Sora умеет генерировать реалистичные видео в высоком разрешении (вплоть до FullHD), во-вторых, объекты в видео консистентны в течение всего времени. Рассказываем, как работает Sora, какие у неё есть ограничения и неожиданные особенности.

Как создавать расшифровки аудиозаписей в программе ELAN

У вас есть аудиофайл от информанта и вам его нужно расшифровать? Возможно, вы пытаетесь при этом жонглировать несколькими программами сразу: у вас открыты медиаплеер, в котором вы слушаете звук, текстовый файл, в который вы записываете транскрипцию, мессенджер, в котором вы видите корректировки от руководителя. Но расшифровку можно сделать гораздо быстрее и удобнее — с помощью программы ELAN, которая была создана как раз для аннотирования звуковых и видеофайлов.

Не вандализм, а уличное искусство: как устроена самая большая цифровая карта граффити

Цифровые карты позволяют изучать не только географию и историю, но и современное уличное искусство. Граффити часто живут недолго, а вот цифровая карта позволяет сохранить их для анализа и изучения, причем в привязке к месту. Рассказываем о некоммерческом проекте по картографированию граффити

На пыльных дорожках прошедших эпох: семь статей об исторической картографии

Карты всегда были ценным историческим источником, но цифровые технологии сделали их поистине незаменимыми в руках учёных. Геоинформатика и пространственный анализ помогают обнаруживать связи между социальными процессами и окружающей средой. С помощью визуализации геоданных исследователи восстанавливают этапы развития городов и торговых путей, изучают средневековую преступность и превращают сюжеты из прошлого в увлекательные рассказы

«Ты же не думаешь, что можно заниматься диалектологией как профессией?»: интервью с диалектологом Игорем Исаевым

Как отделить язык от диалекта? Должна ли вся страна говорить на одном «стандартном» языке и какие преимущества есть у использования диалектов? Имеют ли смысл политизированные споры вокруг разграничения русского, украинского и белорусского языков? Как проходят диалектологические экспедиции? Всё это «Системный Блокъ» обсудил с диалектологом, замдиректора Института языкознания РАН по науке Игорем Исаевым.

Как ChatGPT помогла получить литературную премию

В начале этого года в Японии выдали престижную литературную премию писательнице Риэ Кудан. Затем она призналась, что около 5% текста написаны ChatGPT. Случился скандал. Сможет ли ИИ заменить писателей? Как нейросети «проникают» в литературу? Читайте в новом материале «Системного Блока»‎.

10 необычных экспонатов музейного Госкаталога РФ

Где можно найти настольную игру, иронизирующую над перестройкой, матрёшку с мордой собаки Стрелки и сборник суеверий из XVIII века? Рассказываем о необычных экспонатах Госкаталога — цифрового архива экспонатов российских музеев и частных собраний.

Цифровая история Узбекистана и память о репрессиях: платформа Raqamli tarix

Узбекистан — солнечный, хлопковый, гостеприимный. Но в XX веке и тут проходили сталинские репрессии. Проект Raqamli tarix («Цифровая история») помогает сохранить память об этом периоде в истории страны. В одном месте собраны база данных о репрессированных, фотографии и видео, а также архивные материалы на трёх языках: узбекском, русском и английском.

Глазами нейросети: мир как набор стереотипов

Миром управляют белые мужчины. Они же в основном работают врачами, юристами и судьями — хотя среди них иногда встречаются и белые женщины. Преступления совершают темнокожие парни, а женщины с афроамериканскими корнями готовят бургеры в забегаловках. Ну а если в ресторан зашел русский, то он непременно возьмет стопку водки. Именно так видит наш мир нейросеть Stable Diffusion. Алгоритмы искусственного интеллекта не только генерируют изображения или тексты, но и воспроизводят общественные стереотипы. Рассказываем, как и почему они это делают.

«Нас вообще все боятся»: Александра Архипова о том, зачем фольклористы и социальные антропологи собирают слухи и считают репосты

Как примирить сторонников количественных и качественных исследований культуры? Как исследователям фольклора помогают цифровые базы данных? О чём могут рассказать лозунги митингующих и народные рецепты лечения COVID-19? Почему конспирологические теории так привлекательны? Обо всём этом «Системный Блокъ» поговорил с антропологом Александрой Архиповой.

Цвет антиутопии зелёный: цифровая рецензия на роман «Радио Мартын»

Сегодня гуманитарии стремительно осваивают цифровой мир и уже совсем по-другому смотрят на литературные произведения. В этой статье мы проанализировали книгу Филиппа Дзядко «Радио Мартын» с помощью языка программирования R и отразили в цифрах уникальность авторского стиля писателя

Цифровые коллекции японского искусства

Как технологии открывают миру богатство культурного наследия? Японские гравюры, живопись и каллиграфию можно увидеть и изучать не только вживую, но и через интернет. Исследуем платформу Google Arts & Culture, цифровой ресурс Cultural Japan, базу данных японских гравюр на дереве Ukiyo-e Search и Центр исследования искусства Университета Рицумэйкан, которые позволяют соприкоснуться с оцифрованными произведениями японской культуры из любой точки мира.

👋 Тест: какой вы жест из мультимедийного корпуса русского языка?✍️

«Закатить глаза» или «троекратный поцелуй»? Узнайте, каким жестом вы были бы во вселенной мультимедийного корпуса русского языка.

Понять Льва Толстого: как векторно-семантические модели помогают литературоведам

Идиостиль — это авторский стиль писателя. И если на небольших стихах его изучать удобно, то вот на текстах Льва Толстого — очень непросто. Рассказываем, как филолог Борис Орехов использует векторно-семантические модели для анализа идиостиля Толстого.

Как автоматически расшифровать аудио: пошаговая инструкция для Whisper

Расшифровка аудиозаписи — дело утомительное и времязатратное. К счастью, появляется всё больше сервисов, которые умеют это делать автоматически. Рассказываем, как сделать это с помощью модели Whisper от OpenAI и смотрим, насколько хорошо она справляется с русскоязычными записями

Агрессивная сеть: что мы знаем о кибербуллинге

Каковы риски стать жертвой кибербуллинга? Кто страдает от интернет-агрессии больше всех? Где искать помощи? Обо всём этом — в материале «Системного Блока»

Кто какую часть произведения написал? Выясняем с помощью Stylo

«‎Системный Блокъ» уже рассказывал, что такое стилометрия, и как сделать её своими руками с помощью библиотеки Stylo на языке программирования R. В новом гайде мы познакомим вас с функцией rolling.classify(), которая может помочь в исследований произведений, написанных в соавторстве.

О дивный «Визуальный мир»

Что такое «Визуальный мир», кто в нём живёт и причём тут яблоки? Продолжаем серию материалов про айтрекинг и рассказываем об экспериментальном методе «Визуальный мир». При помощи записи движения глаз учёные изучают, как мозг человека понимает предложения и справляется с лингвистической неоднозначностью.

Перестаньте читать книги и начните их анализировать: тест про дальнее чтение

Пройдите тест и узнайте, какую информацию можно получить из корпусов художественных текстов с помощью дальнего чтения.

«Нам надоели префиксы и инфиксы, что мы можем для людей сделать?»: Ольга Драгой о настоящем и будущем нейролингвистических исследований

Нейролингвистические исследования находятся на стыке психологии, неврологии и лингвистики: здесь изучается речь пациентов, переживших инсульт, разрабатываются приложения для определения дислексии и даже синтезируются слова по активности нейронов. О соединении нейролингвистических экспериментов с машинным обучением «Системный Блокъ» поговорил с Ольгой Драгой, директором Центра языка и мозга НИУ ВШЭ и доктором филологических наук.

Карточный активизм. Как контркартографирование помогает социальным меньшинствам

Может ли карта стать политическим инструментом? Как контркартографирование создаёт альтернативную реальность? Узнаем в материале «Системного Блока».

KuroNet: как работает модель для распознавания старых японских иероглифов

Для распознавания старинных японских иероглифов применяется OCR под названием KuroNet. В основе KuroNet лежит специальная нейросетевая модель. Пошагово разберем что делать, когда нужно распознать рукописный текст на японском языке: от выбора текста до использования приложения miwo для смартфона.

Зима бёрдвотчеру не помеха! Определите птицу по фотографии

Наблюдать за птицами можно даже зимой — время искать снегирей! Мы уже рассказывали вам о сервисах, которые помогают изучать природу и заниматься бёрдвотчингом, или наблюдением за птицами. При помощи разных сайтов и приложений можно определить вид птицы не только по внешнему виду, но и по пению и даже перу! Проверьте свои познания в орнитологии. Пройдите тест и узнайте, насколько хорошо вы разбираетесь в птицах.

Религии Африки через данные: во что и как верит самый религиозный континент Земли

Рассказываем, чем уникальны конфессии Африки — континента, где переход от этнических религий к христианству и исламу во многих сообществах произошёл всего за несколько десятилетий. Благодаря собранным датасетам изменения в вероисповеданиях можно отследить и измерить.

«Долой копирайт!»: история и философия open source

Мы привыкли, что контент, программа или информация обязательно находится в чьей-то собственности. Но всегда ли это так? Проблема повсеместной коммерциализации всегда волновала компьютерных разработчиков. Многие из них с 80-х годов XX века поддерживают идеи свободного программного обеспечения, или open source. Рассмотрим историю этого движения и разберёмся, как его философия влияет на наше общество.

Из семинарии в Совет экспертов: кто и как попадает в иранскую коллегию выборщиков

В Иране есть избираемый орган, состоящий целиком из духовенства, — Совет экспертов. Что это за совет и как он устроен? Илья Васькин, старший преподаватель и младший научный сотрудник Центра изучения Ближнего Востока, Кавказа и Центральной Азии (CSMECCA) Института Классического Востока и Античности ФГН НИУ ВШЭ, проанализировал данные о членах Совета экспертов и обнаружил, какие изменения происходили в политизированной части иранского духовенства с 1983 года.

Как устроена оцифровка дневников: Михаил Мельниченко о проекте «Прожито» и его перезапуске

Проект «Прожито» начался с небольшой группы волонтёров, собиравших и оцифровывавших личные дневники. Сегодня это крупный центр по цифровой архивации эго-документов: дневников, мемуаров, писем и других личных свидетельств времени. Основатель «Прожито» Михаил Мельниченко рассказал «Системному Блоку» о том, кто и как приносит документы для оцифровки, откуда берутся тысячи волонтёров и как изменится «Прожито» в ближайшем будущем.

Забытые голоса истории: граффити древнего храма переходят в цифру

Как лазеры и трехмерное моделирование помогают изучать древние изображения на стенах храма богини Исиды на египетском острове Филы? Рассказываем о цифровом проекте «Граффити Храма Фил».