С какими героями «Войны и мира» вы говорите на одном языке?
О человеке можно многое понять по его высказываниям. Пройдите тест и узнайте, на кого из персонажей «Войны и мира» Л. Н. Толстого вы больше похожи по манере общения.
О человеке можно многое понять по его высказываниям. Пройдите тест и узнайте, на кого из персонажей «Войны и мира» Л. Н. Толстого вы больше похожи по манере общения.
OpenAI выпустила новую версию GPT-4. Apple и OpenAI завершают сделку о сотрудничестве. Авторы архитектуры LSTM выпустили её обновление, которое не хуже Transformer. Google DeepMind анонсировала AlphaFold 3 — нейросеть, способную моделировать широкий спектр биомолекул. Рассказываем, что произошло в мире ИИ за прошедшие две недели.
Как в СССР возник машинный перевод? Чем нетрадиционная лингвистика отличается от традиционной? Почему эмиграция иногда становится спасением жизни? Об этом в интервью изданию «Системный Блокъ» рассказал Игорь Мельчук, лингвист, заслуженный профессор Монреальского университета, один из основоположников российской математической лингвистики и Московской семантической школы.
В исследованиях по определению авторства и количественному анализу стиля широко используется метод Дельта филолога Джона Бёрроуза. Однако Дельта — не единственная придуманная им стилометрическая мера. Дж. Бёрроуз также является автором меры зета, с помощью которой можно сравнивать корпуса текстов. Расчёты на её основе встроены в одну из функций пакета Stylo — oppose().
В Москве на 95-м году жизни скончался лингвист Ю. Д. Апресян — основатель Московской семантической школы, соавтор множества словарей, один из первых исследователей машинного перевода. Мы решили почтить память Ю. Д. Апресяна подборкой статей о прошлом и настоящем точных методов в лингвистике и машинного перевода.
Часто на открытках печатают красивые и яркие фотографии городских достопримечательностей и улиц. В нашем тесте мы предлагаем вам угадать город с открытки — это не так просто, как кажется!
Эйнштейн объясняет старшеклассникам теорию относительности. Маяковский читает стихи у доски. Ученик «обменивается» телом с учителем, а у педагогов остаётся время на саморазвитие. Как дипфейки могут сделать учебный процесс интереснее?
Помните, как в сериале BBC Шерлок Холмс по составу налипшей на кроссовки пыльцы выясняет, где жил их владелец? Это не фантазия сценариста, а научный метод геолокации, которому больше 55 лет. В нашем материале рассказываем, как по следам пыльцы раскрывают преступления, зачем криминалистам ДНК растений и можно ли по пыли на вашей двери определить, где вы живёте.
Что такое литературное школьное образование — только ли книжки, которые год за годом читают ученики? И что из себя представляет «школьный канон»? Кажется, что нет поколения, которое бы не обошлось без «Дубровского» или «Муму», «Преступления и наказания» и «Мастера и Маргариты». Так ли это? Представить состав школьной программы по литературе на протяжении 170 лет и проследить его изменения — такова цель проекта Высшей школы экономики «Список чтения».
Китайский язык может быть очень сложно токенизировать, чтобы извлечь информацию из большого объёма текста: стандартные инструменты путаются в иероглифах. Рассказываем, как пользоваться библиотекой Jieba, которая помогает решить эту проблему.
По данным ООН, закрытие школ во время пандемии, сокращение и автоматизация рабочих мест отодвинули равноправие женщин и мужчин на 31 год — со 100 лет до 131. Могут ли онлайн-образование и EdTech помочь наверстать этот разрыв и сократить его ещё больше? Разбираем в нашем материале.
Национальному корпусу русского языка — 20 лет! По этому поводу мы приготовили для вас тест по уникальным словам русских писателей. Пройдите его — и узнаете, в чьих текстах раздавалось «хохотание» и происходило «требоисправление».
Компания Snowflake выпустила самую большую языковую модель, открытую для коммерческого использования. Разработчикам доступная новая обучающая выборка из 15 триллионов токенов. Microsoft представила новое поколение компактной модели Phi. Рассказываем, что произошло в мире ИИ на прошлой неделе.
Мы собрали лучшие материалы «Системного Блока», посвящённые главной цифровой коллекции текстов на русском языке: художественных, научных, церковнославянских, диалектных, списанных с бересты, поэтических, памятников литературы с XI века и многих других.
Assassin’s Creed — серия игр, сюжет которых построен вокруг многовековой борьбы двух тайных организаций — ассасинов и тамплиеров. Прототипом ассасинов послужили члены средневекового мусульманского течения исмаилитов-низаритов. В нашем материале рассказываем, как видеоигры адаптируют исторические реалии под свой формат.
Биологи, экологи и географы используют машинное обучение для предсказания ареалов самых разных живых существ — в прошлом, настоящем и будущем. Из нашего материала вы узнаете, что такое экологическая ниша, где в Воронежской области можно найти первоцвет B. versicolor, и разберёмся, почему синицы якобы предпочитают Москву, но не Тверь.
Продолжаем наше руководство по анализу текста с помощью Voyant Tools. В прошлом материале мы рассказали, как загрузить и подготовить корпус. Теперь рассмотрим, как исследовать и визуализировать ваши материалы. Автор материала — Екатерина Волженина, выпускница DH-магистратуры НИУ ВШЭ в Москве, историк, менеджер центра глубинного обучения и байесовских методов ФКН.
Как автоматически провести токенизацию и морфологический анализ текстов на корейском языке? Рассказываем про библиотеку koNLPy, которая выделяет токены, определяет морфемы и части речи. А также приводим таблицу, которая показывает, как различные методы этой библиотеки справляются с корейскими смайликами, глаголами вежливости и уважительными суффиксами (не всё так просто!).
Изучение дневников и писем — это возможность услышать голоса людей из прошлого и понять, как они воспринимали и оценивали мир вокруг. В новой подборке мы рассказываем, как цифровые методы помогают сохранять, исследовать и публиковать исторические эго-документы.
Помешает ли постоянная вынужденная миграция развивать фонологию, исследовать русский авангард, заниматься сербо-хорватским эпосом, изучать нейрофизиологические нарушения речи, перенести структурализм с одного континента на другой и создать работы, которые окажут влияние на Леви-Стросса? Жизнь Романа Осиповича Якобсона показывает, что даже сложное время не может остановить искреннее желание заниматься наукой.
Метеорологи обещали осадки в виде LLM: новая открытая языковая модель, обновление GPT-4 и скорый выход LLaMa 3.
«Системный Блокъ» пополняет свою коллекцию гайдов. Сегодня покажем, как сделать анализ текстов с помощью Voyant Tools, популярного инструмента среди цифровых гуманитариев. Разнообразные визуализации, частотный анализ, тренды, коллокации — вот только часть возможностей инструмента. Автор материала — Екатерина Волженина, выпускница DH-магистратуры НИУ ВШЭ в Москве, историк, менеджер центра глубинного обучения и байесовских методов ФКН.
Мы уже рассказывали, как работать с японским языком с помощью сервиса Voyant Tools. Покажем, как можно самостоятельно провести токенизацию текстов на японском, применяя библиотеку fugashi, которая способна также провести морфологический анализ и выделять именованные сущности.
Что такое лингвистический эксперимент и как его запрограммировать? Какие инструменты стоит использовать при его проведении и где для этого найти участников? Узнаем в материале «Системного Блока».
Филологи уже долгое время подозревают, что одна из пьес чешского драматурга Карела Штайгервальда на самом деле принадлежит перу Милана Кундеры. Рассказываем, что по этому поводу думают цифровые филологи и специально обученные ими модели стилометрии
OpenAI и Microsoft строят суперкомпьютер для нейросетей, модель Claude 3 Opus от Anthropic обошла GPT-4 в одном из основных рейтингов, Илон Маск опубликовал свою большую языковую модель без цензуры.
Может ли работа с данными помочь в борьбе с коррупцией? «Системный Блокъ» выяснил, какие цифровые сервисы и проекты занимаются антикоррупционной деятельностью с помощью открытых и не очень открытых данных.
Специально для вас мы попросили нейросети сгенерировать изображения. Пройдите тест и проверьте, сможете ли вы понять, результатом какого запроса является картинка перед вами.
Создатели Sora рассказали, откуда брали видео для обучения, но кое о чем умолчали. Компания Cohere — один из главных конкурентов OpenAI/ChatGPT — выпустила модель с 35 млрд параметров. Вышла сопоставимая с трансформерами RNN-модель EagleX — неужели рекуррентные нейросети рано хоронить? Рассказываем, что произошло в мире ИИ за прошедшую неделю
С сентября 2022 года во всех российских школах ввели новый предмет — «Разговоры о важном». По замыслу составителей курса, данный предмет должен показывать школьникам, что происходит в мире, и формировать у них определённые ценности. Предлагаем пройти наш тест и понять, насколько хорошо вы знакомы с этим новым предметом.
Можно ли проанализировать взаимодействие человека и архитектурной среды? И при чём тут ГИС и айтрекинг? Рассказываем, как люди ходят в гости к древним римлянам в VR-очках, чтобы лучше понять культуру и повседневную жизнь римского города
Почему COVID-19 сделал популярной Dark Academia? Рассказываем, как романтизация мрачности связана с самоизоляцией.
Учёные из Монреальского университета долго задавались вопросом, как понять, что животному больно, и вовремя помочь ему. Результатом их эксперимента стала шкала кошачьей боли. Пройдите наш тест и узнайте, как она создавалась. Подробности о работе учёных можно прочитать в нашем материале.
Недавно компания OpenAI, создавшая модели GPT и сервис ChatGPT, выпустила новую модель Sora, которая генерирует видео по текстовому описанию. Такие модели были и раньше, но здесь произошёл качественный скачок. Во-первых, Sora умеет генерировать реалистичные видео в высоком разрешении (вплоть до FullHD), во-вторых, объекты в видео консистентны в течение всего времени. Рассказываем, как работает Sora, какие у неё есть ограничения и неожиданные особенности.
У вас есть аудиофайл от информанта и вам его нужно расшифровать? Возможно, вы пытаетесь при этом жонглировать несколькими программами сразу: у вас открыты медиаплеер, в котором вы слушаете звук, текстовый файл, в который вы записываете транскрипцию, мессенджер, в котором вы видите корректировки от руководителя. Но расшифровку можно сделать гораздо быстрее и удобнее — с помощью программы ELAN, которая была создана как раз для аннотирования звуковых и видеофайлов.
Цифровые карты позволяют изучать не только географию и историю, но и современное уличное искусство. Граффити часто живут недолго, а вот цифровая карта позволяет сохранить их для анализа и изучения, причем в привязке к месту. Рассказываем о некоммерческом проекте по картографированию граффити
Карты всегда были ценным историческим источником, но цифровые технологии сделали их поистине незаменимыми в руках учёных. Геоинформатика и пространственный анализ помогают обнаруживать связи между социальными процессами и окружающей средой. С помощью визуализации геоданных исследователи восстанавливают этапы развития городов и торговых путей, изучают средневековую преступность и превращают сюжеты из прошлого в увлекательные рассказы
Как отделить язык от диалекта? Должна ли вся страна говорить на одном «стандартном» языке и какие преимущества есть у использования диалектов? Имеют ли смысл политизированные споры вокруг разграничения русского, украинского и белорусского языков? Как проходят диалектологические экспедиции? Всё это «Системный Блокъ» обсудил с диалектологом, замдиректора Института языкознания РАН по науке Игорем Исаевым.
В начале этого года в Японии выдали престижную литературную премию писательнице Риэ Кудан. Затем она призналась, что около 5% текста написаны ChatGPT. Случился скандал. Сможет ли ИИ заменить писателей? Как нейросети «проникают» в литературу? Читайте в новом материале «Системного Блока».
Где можно найти настольную игру, иронизирующую над перестройкой, матрёшку с мордой собаки Стрелки и сборник суеверий из XVIII века? Рассказываем о необычных экспонатах Госкаталога — цифрового архива экспонатов российских музеев и частных собраний.
Узбекистан — солнечный, хлопковый, гостеприимный. Но в XX веке и тут проходили сталинские репрессии. Проект Raqamli tarix («Цифровая история») помогает сохранить память об этом периоде в истории страны. В одном месте собраны база данных о репрессированных, фотографии и видео, а также архивные материалы на трёх языках: узбекском, русском и английском.
Миром управляют белые мужчины. Они же в основном работают врачами, юристами и судьями — хотя среди них иногда встречаются и белые женщины. Преступления совершают темнокожие парни, а женщины с афроамериканскими корнями готовят бургеры в забегаловках. Ну а если в ресторан зашел русский, то он непременно возьмет стопку водки. Именно так видит наш мир нейросеть Stable Diffusion. Алгоритмы искусственного интеллекта не только генерируют изображения или тексты, но и воспроизводят общественные стереотипы. Рассказываем, как и почему они это делают.
Как примирить сторонников количественных и качественных исследований культуры? Как исследователям фольклора помогают цифровые базы данных? О чём могут рассказать лозунги митингующих и народные рецепты лечения COVID-19? Почему конспирологические теории так привлекательны? Обо всём этом «Системный Блокъ» поговорил с антропологом Александрой Архиповой.
Сегодня гуманитарии стремительно осваивают цифровой мир и уже совсем по-другому смотрят на литературные произведения. В этой статье мы проанализировали книгу Филиппа Дзядко «Радио Мартын» с помощью языка программирования R и отразили в цифрах уникальность авторского стиля писателя
Как технологии открывают миру богатство культурного наследия? Японские гравюры, живопись и каллиграфию можно увидеть и изучать не только вживую, но и через интернет. Исследуем платформу Google Arts & Culture, цифровой ресурс Cultural Japan, базу данных японских гравюр на дереве Ukiyo-e Search и Центр исследования искусства Университета Рицумэйкан, которые позволяют соприкоснуться с оцифрованными произведениями японской культуры из любой точки мира.
«Закатить глаза» или «троекратный поцелуй»? Узнайте, каким жестом вы были бы во вселенной мультимедийного корпуса русского языка.
Идиостиль — это авторский стиль писателя. И если на небольших стихах его изучать удобно, то вот на текстах Льва Толстого — очень непросто. Рассказываем, как филолог Борис Орехов использует векторно-семантические модели для анализа идиостиля Толстого.
Расшифровка аудиозаписи — дело утомительное и времязатратное. К счастью, появляется всё больше сервисов, которые умеют это делать автоматически. Рассказываем, как сделать это с помощью модели Whisper от OpenAI и смотрим, насколько хорошо она справляется с русскоязычными записями
Каковы риски стать жертвой кибербуллинга? Кто страдает от интернет-агрессии больше всех? Где искать помощи? Обо всём этом — в материале «Системного Блока»
«Системный Блокъ» уже рассказывал, что такое стилометрия, и как сделать её своими руками с помощью библиотеки Stylo на языке программирования R. В новом гайде мы познакомим вас с функцией rolling.classify(), которая может помочь в исследований произведений, написанных в соавторстве.
Что такое «Визуальный мир», кто в нём живёт и причём тут яблоки? Продолжаем серию материалов про айтрекинг и рассказываем об экспериментальном методе «Визуальный мир». При помощи записи движения глаз учёные изучают, как мозг человека понимает предложения и справляется с лингвистической неоднозначностью.
Пройдите тест и узнайте, какую информацию можно получить из корпусов художественных текстов с помощью дальнего чтения.
Нейролингвистические исследования находятся на стыке психологии, неврологии и лингвистики: здесь изучается речь пациентов, переживших инсульт, разрабатываются приложения для определения дислексии и даже синтезируются слова по активности нейронов. О соединении нейролингвистических экспериментов с машинным обучением «Системный Блокъ» поговорил с Ольгой Драгой, директором Центра языка и мозга НИУ ВШЭ и доктором филологических наук.
Может ли карта стать политическим инструментом? Как контркартографирование создаёт альтернативную реальность? Узнаем в материале «Системного Блока».
Для распознавания старинных японских иероглифов применяется OCR под названием KuroNet. В основе KuroNet лежит специальная нейросетевая модель. Пошагово разберем что делать, когда нужно распознать рукописный текст на японском языке: от выбора текста до использования приложения miwo для смартфона.
Наблюдать за птицами можно даже зимой — время искать снегирей! Мы уже рассказывали вам о сервисах, которые помогают изучать природу и заниматься бёрдвотчингом, или наблюдением за птицами. При помощи разных сайтов и приложений можно определить вид птицы не только по внешнему виду, но и по пению и даже перу! Проверьте свои познания в орнитологии. Пройдите тест и узнайте, насколько хорошо вы разбираетесь в птицах.
Рассказываем, чем уникальны конфессии Африки — континента, где переход от этнических религий к христианству и исламу во многих сообществах произошёл всего за несколько десятилетий. Благодаря собранным датасетам изменения в вероисповеданиях можно отследить и измерить.
Мы привыкли, что контент, программа или информация обязательно находится в чьей-то собственности. Но всегда ли это так? Проблема повсеместной коммерциализации всегда волновала компьютерных разработчиков. Многие из них с 80-х годов XX века поддерживают идеи свободного программного обеспечения, или open source. Рассмотрим историю этого движения и разберёмся, как его философия влияет на наше общество.
В Иране есть избираемый орган, состоящий целиком из духовенства, — Совет экспертов. Что это за совет и как он устроен? Илья Васькин, старший преподаватель и младший научный сотрудник Центра изучения Ближнего Востока, Кавказа и Центральной Азии (CSMECCA) Института Классического Востока и Античности ФГН НИУ ВШЭ, проанализировал данные о членах Совета экспертов и обнаружил, какие изменения происходили в политизированной части иранского духовенства с 1983 года.
Проект «Прожито» начался с небольшой группы волонтёров, собиравших и оцифровывавших личные дневники. Сегодня это крупный центр по цифровой архивации эго-документов: дневников, мемуаров, писем и других личных свидетельств времени. Основатель «Прожито» Михаил Мельниченко рассказал «Системному Блоку» о том, кто и как приносит документы для оцифровки, откуда берутся тысячи волонтёров и как изменится «Прожито» в ближайшем будущем.