
Нейросеть и человек написали книгу
Команда проекта полгода обучала нейросеть ruGPT-3 на рассказах писателя Павла Пепперштейна, чтобы добиться наиболее «естественного» языка
В наши дни подписание петиций или краудфандинговый сбор средств на чьи-нибудь нужды стали привычным делом. Кажется, постоянный фидбек прочно вошел в нашу повседневность: прежде чем купить новую вещь или посетить мероприятие мы тщательно проверяем отзывы. В Англии XVII-XVIII веков тоже можно было подать жалобы или петицию. Новый цифровой проект английских ученых позволяет проанализировать обращения крестьян и горожан в вышестоящие инстанции.
Команда проекта полгода обучала нейросеть ruGPT-3 на рассказах писателя Павла Пепперштейна, чтобы добиться наиболее «естественного» языка
Археологические исследования Средних веков восстанавливают историю, осваивая глубины морей и земли. На дне моря находят артефакты: не только обломки судов, но и, к примеру, керамику, которую они перевозили. Рассказываем, как с помощью фотограмметрии с высокой точностью удалось сохранить венгерский шлем X века.
Рассказываем об одной из классических моделей машинного обучения – линейной регрессии
Новая модель содержит 540 миллиардов параметров, за счет чего способна объяснять шутки и угадывать фильмы по эмодзи.
Рассказываем, что такое мешок слов и как он может помочь в задачах автоматической обработки текста
Процессы, которые происходят в обществе, оставляют много цифровых следов. Поисковый спрос достаточно подробно документирует состояние общества и его болевые точки. Рассказываем про взрывной рост интереса к мобилизации в поисковиках за последние 3 месяца
Более 7 миллионов человек покинули Украину за три месяца боевых действий. Смотрим на данные самого масштабного миграционного кризиса с середины XX века
Существует ли связь между стихотворным размером и тематикой стихотворения? Можно ли стихи, написанные одним размером, объединить в связанные по смыслу группы? Ищем ответы на эти вопросы в европейской поэзии с помощью тематического моделирования
Исследователи предложили новый подход на основе деревьев решений в задаче анализа выживаемости
Схемы, модели и другие способы наглядно представить информацию давно стали неотъемлемой частью повседневной жизни. В исторической науке к методу визуализации часто прибегают, чтобы изобразить генеалогии династий или браков. В статье расскажем о том, что такое просопография, а также о цифровых методах, которые помогают ученым анализировать прошлое.
В Туркменистане в 2021 году при подключении к сетевому интернету власти требовали от граждан давать клятву на Коране о том, что те не будут использовать обходы блокировок. В Китае «умные города» следят за уровнем преступности и антиобщественным поведением. В России на 2088% вырос спрос на сервисы VPN — по данным на 13 марта 2022 года. «Системный блок» разбирается, есть ли причины опасаться тотального цифрового контроля.
Модель Ithaca позволила повысить точность реставрационных работ почти в три раза: с 25% до 72%
Моргенштерн, Юрий Дудь, Екатерина Шульман, Face, Алексей Венедиктов…. Каждую неделю мы слышим о пополнении реестра «иноагентов» новыми именами. Но как устроен этот реестр и для чего в нем целых четыре списка? Мы подготовили для вас разбор системы учета «иноагентов» с понятной инфографикой.
Ученые натренировали нейросеть определять, кто из пользователей мобильных устройств нуждается в гуманитарной помощи. Такой подход могут использовать правительства и гуманитарные группы при планировании своей социальной политики.
Придуман новый метод борьбы с терроризмом. Ученые натренировали алгоритм анализировать факторы, связанные с наибольшей вероятностью возникновения терактов. На повышенный риск террористической угрозы влияют высокая плотность населения и развитая транспортная инфраструктура.
Продолжаем разгадывать вечную тайну «Беовульфа» и рассказывать о том, как цифровые филологи строят научный диалог в поисках правды.
Ученые нашли 70 тысяч случаев дублирования научных публикаций в русскоязычном сегменте электронной библиотеки eLIBRARY. Не все они являются нарушением научной этики, но это может свидетельствовать о существовании «черного рынка» статей.
Российские власти скрыли данные о закупках компаний, попавших под западные санкции. «Системный Блокъ» поговорил с экспертом в области данных Иваном Бегтиным о том, как это влияет на всех нас и почему открытость данных — неотъемлемое право каждого человека и гражданина.
Литература как любая сложная система развивается и эволюционирует. Какие-то произведения остаются в центре внимания читателей на десятки и даже сотни лет, другие забываются сразу после издания. Так работает «литературная эволюция», модель которой начинал разрабатывать русский филолог Юрий Тынянов (подробнее об этом — в нашем прошлом материале). Применима ли эта концепция к отдельным частям произведения — например, к диалогу? Исследователи пытаются дать ответ на этот вопрос.
Каждый день коллекция проекта «Пишу тебе» пополняется новыми открытками. На данный момент открыток в нашей базе насчитывается уже более трех тысяч. Как они попадают к нам в руки? В этой подборке расскажем об открытках из московского Еврейского музея и центра толерантности.
Мария Фаликман — доктор психологических наук, профессор департамента психологии факультета социальных наук НИУ ВШЭ, специалист в области когнитивной науки. «Системный Блокъ» расспросил Марию о том, чем занимаются когнитивные исследователи, как связаны когнитивная наука и искусственный интеллект, а также почему воспоминания со временем искажаются.
Reverso Context — сайт, разработанный с целью улучшения качества работы с переводом с различных языков, в том числе и с русского. Рассказываем, как работает переводчик, которым пользуется даже Департамент культуры Франции.
Российские власти говорят о «8 годах геноцида» на Донбассе. Именно этим объяснял необходимость «спецоперации» против Украины президент РФ. Но что говорит статистика? Был ли там геноцид? Мы изучили данные из официальных источников Донецкой народной республики и визуализировали жертвы среди ее военных и ее мирных жителей.
С начала боевых действий на Украине мы регулярно слышим о том, что за границей притесняют людей из России. Но чаще всего слышим это из самой России. Обычно это истории из третьих рук: «знакомому моей знакомой пробили колеса за русские номера». Чего тут больше: слухов и пропагандистских выдумок или реально возросшей русофобии? «Системный Блокъ» провел собственное расследование и опросил более 100 россиян из 15 стран. Все это реальные люди, которых мы знаем и за существование которых ручаемся. Вот что они нам рассказали.
Обосновано ли разделение России на «освоенную» и «неосвоенную» части? Карты плотности автодорог, железнодорожного полотна и аэропортов доказывают обратное.
Нью-йоркский музей МоМА — один из старейших музеев современного искусства в мире. В MoMA хранятся работы Рене Магритта и Энди Уорхола, Джексона Поллока и Марко Ротко, Марка Шагала и Казимира Малевича, Сальвадора Дали и Пабло Пикассо. А еще там постоянно проходят выставки — их было так много, что это можно изучить цифровыми методами.
Мы часто слышим фразы вроде «Он не проявляет никакого интереса. Это все потому, что он флегматик!» или «У нее все время печальный вид, может быть, она меланхолик?». Но ведь эти слова придумали еще древние греки. А что говорит про темпераменты современная наука, вооруженная ЭЭГ, МРТ и прочими объективными методами познания мозга? Разбираемся, почему именно так делят людей и насколько научно это разделение.
С конца февраля в России заблокировали более 50 сайтов интернет-СМИ. Некоторые из них решили приостановить работу, ликвидировать сайты и удалить аккаунты в соцсетях. Но даже это не означает полное исчезновение информации из общего доступа. Специалисты по веб-архивации уже начали работу над архивами «Эха Москвы» и других медиа. Рассказываем, кто и как сегодня сохраняет независимые СМИ и как можно помочь даже если вы не IT-специалист.
Франко Моретти пишет: «Мы умеем читать тексты, теперь нужно научиться не читать их». Возможно ли исследование литературы без детального чтения текстов? Возможно. При помощи дальнего чтения и инструментария digital humanities.
Пандемии, кризисы и войны бьют не только по людям, но и по культуре. Многие музеи оказываются недоступны, а то и вовсе лишаются своих фондов. В феврале 2011 года Google запустил агрегатор изображений произведений искусства в высоком качестве — Google Art Project (GA&C) с целью сделать культуру более доступной и сохранить ее в цифровой форме. Но во всём ли многообразии культура доступна в GA&C, или там есть подвохи?
Мы оцифровали тысячи старых открыток, но до сих пор у нас не было по ним удобного поиска. Теперь можно искать по датам, местам отправления и получения, тематическим тегам и по текстам открыток.
Еще месяц назад мы с уверенностью смотрели в будущее, почти привыкнув к «новой нормальности» в мире с пандемией. Но оказалось, что впереди нас ждали внезапные события, имеющие колоссальные последствия для всех. Как в условиях неопределенности сохранить способность мыслить? Как поддерживать себя и близких? Как реагировать на острые ситуации? И что делать с планами, которые рассыпались за секунды? «Системный Блокъ» попросил психологов ответить на вопросы, которые волнуют нас сегодня.
Изучением всего сущего и категоризацией понятий и объектов занимается не только философия, но и компьютерная наука. Как это может помочь оптимизировать работу поиска, предостеречь от кибератак и построить графы знаний? В новой статье глоссария рассказываем об онтологии – формате хранения структурированных данных – и объясняем, зачем ее создавать и где применить.
Международное сообщество исследователей запустило инициативу по сохранению украинского культурного наследия в цифровой форме
Хотя многие научные организации замораживают сотрудничество с коллегами из России, немало зарубежных ученых выступили за сохранение научных связей.
Многие зарубежные научные и учебные учреждения отказываются от сотрудничества с российскими коллегами. Для студентов закрываются программы обмена, с территории России ограничивается доступ к программному обеспечению, исследователям отказывают в публикации. Публикуем подборку новостей об этом
24 января команда проекта «Пишу тебе» приняла участие в мероприятиях Недели цифровой гуманитаристики в Санкт-Петербурге и провела воркшоп по расшифровке дореволюционных почтовых открыток. Мероприятие было организовано DH-центром Университета ИТМО. Рассказываем о некоторых открытках, расшифрованных в рамках проекта.
Рассказываем, как сделать тематическое моделирование для большого объема текста, предположить его содержание и разделить по темам
Порой поисковик понимает нас лучше, чем мы сами. Например, по запросу «фильм, в котором был грунт» он ответит верно и выдаст «Стражей галактики». Это возможно благодаря Knowledge Graph – семантической сети, которая умеет выявлять взаимосвязи между разными объектами. В новой статье глоссария рассказываем, что такое граф знаний, как он устроен и чем помогает поисковикам.
Общение с чат-ботами и голосовыми помощниками стало частью повседневного опыта. Мы спрашиваем у нейросетей о погоде и пробках, просим переводить и сочинять тексты, проверяем их способности стихосложения и иногда даже делимся сокровенными секретами. СБъ уже не раз рассказывал о работе языковых моделей, которые делают боты более человечными. Предлагаем освежить знания и прочитать материал из глоссария про наиболее крупную и продвинутую языковую модель в мире – GPT-3
Война отражается не только в перемещениях войск, сражениях и потерях. Война проникает глубоко в быт, и затем историки находят ее следы в самых личных вещах. Например, в переписках солдат и офицеров с семьями. Рассказываем о том, что писали в открытках с фронтов мировых войн.
Первое полное пособие по использованию Python в гуманитарных науках доступно в онлайн-формате
С ноября 2021 года пользователям доступна вторая, улучшенная версия датасета.
Инна Кижнер — старший преподаватель кафедры информационных технологий в креативных и культурных индустриях, научный сотрудник лаборатории «Digital Humanities» Сибирского федерального университета. В интервью «Системному Блоку» она рассказала, каким искажениям подвержены цифровые коллекции музеев, какие культурные явления можно исследовать благодаря оцифровке и как должна выглядеть идеальная цифровая коллекция.
Бот «AI да Пушкин» дописывает любую предложенную ему фразу до четверостишия в стиле А.С. Пушкина — но только если в ней нет «запретных» слов
Тест Тьюринга придумали в середине 20 века, чтобы измерить интеллект машин и проверить, насколько он схож с человеческим. Сегодня мы все еще используем этот тест, но чаще с обратной целью: теперь компьютер проверяет наш интеллект. Рассказываем про обратный тест Тьюринга, популярные капчи и объясняем, зачем нам все это нужно
Алиса Яндекса, Олег Тинькофф-банка и телеграм-бот для демотиваторов — одно и то же? Или нет? Разбираемся, как работают диалоговые системы и почему одни могут рассказать анекдот и поддержать диалог о жизни, а другие — сводить в кино и заказать пиццу.
Разбираемся, как законотворческая деятельность депутатов сказывается на их внутрипартийном рейтинге. Может ли «активный» депутат рассчитывать на попадание в следующий созыв Государственной Думы РФ?
Институт русской литературы (Пушкинский дом) РАН пополнил ДетКорпус и сделал его доступным не только для онлайн-поиска, но и в качестве датасета
Gephi — самый известный инструмент для визуализации графов и сетевого анализа. С его помощью можно исследовать и население Викторианской Англии, и отношения героев «Войны и мира», и странички друзей Вконтакте. Рассказываем максимально просто, как пользоваться Gephi
Сегодня с геоданными взаимодействует практически каждый. Мы заказываем такси и еду, используем навигацию, изучаем цифровые карты, чтобы понять местность или найти нужное заведение. С помощью геоданных наука может предсказать экологические проблемы, а бизнес и государство – строить логистику компаний, контролировать строительство, нефтяную отрасль, развивать сельское хозяйство. Все это возможно благодаря геоинформационной системе с огромным количеством данных о местности, инфраструктуре, экологии. В этой статье мы коротко расскажем о видах геоданных, для чего они нужны и где применяются
В необычном для «Системного блока» формате book review рассказываем о книге Франко Моретти «Дальнее чтение» и разбираемся, почему в «Гамлете» погибают только персонажи, связанные с Гамлетом и Клавдием, а литература Парижа и Буэнос-Айреса в XIX в. имеет больше общего, чем литература Парижа и французских провинций
Студенчество – сложный период, о котором часто вспоминают с трепетом и теплом. Учиться всегда было непросто: бессонные ночи, стресс, бесконечные сессии. Начинались и заканчивались войны и эпидемии, менялся алфавит и технологии коммуникаций, но люди, несмотря ни на что, стремились к образованию. Ведь университет – это целая экосистема, внутри которой студент становится взрослым человеком. Об этом пишут книги и снимают фильмы, а мы собрали для вас самые интересные открытки студентов и о студентах со времен Российской империи до начала XXI века.
Учёные придумали систему, которая поможет в поиске синтеза новых лекарств. В разработке участвовали исследователи из университетов Страсбурга, Казани и Хоккайдо. Один из руководителей проекта, Тимур Маджидов из Казанского федерального университета, подробно рассказал об истории и работе нейросети и будущем химии
Маски в Инстаграме и ТикТоке способны изменить лицо до неузнаваемости или вообще превратить его в зайчика/оленя/волдеморта. Создание таких масок не обходится без нейросетей и играет в цифровом мире в основном развлекательную роль. Но что если те же технологии можно применить в образовательных целях?
Если вы были в ТикТок, то знаете, что тренд там можно сделать из чего угодно. Пару месяцев назад сотни тысяч просмотров начали набирать записи экрана с сайта Google Books Ngram Viewer, показывающем популярность слова в определенный период времени. Пользователи находят слово «эмо» в 1803 году или упоминание «Звёздных войн» — в 1696
Всеобщая цифровизация повлияла и на школьные уроки математики. Интерактивная доска Miro, программа для визуализации графов Gephi и другие цифровые инструменты помогают разобраться с абстрактными понятиями и побороть математическую тревожность