авторский текст

По словам их узнаете их: как вычисляли автора «Беовульфа»

Рассказываем, как одни ученые устанавливали авторство знаменитого древнеанглийского эпоса «Беовульф» при помощи статистики, а другие с ними спорили. Ведь научные споры цифровых филологов — это интересно!

чат-бот Meena

Давай поговорим: как работает «человечный» чат-бот Google

В Google попытались сделать чат-бота, который заточен на максимально осмысленные и человекоподобные ответы. Рассказываем, как он устроен

нейросети в искусстве

Определяем дату написания картины онлайн без регистрации и СМС

Научить нейросети понимать искусство пытаются уже много лет. И хотя про «понимание» говорить рано, некоторые задачи, ранее доступные лишь искусствоведу, они решают неплохо! Пример — датировка живописи. Рассказываем про систему, сделанную студентами МИСиС, которая может датировать картины — причем не только всем известные «Звездную ночь» или «Мона Лизу», но и полотна неизвестных художников. Кстати, эту модель может протестировать любой желающий!

какие задачи решаются с помощью NLP

Компьютерная лингвистика в медицине: от справок до COVID

О чем вы думаете, когда слышите «NLP»? О голосовых помощниках, о переводчиках, о поисковой машине… Но область применения для технологии обработки естественного языка гораздо шире! Разбираемся, как NLP помогает бороться с COVID-19 и упрощает взаимодействие людей в медицине

система ГИС

Цифровой Гарлем: GIS-система по истории самого известного черного района США

Борьба угнетенных людей за свои права на улицах городов — явление, через которое проходили и проходят многие страны. Движение Black Lives Matter вновь обострило борьбу чернокожего населения за свои права в США, но ведется эта борьба давно — и привлекает внимание историков. Изучаем корни сложных расовых взаимоотношений в нью-йоркском Гарлеме через GIS-систему Digital Harlem

Математика протестов: тест о штрафах и задержаниях митингующих в России

Сколько городов охватили протесты? А на какую сумму уже оштрафовали всех задержанных на акциях? Пройдите наш тест по статистике протестов — и узнайте, насколько хорошо вы представляете ключевые «протестные цифры».

Facebook соцсеть

Цифровая песочница для ботов-наркоторговцев

По исследованию Insider Intelligence за 2020 год пользователи из США не доверяют Facebook в вопросах защиты личной информации. Разработчики социальной сети разрабатывают проект, нацеленный на поиск слабых мест Facebook. Он поможет выявить потенциальные проблемы с конфиденциальностью с помощью ботов до того, как они повлияют на реальных людей, использующих платформу

выражение скорби

Посты о смерти: оценить нельзя игнорировать

Все видели мемы «Проспал дистанционку» с траурной свечкой, «Здоровья погибшим» и «Press F to pay respect»? Кому-то они покажутся циничными, но пользователи могут использовать черный юмор из-за фрустрации и непонимания, как реагировать на трагические новости. Разбираемся, почему никто не знает, ставить ли лайк смерти в сети

ИИ в играх

Пазлы и искусственный интеллект: как улучшить нейросети при помощи игр

С помощью мобильных игр мы обычно расслабляемся и убиваем время. А вот новая игра от исследователей из Калифорнийского университета и фонда Шампалимо запущена для исследовательских целей — она изучает человека, чтобы улучшить искусственный интеллект. Разбираемся, к каким открытиям может привести игра-пазл

NLP

ЕГЭ для нейросетей: как тестируют усвоение языка машинами

Многие знают о современных языковых моделях и спорят, что лучше: BERT или GPT-3. Но мало кто знает, по каким критериям оценивается их качество. Разбираемся, что делает языковую модель умной

как работает МРТ как работает полиграф

Миф о «машине правды»: как работают полиграф и МРТ на самом деле

Миф, что с помощью современных устройств можно раскрыть обман, очень устойчив. При этом научные исследования указывают на серьезные недостатки таких технологий. Разбираемся, могут ли полиграф и МРТ отделить правду от лжи

Что не так с современным машинным обучением. Расшифровка подкаста с Дмитрием Ветровым

Публикуем материалы к шестому выпуску подкаста «Неопознанный Искусственный Интеллект»: текст расшифровки выпуска, оглавление, полезные ссылки и термины.

rucompromat

Токсичный Путин: что видно в соцсети русского компромата

Рассказываем, что увидели ученые, построив «социальную сеть русского компромата» на 11 тысяч человек. Спойлер: Путин официально самый токсичный! Но ведь если ваши связи помогают вам прятать деньги и возводить на них дворцы, то «токсичность» можно и потерпеть? Ради комнаты для грязи — годятся любые связи. Подробности — в нашей статье

сколько лет дому

Как построить карту возрастов зданий на открытых данных: проект How old is this house?

Визуализация возраста зданий на карте — не новая идея, в том числе для Москвы. Подобную вещь несколько лет назад сделал «Меркатор», сравнительно недавно интерактивную карту опубликовала «Стрелка». Но оба проекта посвящены теме жилищного строительства и показывают только жилые дома. Проект how-old-is-this.house старается показать более полную картину

улучшить изображение нейросеть

Возвращение четкого попугая: как нейросеть реставрирует старые советские мультфильмы

«Системный Блокъ» уже рассказывал, как «Союзмультфильм» вручную восстановил часть советских анимационных лент. Основная проблема старых мультфильмов — не физические повреждения и выцветание, а низкое разрешение видеозаписи.

Неопознанный искусственный интеллект

Взгляд на ИИ из Кремниевой долины. Расшифровка подкаста с Николаем Любимовым

Дополнение к пятому выпуску подкаста «Неопознанный Искусственный Интеллект». Здесь вы найдете полную расшифровку, оглавление выпуска и полезные ссылки

Как цифровой этикет формирует комфортную digital-среду

Благодаря пандемии мы уже научились защищать свои физические границы и держать дистанцию. Но личные границы существуют и в цифровой среде. Разбираемся, как обезопасить свою страницу от хейтеров, не скомпрометировать самих себя и писать сообщения так, чтобы получать качественные и своевременные ответы.

«Системный Блокъ» 2020: лучшие посты

В 2020 году Системный Блокъ опубликовал примерно 400 материалов, включая статьи, интервью, подкасты, видео и мемы. Сегодня мы собрали для вас лучшее. Крутейшие исследования, интервью, визуализации и мемы 2020 года от «СБъ» — в одной статье

цель искусственного интеллекта

Достигла ли своих целей разработка искусственного интеллекта?

В 1972 году ученые составили список из 12 задач, которые нужно решить для создания искусственного интеллекта в ближайшие десятилетия. В список входили автоматический перевод, самоуправляемые автомобили и даже автономные роботы-планетоходы. Мы попробовали оценить, что сделано, а что еще нет

цифровой архив воспоминаний

Как звучат личные истории в цифровом архиве: интервью с Линор Горалик

Все, что ты помнишь, важно. Как звучат личные истории в цифровом архиве воспоминаний, почему воспоминания стоит транслировать и какие цели преследует проект по актуализации памяти. Обо всем этом — в интервью с Линор Горалик, писательницей, основавшей проект Postpost. Media

Как строить искусственный интеллект и не погубить человеческую цивилизацию. Расшифровка подкаста с Константином Воронцовым

Эта страничка — дополнение к третьему выпуску подкаста «Неопознанный Искусственный Интеллект». Здесь вы найдете полную расшифровку, оглавление выпуска и полезные ссылки.

метод моделирования в истории

Пелопоннесская война и анализ данных: статистические модели для историков

При изучении прошлого ученые часто сталкиваются с нехваткой данных о событиях. Это вызывает проблемы при проверке подлинности фактов и ведет к закономерной фальсификации исторического момента. Рассказываем, как статистические модели исторического моделирования могут помочь исследователям

Что такое редакционное расстояние

Как понять, насколько близки две строки формально? Какое расстояние от слова «карета» до слова «ракета»? Линейкой здесь не измеришь, на помощь приходят редакционные расстояния. Рассказываем, что такое редакционное расстояние, как они работают и какие виды редакционных расстояний существуют

Как обучать датасаентистов, играя в шляпу, и запускать космические корабли будущего. Подкаст НИИ с Виктором Кантором

Эта страничка — дополнение к третьему выпуску подкаста «Неопознанный Искусственный Интеллект». Здесь вы найдете полную расшифровку, оглавление выпуска и полезные ссылки.

дополненная реальность

Тысяча выставок на ладони: AR-технологии в музеях

Иногда походы в музей не оправдывают наших ожиданий. Тогда на помощь приходят технологии. Рассказываем об инструментах дополненной реальности (AR) для музеев и их возможностях

IT-евангелист

Во что верят IT-евангелисты?

Твоя вера должна быть сильна: рассказываем, кто такой IT-евангелист, что он должен уметь, как этому научиться и почему мы еще услышим об IT-евангелистах в будущем. Этот текст — первый в серии «Новый рынок труда», где мы рассказываем о профессиях будущего. Эту серию на страницах «Системного Блока» запускает социально-гуманитарный факультет НИУ ВШЭ - Пермь.

Как лингвисты делают искусственный интеллект, а компьютер решает ЕГЭ. Подкаст НИИ с Татьяной Шавриной

Эта страничка — дополнение ко второму у выпуску подкаста «Неопознанный Искусственный Интеллект». Здесь мы опубликовали текст расшифровки выпуска, с оглавлением и ссылками, для удобства

музыка и мозг

Как музыка меняет наш мозг

Те, кто ругали весь белый свет, плетясь со скрипкой или гитарой в музыкальную школу в 9 утра в субботу, вряд ли задумывались, что развитие музыкальных навыков меняет наш мозг. Разбираемся, почему пылящийся на полке диплом пианиста — не такая уж и бесполезная вещь

Как работает GPT-2 и в чем его особенности

Все слышали о GPT-3, которая умеет сочинять стихи и прозу, разгадывать анаграммы, переводить, отвечать на вопросы по прочитанному тексту и даже писать философские рассуждения о жизни и смерти. Рассказываем, как работает ее бабушка, GPT-2, без которой такой прорыв в области обработки естественного языка был бы невозможен

шрифт уличной вывески

Нейросеть читает вывески на улицах Лондона

Маленькие дети радуются, когда удается прочитать вывеску на улице. Нейросети тоже читают вывески, а некоторые еще и шрифт определяют. И если по почерку человека можно узнать его характер, то какую информацию о жителях городского района позволяет получить почерк улицы?

Эрмитаж онлайн

Как сходить в Эрмитаж онлайн

Как посмотреть коллекцию одного из самых известных музеев мира, спланировать посещение или просто насладиться искусством, не тратя время на очереди или деньги на билеты — и не рискуя подхватить COVID. Эрмитаж теперь можно посетить онлайн

Как прийти к «сильному» искусственному интеллекту. Первый выпуск подкаста НИИ

Эта страничка — дополнение к первому выпуску подкаста «Неопознанный Искусственный Интеллект». Здесь вы найдете полную расшифровку, оглавление выпуска и полезные ссылки.

От Вердена до Хиросимы, от Гитлера до Трампа: как устроена коллективная память в Twitter

Есть исторические события, о которых помнят, думают и спорят миллионы людей. А есть такие, которые никому не интересны, и никакие государственные выходные вроде Дня народного единства этого не изменят. Теперь измерить вес исторического события или личности в коллективной памяти общества можно с помощью анализа соцсетей

птицы москвы

Видно птицу по полету, а данные о ней — по базе

Какие привычки у птиц, где они обитают и что едят? Проект «Птицы Москвы и Подмосковья» собрал фото, видео с камер наблюдения и сообщения горожан о пернатых на одном сайте. Рассказываем, чем полезен ресурс для исследователей-орнитологов и любителей птиц

минералогия

Интерактивная минералогия: как старинные рисунки камней стали цифровым проектом

В начале 19 века британский натуралист Джеймс Саубери издал 7-томный сборник с рисунками минералов. Теперь насладиться эстетикой «Британская и экзотическая минералогия» можно онлайн. Все рисунки собраны на одной веб-странице в огромный интерактивный постер

Нейросети-трансформеры изнутри: как работает декодер

Мы уже рассказывали, как работают нейросети-трансформеры — самая популярная и успешная нейросетевая архитектура наших дней. Мы подробно разобрались, как нейросеть-трансформер кодирует текст и как она уделяет «внимание» наиболее важным словам и связям. Теперь пришла пора поговорить о том, как нейросеть выдает итоговый результат, будь то машинный перевод, разметка или продолжение начатого текста. То есть, о декодировании

Социальный digital вместо нелегальных помидоров: интервью с соосновательницей IT-проекта для беженцев TaQadam

Платформа TaQadam — пример интеграции социальных задач и IT-предпринимательства. Рожденный в стенах ООН проект направлен на помощь одному из самых незащищенных слоев населения Ливана — беженцам. «Системный Блокъ» поговорил с сооснователем проекта Кариной Грошевой о том, как можно и нужно обеспечивать беженцев работой, которая не требует специального разрешения

data lake

Data Lake или Data Warehouse: как работает сбор и хранение в Big Data и в чем отличие двух методов

О больших данных или Big Data стало известно не так давно, но популярность они уже обрели немалую. Говорить о больших данных просто, а понять, как их собирают и обрабатывают — не всегда. Разбираемся, какие подходы существуют в сборе и хранении информации, в чем отличие Data Lake от Data Warehouse, что такое ETL и ELT и как их не перепутать.

Иллюстратор: Анна Руденко

«Цифровой антрополог отличается от Data Scientist’а вниманием к деталям»: интервью с Дарьей Радченко (КБ «Стрелка»)

COVID-19 изменил повседневные практики миллионов людей — и это видно по их «цифровым следам». Что говорят об эффективности весеннего карантина данные Инстаграма и других соцмедиа, как люди на самоизоляции «переоткрыли» заново свои спальные районы, а также каковы ограничения Data Science в социальных исследованиях — рассказывает Дарья Радченко, заместитель руководителя Центра городской антропологии КБ «Стрелка».

сознание человека

Мозг в банке: где у человека «сознание»

Проигнорировав молчаливое неодобрение некоторых философов, предположим, что сознание существует. Но что это такое и где оно находится? В каком состоянии человек скорее в сознании, а в каком – лишен всяких его признаков? Попробуем разобраться

обработка текста

Мы с Тамарой ходим парой: как работает алгоритм токенизации текстов для нейросетей

Первым шагом в автоматической обработке текста обычно становится токенизация (деление на слова или под-слова). Рассказываем, как сложную задачу токенизации решает простой алгоритм, придуманный для архивирования данных. Алгоритм Byte Pair Encoding создан еще в 1994 году, но используется в самых современных нейросетях вроде GPT-3

IT-компании

Не обделены вниманием: как IT-компании взаимодействуют с органами власти

Недавно «Яндекс» раскрыл информацию о количестве запросов (нет, не поисковых), которые поступают к нему от госорганов и касаются пользовательских данных. Это не первый случай, когда в России публикуется так называемый «отчет о прозрачности» (transparency report). Какова история этой уже мировой практики и почему она требует доработки?

цифровой музей

Онлайн-выставки, цифровое кураторство и музейные IT: интервью с Владимиром Определеновым

Коронавирус повысил важность цифровой трансформации для музеев. Когда физический поход на выставку становится невозможен, остается надеяться на онлайн. Мы поговорили об оцифровке музейных коллекций, онлайн-выставках и роли музея в интернет-экологии с заместителем директора по цифровому развитию ГМИИ им. Пушкина Владимиром Определеновым

Как компьютеры читают комиксы?

Мы привыкли воспринимать комиксы как цветные или черно-белые картинки с текстом, которые складываются в историю. Однако это сложно организованный текст, потребление которого требует от нас и визуального, и текстового восприятия. Несмотря на сложность, сегодня комиксы исследуют автоматически при помощи компьютерного зрения. Рассказываем, как это работает

Как работают трансформеры — крутейшие нейросети наших дней

Трансформер — самая модная сегодня нейросетевая архитектура. Она появилась в 2017 и перевернула всю обработку языка машинами. Мы расскажем о структуре трансформера без кода — чтобы потом при взгляде на код вы могли понять, что он делает

технология эктогенеза

Эктогенез: освобождение женщин от вынашивания ребенка или новая проблема

Выносить и родить ребенка — тяжелый труд. Беременность и роды не только отнимают у женщин силы, время и здоровье, но и влияют на гендерное неравенство. Однако технологии эктогенеза, т.е. вынашивания ребенка вне женского тела, могут изменить ситуацию

перспектива роботизации

Роботы против рабства

Оптимистичные футурологи уверяют, что выносливые, не требующие пищи, дешевые роботы заменят рабский труд (да-да, он до сих пор существует, и это массовая проблема). Звучит хорошо, но что-то не верится. Разберемся подробнее

Искусство до и после: как создать онлайн-выставку на Google Arts&Culture?

История диджитал-арта насчитывает уже не один десяток лет, но сегодня союз искусства и цифровых технологий вступает в новую фазу отношений. Какие возможности этот вынужденный симбиоз открывает для культурных организаций и проектов? Фонд «Четверг» делится опытом создания онлайн-выставки АРТ-ПАМЯТЬ — социокультурного проекта, специально адаптированного для платформы Google Arts&Culture во время карантина

Что хранит крупнейший онлайн-архив исторических документов Америки

Огромное количество исторических документов США теперь доступны онлайн в архиве Гилдера-Лермана. Разбираемся, как такие архивы помогают студентам, исследователям и всем остальным неравнодушным к истории — а также при чем тут мюзикл «Гамильтон»

Скажи «Нет!»: цифровые проекты о домашнем и сексуальном насилии

Проблема насилия по отношению к женщинам, детям и подросткам — одна из острейших в наши дни. Она возникает в дискуссиях о законе о домашнем насилии, в сюжетах новостей и социальных роликах. Даже сериал «Чики» напомнил о телефоне доверия. А мы делимся цифровыми образовательными ресурсами, которые могут спасти жизнь

От аргонавтов до рандонавтов: (не)случайные путешествия

Кто такие рандонавты? Обычные путешественники или же искатели выхода из собственного туннеля реальности? Рандонавты считают, что все глобальные процессы в мире детерминированы: совпадений – ноль, а случайности неслучайны. Они испытывают судьбу и ищут новые «выходы из матрицы», а помогает им в этом квантовый генератор подлинных случайных чисел

Три волшебные буквы: что такое VPN и зачем его использовать?

Про VPN сегодня слышал почти каждый, но не все знают, как устроена система, как ограничивает ее использование закон и какие у нее недостатки. Системный Блокъ объясняет, в каких случаях может пригодиться VPN и как с ним работать

Не по голосу, но по глазам: алгоритм узнает тебя из тысячи

В июне Microsoft, Amazon и IBM временно отказались предоставлять силовым структурам технологии распознавания лиц. Примерно тогда же Ассоциация вычислительной техники призвала Конгресс США ввести мораторий на распознавание лиц во всех штатах. Причины — расовая, этническая и гендерная предвзятость алгоритмов, а также недоверие к полиции. Разбираемся, что не так с распознаванием лиц

Реальность или игра: почему мы можем быть в матрице

С развитием технологий виртуальная реальность становится все более похожей на действительность. А может ли быть, что и наш мир — симуляция, игра в гигантском компьютере, а все наши действия — не наш собственный выбор, а заранее прописанный код? Разбираемся с теорией симуляции

TEI: текстовый инструментарий, который смог

TEI (Text Encoding Initiative) – это формат кодирования текстов и отличная возможность перенести рукописи в удобный электронный вид. TEI используется во многих проектах по созданию цифровых ресурсов. Тексты из архивных документов, рукописей и древних надписей сохраняются со всеми нюансами и разночтениями. А еще дополняются машиночитаемыми метаданными

Сводеш 2.0: новый уровень разговоров про академию

За что хвататься, когда учишь новый язык? Некоторые начинают со ста самых частотных слов, некоторые — с любимой темы или полезных выражений типа «Спасибо» или «Передайте, пожалуйста, соль». Но как быть, если изучать приходится не французский или испанский, а целый пласт разнообразных выражений, используемых в академической среде? На помощь приходят корпусные исследования!

Как не стать жертвой фейк ньюc: советы ученых

Ежедневно мы сталкиваемся с большим потоком противоречивых фактов и искаженной информации. Как отличить фейк-ньюс от реальных фактов? Каким источникам следует доверять и когда нужно сомневаться? Распознать фейки и научиться абстрагироваться от предубеждений поможет научный подход

«Слушание — это акт любви»: для чего нужен StoryCorps

Истории окружают нас повсюду — в новостях, фильмах и сериалах, соцсетях, книгах, подкастах и видеоиграх. Однако часто нас привлекают те рассказы, которые мы услышали от наших родственников, друзей и знакомых. Их истории объединяют разные поколения и события, становятся частью не только семейной, но и мировой культуры. Их поиску проект StoryCorps посвятил свою миссию

До и после взрыва: оценка разрушений в Бейруте по спутниковым снимкам

Взрыв в порту Бейрута этим летом потряс весь мир в прямом и переносном смысле: сметенные с лица земли здания, сотни погибших, тысячи пострадавших и страна на грани гуманитарной катастрофы. Как специалисты использовали снимки со спутников и дронов, чтобы оценить масштаб трагедии, и что мы можем на них увидеть

Маяковский и корпусный анализ: «несоветский» поэт Революции

Продолжаем серию постов о применении Sketch Engine в цифровой филологии на примере исследования текстов Маяковского. В прошлом материале мы узнали, что такое Sketch Engine, научились создавать свой корпус и выяснили, каков был лирический герой Маяковского до и после Революции. Познакомимся с оставшимися функциями Sketch Engine и узнаем, что значили для Маяковского Советы и Россия, что в его жизни изменил 1917 год и как это повлияло на лирику