Читать нас в Telegram

«Цифровой антрополог отличается от Data Scientist’а вниманием к деталям»: интервью с Дарьей Радченко (КБ «Стрелка»)

COVID-19 изменил повседневные практики миллионов людей — и это видно по их «цифровым следам». Что говорят об эффективности весеннего карантина данные Инстаграма и других соцмедиа, как люди на самоизоляции «переоткрыли» заново свои спальные районы, а также каковы ограничения Data Science в социальных исследованиях — рассказывает Дарья Радченко, заместитель руководителя Центра городской антропологии КБ «Стрелка».

Нейросети-трансформеры изнутри: как работает декодер

Мы уже рассказывали, как работают нейросети-трансформеры — самая популярная и успешная нейросетевая архитектура наших дней. Мы подробно разобрались, как нейросеть-трансформер кодирует текст и как она уделяет «внимание» наиболее важным словам и связям. Теперь пришла пора поговорить о том, как нейросеть выдает итоговый результат, будь то машинный перевод, разметка или продолжение начатого текста. То есть, о декодировании

Социальный digital вместо нелегальных помидоров: интервью с соосновательницей IT-проекта для беженцев TaQadam

Платформа TaQadam — пример интеграции социальных задач и IT-предпринимательства. Рожденный в стенах ООН проект направлен на помощь одному из самых незащищенных слоев населения Ливана — беженцам. «Системный Блокъ» поговорил с сооснователем проекта Кариной Грошевой о том, как можно и нужно обеспечивать беженцев работой, которая не требует специального разрешения

data lake

Data Lake или Data Warehouse: как работает сбор и хранение в Big Data и в чем отличие двух методов

О больших данных или Big Data стало известно не так давно, но популярность они уже обрели немалую. Говорить о больших данных просто, а понять, как их собирают и обрабатывают — не всегда. Разбираемся, какие подходы существуют в сборе и хранении информации, в чем отличие Data Lake от Data Warehouse, что такое ETL и ELT и как их не перепутать.

Самоуправляемый автомобиль научился понимать водителя

Команда ученых из MIT запрограммировала автомобиль определять социотипы других водителей. Как это может повлиять на развитие самоуправляемых автомобилей?

сознание человека

Мозг в банке: где у человека «сознание»

Проигнорировав молчаливое неодобрение некоторых философов, предположим, что сознание существует. Но что это такое и где оно находится? В каком состоянии человек скорее в сознании, а в каком – лишен всяких его признаков? Попробуем разобраться

обработка текста

Мы с Тамарой ходим парой: как работает алгоритм токенизации текстов для нейросетей

Первым шагом в автоматической обработке текста обычно становится токенизация (деление на слова или под-слова). Рассказываем, как сложную задачу токенизации решает простой алгоритм, придуманный для архивирования данных. Алгоритм Byte Pair Encoding создан еще в 1994 году, но используется в самых современных нейросетях вроде GPT-3

Как вычислить TF-IDF?

Интуитивно задачу TF-IDF решает каждый, кто делал запрос в Гугле: нужно догадаться, какие слова ярче всего характеризуют запрос и «спросить» именно их. Хороший поисковик, если он хочет выдать релевантные результаты, тоже вычислит, какие слова несут больше всего смысла в текстах и соответствуют запросам. Как получить численные ответы на вопросы о том, какие слова важнее других и что это значит, читайте в глоссарии «Системного Блока»

IT-компании

Не обделены вниманием: как IT-компании взаимодействуют с органами власти

Недавно «Яндекс» раскрыл информацию о количестве запросов (нет, не поисковых), которые поступают к нему от госорганов и касаются пользовательских данных. Это не первый случай, когда в России публикуется так называемый «отчет о прозрачности» (transparency report). Какова история этой уже мировой практики и почему она требует доработки?

цифровой музей

Онлайн-выставки, цифровое кураторство и музейные IT: интервью с Владимиром Определеновым

Коронавирус повысил важность цифровой трансформации для музеев. Когда физический поход на выставку становится невозможен, остается надеяться на онлайн. Мы поговорили об оцифровке музейных коллекций, онлайн-выставках и роли музея в интернет-экологии с заместителем директора по цифровому развитию ГМИИ им. Пушкина Владимиром Определеновым

Как компьютеры читают комиксы?

Мы привыкли воспринимать комиксы как цветные или черно-белые картинки с текстом, которые складываются в историю. Однако это сложно организованный текст, потребление которого требует от нас и визуального, и текстового восприятия. Несмотря на сложность, сегодня комиксы исследуют автоматически при помощи компьютерного зрения. Рассказываем, как это работает

Как работают трансформеры — крутейшие нейросети наших дней

Трансформер — самая модная сегодня нейросетевая архитектура. Она появилась в 2017 и перевернула всю обработку языка машинами. Мы расскажем о структуре трансформера без кода — чтобы потом при взгляде на код вы могли понять, что он делает

Named Entity Recognition (NER)

Когда человек читает книгу, он без труда понимает, что какие-то слова в тексте – это имя героя, а какие-то – название местности, даже если он впервые столкнулся с таким именем или названием. Для компьютера работа по распознаванию имен людей, названий организаций, топонимов и т.п. оказалась довольно сложной, но все-таки машины с ней справляются — и с каждым годом все лучше

технология эктогенеза

Эктогенез: освобождение женщин от вынашивания ребенка или новая проблема

Выносить и родить ребенка — тяжелый труд. Беременность и роды не только отнимают у женщин силы, время и здоровье, но и влияют на гендерное неравенство. Однако технологии эктогенеза, т.е. вынашивания ребенка вне женского тела, могут изменить ситуацию

перспектива роботизации

Роботы против рабства

Оптимистичные футурологи уверяют, что выносливые, не требующие пищи, дешевые роботы заменят рабский труд (да-да, он до сих пор существует, и это массовая проблема). Звучит хорошо, но что-то не верится. Разберемся подробнее

Искусство до и после: как создать онлайн-выставку на Google Arts&Culture?

История диджитал-арта насчитывает уже не один десяток лет, но сегодня союз искусства и цифровых технологий вступает в новую фазу отношений. Какие возможности этот вынужденный симбиоз открывает для культурных организаций и проектов? Фонд «Четверг» делится опытом создания онлайн-выставки АРТ-ПАМЯТЬ — социокультурного проекта, специально адаптированного для платформы Google Arts&Culture во время карантина

Что хранит крупнейший онлайн-архив исторических документов Америки

Огромное количество исторических документов США теперь доступны онлайн в архиве Гилдера-Лермана. Разбираемся, как такие архивы помогают студентам, исследователям и всем остальным неравнодушным к истории — а также при чем тут мюзикл «Гамильтон»

Алгоритм против deepfake

Нейросети способны не только создавать дипфейки, но и бороться с ними — отслеживать манипуляции с изображением, даже если изменен был только один пиксель. Рассказываем и показываем, как работают такие инструменты

Скажи «Нет!»: цифровые проекты о домашнем и сексуальном насилии

Проблема насилия по отношению к женщинам, детям и подросткам — одна из острейших в наши дни. Она возникает в дискуссиях о законе о домашнем насилии, в сюжетах новостей и социальных роликах. Даже сериал «Чики» напомнил о телефоне доверия. А мы делимся цифровыми образовательными ресурсами, которые могут спасти жизнь

От аргонавтов до рандонавтов: (не)случайные путешествия

Кто такие рандонавты? Обычные путешественники или же искатели выхода из собственного туннеля реальности? Рандонавты считают, что все глобальные процессы в мире детерминированы: совпадений – ноль, а случайности неслучайны. Они испытывают судьбу и ищут новые «выходы из матрицы», а помогает им в этом квантовый генератор подлинных случайных чисел

Три волшебные буквы: что такое VPN и зачем его использовать?

Про VPN сегодня слышал почти каждый, но не все знают, как устроена система, как ограничивает ее использование закон и какие у нее недостатки. Системный Блокъ объясняет, в каких случаях может пригодиться VPN и как с ним работать

Не по голосу, но по глазам: алгоритм узнает тебя из тысячи

В июне Microsoft, Amazon и IBM временно отказались предоставлять силовым структурам технологии распознавания лиц. Примерно тогда же Ассоциация вычислительной техники призвала Конгресс США ввести мораторий на распознавание лиц во всех штатах. Причины — расовая, этническая и гендерная предвзятость алгоритмов, а также недоверие к полиции. Разбираемся, что не так с распознаванием лиц

Реальность или игра: почему мы можем быть в матрице

С развитием технологий виртуальная реальность становится все более похожей на действительность. А может ли быть, что и наш мир — симуляция, игра в гигантском компьютере, а все наши действия — не наш собственный выбор, а заранее прописанный код? Разбираемся с теорией симуляции

Изучение иностранных языков увеличивает мозг

Группа ученых из Швеции провела исследование о влиянии на мозг изучения иностранных языков. Оказалось, что интенсивное изучение языков привело к росту области гиппокампа, которая отвечает за овладение новым материалом

TEI: текстовый инструментарий, который смог

TEI (Text Encoding Initiative) – это формат кодирования текстов и отличная возможность перенести рукописи в удобный электронный вид. TEI используется во многих проектах по созданию цифровых ресурсов. Тексты из архивных документов, рукописей и древних надписей сохраняются со всеми нюансами и разночтениями. А еще дополняются машиночитаемыми метаданными

Сводеш 2.0: новый уровень разговоров про академию

За что хвататься, когда учишь новый язык? Некоторые начинают со ста самых частотных слов, некоторые — с любимой темы или полезных выражений типа «Спасибо» или «Передайте, пожалуйста, соль». Но как быть, если изучать приходится не французский или испанский, а целый пласт разнообразных выражений, используемых в академической среде? На помощь приходят корпусные исследования!

Как не стать жертвой фейк ньюc: советы ученых

Ежедневно мы сталкиваемся с большим потоком противоречивых фактов и искаженной информации. Как отличить фейк-ньюс от реальных фактов? Каким источникам следует доверять и когда нужно сомневаться? Распознать фейки и научиться абстрагироваться от предубеждений поможет научный подход

«Слушание — это акт любви»: для чего нужен StoryCorps

Истории окружают нас повсюду — в новостях, фильмах и сериалах, соцсетях, книгах, подкастах и видеоиграх. Однако часто нас привлекают те рассказы, которые мы услышали от наших родственников, друзей и знакомых. Их истории объединяют разные поколения и события, становятся частью не только семейной, но и мировой культуры. Их поиску проект StoryCorps посвятил свою миссию

До и после взрыва: оценка разрушений в Бейруте по спутниковым снимкам

Взрыв в порту Бейрута этим летом потряс весь мир в прямом и переносном смысле: сметенные с лица земли здания, сотни погибших, тысячи пострадавших и страна на грани гуманитарной катастрофы. Как специалисты использовали снимки со спутников и дронов, чтобы оценить масштаб трагедии, и что мы можем на них увидеть

Sketch Engine и Маяковский. Часть II: «несоветский» поэт Революции

Продолжаем серию постов о применении Sketch Engine в цифровой филологии. В прошлом материале мы узнали, что такое Sketch Engine, научились создавать свой корпус и выяснили, каков был лирический герой Маяковского до и после Революции. Познакомимся с оставшимися функциями Sketch Engine и узнаем, что значили для Маяковского Советы и Россия, что в его жизни изменил 1917 год и как это повлияло на лирику

Как помочь Камчатке: лайк, шер, репост, геотег

На Камчатке произошла экологическая катастрофа. Но можно ли помочь, если ты обычный человек? Мы можем не только распространять информацию, но и помогать ученым ее получить: краудсорсинг фотографий камчатского побережья и их пространственных метаданных может помочь специалистам в изучении причин и хронологии экологической катастрофы.

Автор или авторка: влияет ли пол автора на восприятие произведения

Несмотря на все достижения в борьбе за гендерное равноправие, предубеждение против писательниц продолжает существовать. Авторы-женщины остаются в стороне и не воспринимаются читателями так же, как и авторы-мужчины. Вероятность автора-женщины выиграть литературную премию или, например, получить положительную рецензию на свою работу гораздо ниже

Почти «Робоцып»: в чем польза роботов-животных?

При создании роботов изобретатели и разработчики часто ищут вдохновение в животном мире. Они стараются не только придать механизмам внешний вид живых существ, но и сохранить их полезные качества. Выясняем, какие устройства-животные уже существуют и как они служат людям

Sketch Engine и Маяковский. Часть I: человек до и после революции

Системный Блокъ уже рассказывал, как провести собственное корпусное исследование при помощи antconc и mystem. Теперь мы обратимся к другому инструменту — корпусному менеджеру Sketch Engine и с его помощью проанализируем корпус текстов Владимира Маяковского.

Почему Алиса и Siri располагают нас к откровенным разговорам

В фильме «Она» показано недалекое будущее, где искусственный интеллект стал рутиной, а главный герой заводит роман с виртуальной помощницей. В 2020 году эта мелодрама не кажется фантастикой. Разбираемся, как виртуальные агенты становятся нашими собеседниками, конфидентами и друзьями

Насколько предсказуема художественная литература?

Читать книги бывает долго и неинтересно. Иногда просто хочется узнать, что будет в конце. Рассказываем, может ли компьютер прочитать книжку за вас, и что он сумеет понять

Реставрация картин: от вакуумных столов до машинного обучения

Разбираемся в том, как излечить хронически больные картины XIX столетия. Расскажем о методах реставрации картин: от клея из пузыря осетра — до компьютерного моделирования процессов старения

Геохронологический трекинг в истории

Каждому, кто в школе заполнял контурные карты, известно, что исторические данные иногда гораздо удобнее представлять в пространстве. Для научного анализа событий прошлого историки используют более продвинутые географические методы. Разбираемся, что такое геохронологический трекинг, и как он помогает в исторических исследованиях

Русский 360°: виртуальный музей без границ

Русское искусство все быстрее переезжает в цифровой мир. Расскажем о виртуальных прогулках по Русскому музею — и о его цифровых проектах, доступных теперь из любой точки мира

Мальчики — программисты, девочки — балерины: гендерное неравенство в образовании и науке

Бородатый сексистский анекдот гласит: «Женщина-программист — как морская свинка: не имеет отношения ни к морю, ни к свиньям». Не смешно и очень грустно: гендерный разрыв в точных и естественных науках существовал веками и успел стать привычным. Разбираемся, как работает гендерное неравенство в академическом сообществе.

Как нейросеть узнает растения и почему она ошибается

Автоматические определители живых организмов стоят на смартфонах миллионов любителей природы. Достаточно просто навести камеру на растение или животное, чтобы определить, что это. Разбираемся, как устроены такие приложения и что у них под капотом

Люди-звери и антропоморфные животные в исполнении нейросетей

Бельгийский программист и его напарник, искусственный интеллект, создают предметы искусства. Мы посмотрели, что получается. Спойлер: выходит либо очень хорошо, либо очень плохо

Обучаем Word2vec: практикум по созданию векторных моделей языка

Как использовать в своей повседневной работе векторные семантические модели и библиотеку Word2Vec? Это несложно: понадобится немного кода на Python и (для второй части) готовые векторные модели — например, с сайта RusVectores. Публикуем наш тьюториал по Word2vec

Жизнь в трущобах: картографирование беднейших районов города

Плотная одноэтажная застройка, отсутствие коммунальных услуг и инфраструктуры — этим отличаются трущобы, которые можно найти почти на каждом континенте. Разбираемся, зачем нужно создавать карты бедных районов, и знакомимся с двумя проектами, направленными на картографирование трущоб

Почему нейросеть так легко обмануть?

Почти каждый день новостная лента удивляет новыми «чудесами» машинного обучения: искусственный интеллект то распознает нарисованные от руки картинки, то управляет дронами, то создает логотипы компаниям. Тем не менее заставить нейросеть ошибиться все еще очень просто. Разбираемся, почему

Осторожно: ретросимулякр! Советское прошлое в медиапроектах про 1968 год и Перестройку

Ностальгия по СССР подстерегает нас везде. Эту тему эксплуатируют многие, от эфирного ТВ до Лапенко. А мы разбираемся с механизмами ностальгии на примере screenlife-сериала «1968: Digital» и интерактивной игры «Карта истории»

Ok, Google, купи слона: онлайн-шоппинг и голосовые помощники

Типичный поход в магазин включает в себя долгий выбор продуктов, блуждание между полками товаров, ожидание в очереди. А что если бы мы могли доверить весь онлайн-шоппинг голосовым ассистентам в нашем смартфоне?

Цифровой гербарий МГУ: новая жизнь исторической коллекции растений

Второй по величине гербарий в России обрел цифровую форму. В свободном доступе более одного миллиона изображений с оригинальными оцифрованными этикетками и геопривязкой. Настраиваемая система поиска делает цифровой гербарий полезным инструментом как для исследователей, так и для любителей живой природы

Как связаны нейронная активность мозга мышей и процесс развода супругов

Полевые мыши «светятся», когда воссоединяются с партнёрами после разлуки, выяснила учёная Зои Дональдсон. Без любви человеку нет жизни, настаивает кинокритик Борис Локшин. В статье – о разводе людей, разлуке мышей, о фильме со статуэткой «Оскара» и нейронной активности мозга

«Оскар» за скриншот: что такое screen-life и как его снимают

Можно ли снять блокбастер в собственном WhatsApp, Skype или Telegram? Теперь да! Ведь наша жизнь переместилась в гаджеты. С помощью наших устройств мы общаемся и работаем, сохраняем фотографии и воспоминания в облаках и на дисках. Вся история нашей жизни внутри смартфона или ноутбука — и теперь ее можно превратить в кино! Рассказываем о новом формате на стыке сторителлинга и кино — screen-life

Тест Тьюринга для переводчиков: вычисли машину

В этом тесте мы предлагаем вам попробовать отличить человеческий перевод — от сделанного компьютером. И заодно покажем, что у всех переводчиков, даже машинных, есть свой стиль. А в качестве примеров возьмем фразы из известных фильмов

Hello world: музыкальный альбом от искусственного интеллекта

История взаимодействия искусственного интеллекта и музыки совсем не нова. Еще в 1958 году ИИ использовался для создания композиций, подражающих Баху. Как нейросети развили свои музыкальные навыки за 60 лет, рассказываем на примере альбома Hello World.

Право на голос: география иммиграционных протестов в США в начале нового тысячелетия

С мая 2020 движение Black Lives Matter вспыхнуло в США с новой силой. Масштабы акций велики, но с Америкой такое не впервые. Вспоминаем протесты 2006 года в поддержку иммигрантов и изучаем географию митингов с помощью системы ГИС и анализа массовых данных

Тиндер 1917 года и революция в цифре

Историческое знание нуждается в новых формах представления, особенно онлайн. Но как поговорить о прошлом доступно? Публичная история (public history) предлагает digital-проекты для изучения истории в игровой форме. Рассказываем о проектах «1917. Свободной истории» и «1917. День за днем»

Дата-майнинг Бодлера: как стихи запретного декадента разлетелись по миру

Рассказываем о проекте Baudelaire Song Project, где собраны все песни, написанные на стихи Шарля Бодлера, и музыка, вдохновленная его поэзией. Этот ресурс — разведочный аналитический дашборд с яркими визуализациями, целиком посвященный тому, как, кто и где «поет Бодлера». Россияне среди исполнителей тоже есть

Покажи мне свой Spotify, и я покажу тебе, кто ты

«Spotify опоздал» — говорят одни. «Spotify — всего лишь один из многих!», — говорят другие. «Spotify неудобен» — говорят третьи. А мы говорим: «У Spotify есть открытый API — и мы идем исследовать себя!»

Как с помощью WEB API от Spotify можно проанализировать свой плейлист и свои музыкальные пристрастия? Мы расскажем и покажем. И код на Github зальем!

Правильные слова: как привить детям интерес к науке

Слова обладают мощным воздействием на наше сознание. Словом можно травмировать, а можно…привить детям интерес к науке! Американские психологи показали, что если правильно выбрать слова для заданий на уроке физики, дети будут более упорны в своих исследованиях

Прогулка по Древнему Риму в виртуальной реальности

Каким видели Рим римские императоры, патриции и плебеи? 3D-модель Rome Reborn дает возможность любому желающему пройтись по улицам Вечного города в его золотые годы

Эмоции есть? А если найду?

Пока вы переживаете о повсеместном использовании технологий распознавания лиц, техногиганты считывают ваши эмоции и используют против вас. От пищевых пристрастий до политических взглядов — все можно оценить, изучая ваши эмоции, пока вы листаете ленту. Они даже могут сказать, кто вам больше нравится, кошечки или собачки. И это проблема

Стереть нельзя оцифровать: эпиграфика открывает второе дыхание

Допустим, историк нашел древнюю надпись на скале — и хочет ее сохранить. Что делать? Классические методы: переписывание текста, зарисовка или эстампирование (создание оттиска) — часто приводят к неточностям и ошибкам. Но с изобретением цифровой фотографии и 3D-моделирования документирование эпиграфического памятников изменилось

Сексизм, лукизм и профессионализм: проблемы студенческой оценки преподавателей

Студенческая оценка преподавания кажется прекрасной идеей. Можно дать обратную связь, посигналить о неудачном опыте, а то и сообщить о преподавателе-абьюзере, который злоупотребляет властью. Но есть и проблемы. Например, ученые выяснили, что внешность преподавателя и общая оценка преподавания связаны. А еще у студентов очень разные стандарты для оценки мужчин и женщин…