Новый, мертвый, хороший: визуализация текстов Гражданской Обороны

Пост-трибьют иконе русского панк-рока, написанный к 11-летию со дня смерти. Мы исследовали корпус текстов Летова цифровыми методами и визуализировали результаты. Некоторые особенности стиля Летова хорошо видны именно через призму корпусного анализа.

Word2Vec: покажи мне свой контекст, и я скажу, кто ты

Рассказываем, как работает одна из самых актуальных технологий в основе современной компьютерной лингвистики и искусственного интеллекта — дистрибутивная семантика. В материале соблюден баланс сложности и правдивости: текст будет доступен неспециалисту и обходится без трехэтажных математических формул, но он не так наивен, как большинство «популярных» (и далеких от действительности) объяснений word2vec.

Зачем нужны гуманитарии в эпоху машинного обучения?

Наш перевод эссе Теда Андервуда о том, почему «непрактичные» и «невостребованные» навыки гуманитариев могут оказаться тем самым, что спасет всех нас в эпоху всепроникающих технологий и торжества ИИ.

Данные нас связали: где и как применяют статью 20.2 КоАП РФ

Изучаем статистику по применению административной статьи 20.2 — той самой, которую в 2019 году массово использовали против задержанных на митингах и шествиях. Данные собрали и опубликовали «ОВД-Инфо», а мы исследовали их и нашли в два нестандартные случаи применения статьи 20.2. В новом году хотим пойти глубже и проанализировать решения судов по 20.2.

Как работают фильтры в Инстаграме + Как посмотреть на мир глазами нейросетей

Технологический лонгрид в двух частях о том, как работает современное компьютерное зрение, что делает Instagram с вашими фотографиями и как нейросеть отличает дорогой дом на снимке — от дешевого.

Прокачиваем гуманитария до программиста: инструкция

Я — филолог (лингвист, историк, философ, культуролог, etc) и хочу заняться программированием. В чем мои сильные стороны? Что делать? Рассказывает гуманитарий, перековавшийся в программиста.

Пусти пожить болельщика: чемпионат в Москве и рынок Airbnb

Исследуем статистику Airbnb по Москве, чтобы понять, как Чемпионат мира по футболу 2018 года повлиял на рынок съемного жилья. Какие районы наводнили туристы, как они селились вокруг стадионов, а кто переоценил свою привлекательность для болельщиков?

Учат в школе… Чему?

Чему учат в современной началке? Мы проанализировали более 20 тыс. заданий в учебниках по русскому языку 1-4 классов и постарались разобраться, из чего они состоят — и чего требуют от школьника. Специальный пост к 1 сентября.

Что случилось с самыми унылыми стихотворениями XIX века

Элегия — ключевой поэтический жанр «‎золотого века» русской поэзии. Что можно узнать о нем, используя количественные методы: подсчет частотности слов, тематическое моделирование, статистику длины стихотворений?

Я/МЫ НКРЯ: что происходит с национальным корпусом

Этот текст стал частью борьбы за сохранение Национального корпуса русского языка, который переживал в 2019 году нелегкие времена. «Яндекс» начал долгий и мучительный перенос корпуса на новую платформу и в какой-то момент отключил старую версию НКРЯ, не перенеся весь функционал в новую.

В результате осенью лингвисты обнаружили по знакомому адресу сильно урезанный и криво работающий корпус. Давно тлевшие слухи о полном отказе «Яндекса» от поддержки НКРЯ и его «закрытии» стали разлетаться по сети со скоростью фейсбучного репоста. Поисковику пришлось реагировать: старую версию НКРЯ вернули, а ученых заверили, что «Яндекс» корпус не бросит, т.к. его завещал беречь сам Илья Сегалович.

Мы продолжаем держать руку на пульсе.

Жутко громко, запредельно тихо: звуки в романах

Цифровые методы анализируют голоса героев романа и их громкость. Одно исследование — на микроуровне, в рамках отдельной книги («Идиот» Достоевского). Другое — на макроуровне (тысячи британских романов на протяжении 100 лет). В результате получается отследить эволюцию сюжета книги в одном случае и эволюцию жанра — в другом.

Зрение, мозг и нейросети

Если с помощью томографии зафиксировать активность мозга, когда человек смотрит на разные картинки, а потом скормить это вместе с картинками нейросети… она научится считывать то, что видит человек, прямо из мозга. Звучит как фантастика, но это уже здесь. Обученная нейросеть получает на вход результаты новой томографии — и угадывает типы, контуры и текстуры объектов, на которые смотрит человек.