Весь 2019 год «Системный Блокъ» рассказывал, как высокие технологии становятся частью современной науки, культуры и повседневности, принося хорошее и плохое. Мы писали о последних прорывах в автоматической обработке языка и о методах борьбы с фейк ньюс, объясняли на пальцах, как работают нейросети, машинный перевод и фильтры в инстаграме, учили обкачивать VK, твиттер и HTML-страницы и делать корпусные исследования, рассказывали про статистические исследования в истории, литературе и искусстве, а еще много исследовали сами... За год в «СБъ» вышло больше 220 материалов. Предлагаем вам подборку из 12 постов, которые стоит перечитать. Можно как раз под бой курантов 🥂
Пост-трибьют иконе русского панк-рока, написанный к 11-летию со дня смерти. Мы исследовали корпус текстов Летова цифровыми методами и визуализировали результаты. Некоторые особенности стиля Летова хорошо видны именно через призму корпусного анализа.
Рассказываем, как работает одна из самых актуальных технологий в основе современной компьютерной лингвистики и искусственного интеллекта — дистрибутивная семантика. В материале соблюден баланс сложности и правдивости: текст будет доступен неспециалисту и обходится без трехэтажных математических формул, но он не так наивен, как большинство «популярных» (и далеких от действительности) объяснений word2vec.
Наш перевод эссе Теда Андервуда о том, почему «непрактичные» и «невостребованные» навыки гуманитариев могут оказаться тем самым, что спасет всех нас в эпоху всепроникающих технологий и торжества ИИ.
Изучаем статистику по применению административной статьи 20.2 — той самой, которую в 2019 году массово использовали против задержанных на митингах и шествиях. Данные собрали и опубликовали «ОВД-Инфо», а мы исследовали их и нашли в два нестандартные случаи применения статьи 20.2. В новом году хотим пойти глубже и проанализировать решения судов по 20.2.
Технологический лонгрид в двух частях о том, как работает современное компьютерное зрение, что делает Instagram с вашими фотографиями и как нейросеть отличает дорогой дом на снимке — от дешевого.
Я — филолог (лингвист, историк, философ, культуролог, etc) и хочу заняться программированием. В чем мои сильные стороны? Что делать? Рассказывает гуманитарий, перековавшийся в программиста.
Исследуем статистику Airbnb по Москве, чтобы понять, как Чемпионат мира по футболу 2018 года повлиял на рынок съемного жилья. Какие районы наводнили туристы, как они селились вокруг стадионов, а кто переоценил свою привлекательность для болельщиков?
Чему учат в современной началке? Мы проанализировали более 20 тыс. заданий в учебниках по русскому языку 1-4 классов и постарались разобраться, из чего они состоят — и чего требуют от школьника. Специальный пост к 1 сентября.
Элегия — ключевой поэтический жанр «золотого века» русской поэзии. Что можно узнать о нем, используя количественные методы: подсчет частотности слов, тематическое моделирование, статистику длины стихотворений?
Этот текст стал частью борьбы за сохранение Национального корпуса русского языка, который переживал в 2019 году нелегкие времена. «Яндекс» начал долгий и мучительный перенос корпуса на новую платформу и в какой-то момент отключил старую версию НКРЯ, не перенеся весь функционал в новую.
В результате осенью лингвисты обнаружили по знакомому адресу сильно урезанный и криво работающий корпус. Давно тлевшие слухи о полном отказе «Яндекса» от поддержки НКРЯ и его «закрытии» стали разлетаться по сети со скоростью фейсбучного репоста. Поисковику пришлось реагировать: старую версию НКРЯ вернули, а ученых заверили, что «Яндекс» корпус не бросит, т.к. его завещал беречь сам Илья Сегалович.
Мы продолжаем держать руку на пульсе.
Цифровые методы анализируют голоса героев романа и их громкость. Одно исследование — на микроуровне, в рамках отдельной книги («Идиот» Достоевского). Другое — на макроуровне (тысячи британских романов на протяжении 100 лет). В результате получается отследить эволюцию сюжета книги в одном случае и эволюцию жанра — в другом.
Если с помощью томографии зафиксировать активность мозга, когда человек смотрит на разные картинки, а потом скормить это вместе с картинками нейросети… она научится считывать то, что видит человек, прямо из мозга. Звучит как фантастика, но это уже здесь. Обученная нейросеть получает на вход результаты новой томографии — и угадывает типы, контуры и текстуры объектов, на которые смотрит человек.
Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время
Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст
Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…