Как это работает

В пространстве текстов: детоксикация комментариев, подделка отзывов и нейроцензура

Как работают современные методы переноса стиля? Могут ли они быть полезны или опасны? И при чём здесь «бутылочное горлышко» нейросети?
что такое стилометрия

Стилометрия: как в разное время люди искали авторов текстов

Сегодня для того, чтобы понять, кто написал текст под псевдонимом, у исследователей есть количественные методы анализа, в основе которых – подсчет служебных слов в тексте. О том, как люди к этому пришли, рассказываем в материале об истории стилометрии
нейросети в искусстве

Определяем дату написания картины онлайн без регистрации и СМС

Научить нейросети понимать искусство пытаются уже много лет. И хотя про «понимание» говорить рано, некоторые задачи, ранее доступные лишь искусствоведу, они решают неплохо! Пример — датировка живописи. Рассказываем про систему, сделанную студентами МИСиС, которая может датировать картины — причем не только всем известные «Звездную ночь» или «Мона Лизу», но и полотна неизвестных художников. Кстати, эту модель может протестировать любой желающий!
улучшить изображение нейросеть

Возвращение четкого попугая: как нейросеть реставрирует старые советские мультфильмы

«Системный Блокъ» уже рассказывал как «Союзмультфильм» вручную восстановил часть советских анимационных лент. Основная проблема старых мультфильмов — не физические повреждения и выцветание, а низкое разрешение видеозаписи.

Что такое редакционное расстояние

Как понять, насколько близки две строки формально? Какое расстояние от слова «карета» до слова «ракета»? Линейкой здесь не измеришь, на помощь приходят редакционные расстояния. Рассказываем, что такое редакционное расстояние, как они работают и какие виды редакционных расстояний существуют

Как работает GPT-2 и в чем его особенности

Все слышали о GPT-3, которая умеет сочинять стихи и прозу, разгадывать анаграммы, переводить, отвечать на вопросы по прочитанному тексту и даже писать философские рассуждения о жизни и смерти. Рассказываем, как работает ее бабушка, GPT-2, без которой такой прорыв в области обработки естественного языка был бы невозможен

Нейросети-трансформеры изнутри: как работает декодер

Мы уже рассказывали, как работают нейросети-трансформеры — самая популярная и успешная нейросетевая архитектура наших дней. Мы подробно разобрались, как нейросеть-трансформер кодирует текст и как она уделяет «внимание» наиболее важным словам и связям. Теперь пришла пора поговорить о том, как нейросеть выдает итоговый результат, будь то машинный перевод, разметка или продолжение начатого текста. То есть, о декодировании
data lake

Data Lake или Data Warehouse: как работает сбор и хранение в Big Data и в чем отличие двух методов

О больших данных или Big Data стало известно не так давно, но популярность они уже обрели немалую. Говорить о больших данных просто, а понять, как их собирают и обрабатывают — не всегда. Разбираемся, какие подходы существуют в сборе и хранении информации, в чем отличие Data Lake от Data Warehouse, что такое ETL и ELT и как их не перепутать.

Как компьютеры читают комиксы?

Мы привыкли воспринимать комиксы как цветные или черно-белые картинки с текстом, которые складываются в историю. Однако это сложно организованный текст, потребление которого требует от нас и визуального, и текстового восприятия. Несмотря на сложность, сегодня комиксы исследуют автоматически при помощи компьютерного зрения. Рассказываем, как это работает

Как работают трансформеры — крутейшие нейросети наших дней

Трансформер — самая модная сегодня нейросетевая архитектура. Она появилась в 2017 и перевернула всю обработку языка машинами. Мы расскажем о структуре трансформера без кода — чтобы потом при взгляде на код вы могли понять, что он делает

TEI: текстовый инструментарий, который смог

TEI (Text Encoding Initiative) – это формат кодирования текстов и отличная возможность перенести рукописи в удобный электронный вид. TEI используется во многих проектах по созданию цифровых ресурсов. Тексты из архивных документов, рукописей и древних надписей сохраняются со всеми нюансами и разночтениями. А еще дополняются машиночитаемыми метаданными

Sketch Engine и Маяковский. Часть II: «несоветский» поэт Революции

Продолжаем серию постов о применении Sketch Engine в цифровой филологии. В прошлом материале мы узнали, что такое Sketch Engine, научились создавать свой корпус и выяснили, каков был лирический герой Маяковского до и после Революции. Познакомимся с оставшимися функциями Sketch Engine и узнаем, что значили для Маяковского Советы и Россия, что в его жизни изменил 1917 год и как это повлияло на лирику

Почти «Робоцып»: в чем польза роботов-животных?

При создании роботов изобретатели и разработчики часто ищут вдохновение в животном мире. Они стараются не только придать механизмам внешний вид живых существ, но и сохранить их полезные качества. Выясняем, какие устройства-животные уже существуют и как они служат людям

Sketch Engine и Маяковский. Часть I: человек до и после революции

Системный Блокъ уже рассказывал, как провести собственное корпусное исследование при помощи antconc и mystem. Теперь мы обратимся к другому инструменту — корпусному менеджеру Sketch Engine и с его помощью проанализируем корпус текстов Владимира Маяковского.

Как нейросеть узнает растения и почему она ошибается

Автоматические определители живых организмов стоят на смартфонах миллионов любителей природы. Достаточно просто навести камеру на растение или животное, чтобы определить, что это. Разбираемся, как устроены такие приложения и что у них под капотом

Обучаем Word2vec: практикум по созданию векторных моделей языка

Как использовать в своей повседневной работе векторные семантические модели и библиотеку Word2Vec? Это несложно: понадобится немного кода на Python и (для второй части) готовые векторные модели — например, с сайта RusVectores. Публикуем наш тьюториал по Word2vec

«Оскар» за скриншот: что такое screen-life и как его снимают

Можно ли снять блокбастер в собственном WhatsApp, Skype или Telegram? Теперь да! Ведь наша жизнь переместилась в гаджеты. С помощью наших устройств мы общаемся и работаем, сохраняем фотографии и воспоминания в облаках и на дисках. Вся история нашей жизни внутри смартфона или ноутбука — и теперь ее можно превратить в кино! Рассказываем о новом формате на стыке сторителлинга и кино — screen-life

Искусство голограммы и голограммы в искусстве

Наука и искусство всегда взаимодействуют и дополняют друг друга, образуют новые жанры и направления. В этой статье мы расскажем о голограммах и их необычном применении в творческих направлениях

Поделись наушником своим: еще раз о том, как устроены рекомендации Spotify

О том, что в Россию пришел крупнейший в мире стриминговый сервис, не сказал только ленивый. Но чем же Spotify так цепляет аудиторию? «Системный Блокъ» разобрался, какие методы использует компания для разработки рекомендаций, а также как улучшить плейлисты с рекомендациями

Секреты позы и лица: как работают face keypoint detection и pose estimation

Существует две проблемы для определения движения ключевых точек лица и тела. Первая заключается в анатомических различиях и внешних факторах, вторая затрагивает время обработки изображения. Несмотря на трудности, face keypoint detection и pose estimation используются во многих направлениях. Благодаря им строятся алгоритмы для масок в социальных сетях, motion capture, и даже сравнение человеческих эмоций и движений. Обо всем этом читайте в нашем материале

Внимание — все, что вам нужно: как работает attention в нейросетях

«Системный Блокъ» добрался до самых горячих технологий в мире современного глубокого обучения. Сегодня рассказываем о механизме внимания, на котором работают в 2020 году все действительно крутые нейросети. Почему внимание стало killer-фичей диплернинга, что под капотом у attention mechanism, как нейросеть понимает, какие признаки текста или картинки важнее других

Мама мыла LSTM: как устроены рекуррентные нейросети с долгой краткосрочной памятью

Крафтовый техно-лонгрид издания Системный Блокъ, в котором мы разбираем по винтикам одну из самых ходовых технологий в современной компьютерной лингвистике — рекуррентные нейросети с архитектурой LSTM

Как работает FastText и где ее применять

NLP-библиотека FastText от Facebook Research стала следующим после Word2Vec большим шагом в развитии векторных семантических моделей и машинного обучения в обработке текста. Рассказываем, чем хороши модели FastTest — и как и где с ними поработать

Помедленнее, я записываю!

Как работает распознавание речи и зачем оно вообще нужно

Разбираем нейросети по частям: как работает градиентный спуск

Градиентный спуск — это способ поиска точек минимума или максимума в сложных функциях. Рассказываем, почему это так важно для обучения нейросетей

Как находить похожие слова с помощью расстояния Левенштейна?

Когда в начале XX века в газетной статье «Пребывание вдовствующей императрицы Марии Федоровны в Финляндии» опечатались в первом слове, заменив «р» на «о», вышел жуткий скандал. А как находить такие близкие по написанию слова автоматически? Разбираемся с помощью питона и расстояния Левенштейна

Начало всего виртуального сущего

Виртуальная реальность — еще одно измерение человеческой культуры, появившееся благодаря цифровым технологиям. Компьютерные игры в масштабных 3D-вселенных, виртуальные выставки, обучающий VR с его возможностью получения «удаленного» опыта… Как все это осмысляют гуманитарии?

Word2Vec: покажи мне свой контекст, и я скажу, кто ты

Разбираемся, как компьютеры понимают смысл наших текстов

Как провести корпусное исследование? Помогите!

Рассказываем, что такое mystem и antconc, для чего они нужны, и как ими пользоваться

Как понять, о чем текст, не читая его?

Что такое тематическое моделирование и как оно работает

Великий, могучий и понятный… Или нет?

Что такое простой и понятный русский язык? Хотелось бы, чтобы разобрался компьютер. Пока он лучше справляется с английским, но можно его научить

Компьютерная лингвистика? Нет, вычислительная!

Почему переводить computational linguistics как "компьютерная лингвистика" — плохая идея

Может ли машина видеть так же, как человек?

Как Тесла с автопилотом распознает объекты на дороге на видео в реальном времени и как это удается смартфону, когда он обводит лица людей в кадре в цветные рамки еще до снимка

Прокачиваем гуманитария до программиста: инструкция

Я – филолог (лингвист, историк, философ, культуролог, etc) и хочу заняться программированием. В чем мои сильные стороны? Что делать? Рассказывает гуманитарий, перековавшийся в программиста

Как посмотреть на мир глазами нейросетей

Обученная нейросеть может точно предсказать цену дома по фотографии. Но как она это делает? Мы залезли «под капот» искусственному интеллекту — и разобрались в деталях

Как работают фильтры в Инстаграме

Разбираемся в том, как устроено компьютерное зрение, что такое ядро свертки — и при чем тут фильтры в Инстаграме

Как работает статистический перевод по фразам?

Разбираемся, как научиться переводить, не зная ни одного языка

Эмпатичный чат-бот

Насколько хороши чат-боты как собеседники и смогут ли они заменить людей в общении

Из пикселей — в буквы: как работает распознавание текста

— Я угадаю это слово с трех букв! — Угадывай! Рассказываем о том, как устроены системы оптического распознавания символов (OCR)

«Черный ящик» нейросетей приоткрылся

Система искусственного интеллекта из MIT научилась объяснять свои решения через цепочки рассуждений. Теперь люди смогут понимать, почему нейросеть приняла столб за пешехода

Полезные ресурсы для digital гуманитариев. Часть I: документы и слайды

Этот материал для вас, если вы до сих пор пользуетесь пакетом Microsoft Office и носите презентации на флешке

Второе поколение говорящих машин

От Элизы к Алисе, или яблоко от яблони: как развивались чат-боты в девяностые

Что такое геоданные (часть III)

Различные проекции географических карт и «проблема апельсина»

Как работает нейросеть

Объясняем нейронные сети — без сложных формул

Что такое геоданные (часть I)

Геоданные: от стула до цифровой модели рельефа

Земля ему пуховик. Как работает Т9?

Почти все, что мы называем Т9, на самом деле не Т9

Нейросети и смерть автора

Стихи и тексты песен, написанные искусственными нейросетями, стали медийным мейнстримом. Но зачем они нужны? Может ли нейропоэзия помочь иследователю в анализе словесного искусства? Отвечает кандидат филологических наук Борис Орехов

Мозг против компьютера

Идею нейросетевых алгоритмов люди подсмотрели в устройстве мозга. Но современный искусственный интеллект — вовсе не копия человеческого. Разбираемся, в чем главные отличия

Что такое N-граммы и с чем их едят?

Вы могли уже встречать термин N-грамма. Если вас пугало или вы хотели получше разобраться, что это, то этот пост для вас