Как это работает

Рубрика «Как это работает» — это наш способ погрузиться в конкретные технологии и понять их устройство. Мы рассказываем о том, как устроены нейросетевые архитектуры (LSTM, трансформеры и другие), как с помощью нейросетей решают разные задачи, как работают методы переноса стиля, как Python помогает в обработке культурных данных. Мы пишем про инструменты, которые помогут исследователю — Voyant Tools, Transkribus, текстовый инструментарий TEI, Sketch Engine. Мы обсуждаем важные понятия и алгоритмы, на которых основаны многие технологии: что такое геоданные и N-граммы и как работает расстояние левенштейна.

Автономный ИИ-инженер и новое о Sora: дайджест новостей в мире искусственного интеллекта

Создатели Sora рассказали, откуда брали видео для обучения, но кое о чем умолчали. Компания Cohere — один из главных конкурентов OpenAI/ChatGPT — выпустила модель с 35 млрд параметров. Вышла сопоставимая с трансформерами RNN-модель EagleX — неужели рекуррентные нейросети рано хоронить? Рассказываем, что произошло в мире ИИ за прошедшую неделю

Sora: как работает модель для генерации видео по тексту

Недавно компания OpenAI, создавшая модели GPT и сервис ChatGPT, выпустила новую модель Sora, которая генерирует видео по текстовому описанию. Такие модели были и раньше, но здесь произошёл качественный скачок. Во-первых, Sora умеет генерировать реалистичные видео в высоком разрешении (вплоть до FullHD), во-вторых, объекты в видео консистентны в течение всего времени. Рассказываем, как работает Sora, какие у неё есть ограничения и неожиданные особенности.

Что ждёт искусственный интеллект в будущем: прогнозы учёных

Как будет развиваться ИИ в ближайшем будущем? Перспективно ли пытаться научить компьютер думать, как человек? Может ли не хватить данных для обучения искусственного интеллекта? Отвечаем на эти вопросы в нашем материале

Как это (не) работает: технологии нейросети-писателя

Как научить нейросеть писать в стиле Набокова? И насколько хорошо (или плохо) у нейросетей вообще получается писать художественные тексты? Могут ли нейросети привести филологов к мировому господству? Ответы на эти и другие вопросы нам дали цифровой филолог Борис Орехов и исследователь в области глубинного обучения Михаил Ким.

Русалка села на шпагат: как нейросети генерируют картинки и подменяют понятия

Новостей о том, что уже умеет искусственный интеллект и какие профессии из-за него обречены, предостаточно. Гораздо интереснее выяснять, чего он не может. Ранее мы уже писали о том, как ChatGPT выдумывает несуществующие произведения Льва Толстого. Теперь авторы «Системного Блока» провели эксперимент, чтобы выяснить, где границы возможностей нейросетей для генерации изображений (Midjourney, DALL-E, Kandinsky), и обнаружили у них проблемы с образным и абстрактным мышлением

Как работают языковые модели

Что такое языковая модель? Что общего между клавиатурой вашего телефона и GPT? Почему языковые модели умеют не только моделировать язык? Можно ли предсказать точность модели до её обучения? Отвечаем на все эти вопросы в нашем материале.

Как дообучить языковую модель писать в стиле Достоевского

Как обучить нейросеть на своих данных? Какие бывают параметры обучения/генерации, и на что они влияют? Как оптимизировать процесс обучения, если нет видеокарты? Отвечаем на все эти вопросы в нашем туториале по файн-тюнингу ruGPT3 на текстах Достоевского.

Собери их всех: как record linkage помогает обогащать большие биографические данные

Сейчас историки всё чаще уделяют внимание не столько выдающимся деятелям прошлого, сколько целым группам людей, жившим в ту или иную эпоху. Это неудивительно — ведь с появлением больших исторических баз данных стало проще анализировать множество биографий одновременно. Автоматизировать обработку данных об одних и тех же людях в разных базах помогает сопоставление данных, или record linkage.

С приветом из Англии: у мультиязычных языковых моделей обнаружился «английский акцент» 

Если вы выучили иностранный язык во взрослом возрасте, вполне вероятно, вы говорите на нем не так же бегло, как носитель языка. Оказывается, подобная проблема встречается и у мультиязычных моделей: если в обучающей выборке для них преобладает английский, текст на других языках они будут генерировать «с английским акцентом». Объясняем, почему так происходит и что можно с этим сделать.

Большие языковые модели умеют рассуждать

Модель психики «Думай медленно… решай быстро» оказалась верна не только для людей, но и для больших нейросетей. Вслед за интуитивными навыками они приобретают и аналитические. Рассказываем, как языковые модели решают математические и логические задачи, если немного «подумают».

Как сделать тематическое моделирование

Рассказываем, как сделать тематическое моделирование для большого объема текста, предположить его содержание и разделить по темам

Как плести виртуальные сети с помощью Gephi

Gephi — самый известный инструмент для визуализации графов и сетевого анализа. С его помощью можно исследовать и население Викторианской Англии, и отношения героев «Войны и мира», и странички друзей Вконтакте. Рассказываем максимально просто, как пользоваться Gephi

Программа для поиска рифмы: как она работает и когда ломается

В 2018 году был разработан метод автоматической разметки рифм. В 2021 его автор представил RhymeTagger — общедоступную библиотеку на Python , которая позволяет вам анализировать рифмовку стихотворения. Рассказываем, как работает инструмент, и тестируем его на лесенках от Маяковского

Как исследовать японские тексты с помощью Voyant Tools

Разбираемся, что такое Voyant Tools и как с его помощью можно проанализировать большой корпус текстов с YouTube на японском языке

Как превратить текст в генеалогическое древо с помощью Python

Как понять, кем вам приходится сваха внучатого племянника вашей сестры? Проще всего - нарисовать генеалогическое древо, которое отразит все родственные связи. А еще лучше - написать код на Python, который сделает это за вас

Как работает GPT-3 — самая продвинутая языковая модель

GPT-3 — самая известная из современных нейросетевых моделей языка. Вокруг нее много мифов, но модель действительно умеет впечатлить. Она отлично справляется с написанием целых эссе на заданную тему, удачно отвечает на вопросы, а также пишет стихи и программный код. Рассказываем, как работает GPT-3.

Transkribus: как компьютерное зрение помогает переводить тексты сирийских мистиков

Сколько ваших знакомых без проблем смогут прочитать рукописи Пушкина? А петровскую скоропись? А рецепт своего лечащего врача? Чтобы разобрать написанное, часто нужен натренированный глаз. Добиться этого можно двумя способами: мы можем тренировать собственное зрение, а можем — компьютерное. Как и зачем тренируют модели распознавания рукописного текста — рассказывают исследовательницы классической сирийской литературы Юлия Фурман и Анна Черкашина

Как устроена нейросеть BERT от Google

BERT — нейросетевая модель-трансформер от Google, на которой сегодня строится большинство инструментов автоматической обработки языка. Модель появилась в начале 2018-го, а уже в октябре того же года Google встроил модель в свой поисковик. Разбираемся, что же представляет из себя модель BERT и как она работает

В пространстве текстов: детоксикация комментариев, подделка отзывов и нейроцензура

Как работают современные методы переноса стиля? Могут ли они быть полезны или опасны? И при чём здесь «бутылочное горлышко» нейросети?

что такое стилометрия

Стилометрия: как в разное время люди искали авторов текстов

Сегодня для того, чтобы понять, кто написал текст под псевдонимом, у исследователей есть количественные методы анализа, в основе которых – подсчет служебных слов в тексте. О том, как люди к этому пришли, рассказываем в материале об истории стилометрии

нейросети в искусстве

Определяем дату написания картины онлайн без регистрации и СМС

Научить нейросети понимать искусство пытаются уже много лет. И хотя про «понимание» говорить рано, некоторые задачи, ранее доступные лишь искусствоведу, они решают неплохо! Пример — датировка живописи. Рассказываем про систему, сделанную студентами МИСиС, которая может датировать картины — причем не только всем известные «Звездную ночь» или «Мона Лизу», но и полотна неизвестных художников. Кстати, эту модель может протестировать любой желающий!

улучшить изображение нейросеть

Возвращение четкого попугая: как нейросеть реставрирует старые советские мультфильмы

«Системный Блокъ» уже рассказывал, как «Союзмультфильм» вручную восстановил часть советских анимационных лент. Основная проблема старых мультфильмов — не физические повреждения и выцветание, а низкое разрешение видеозаписи.

Что такое редакционное расстояние

Как понять, насколько близки две строки формально? Какое расстояние от слова «карета» до слова «ракета»? Линейкой здесь не измеришь, на помощь приходят редакционные расстояния. Рассказываем, что такое редакционное расстояние, как они работают и какие виды редакционных расстояний существуют

Как работает GPT-2 и в чем его особенности

Все слышали о GPT-3, которая умеет сочинять стихи и прозу, разгадывать анаграммы, переводить, отвечать на вопросы по прочитанному тексту и даже писать философские рассуждения о жизни и смерти. Рассказываем, как работает ее бабушка, GPT-2, без которой такой прорыв в области обработки естественного языка был бы невозможен

Нейросети-трансформеры изнутри: как работает декодер

Мы уже рассказывали, как работают нейросети-трансформеры — самая популярная и успешная нейросетевая архитектура наших дней. Мы подробно разобрались, как нейросеть-трансформер кодирует текст и как она уделяет «внимание» наиболее важным словам и связям. Теперь пришла пора поговорить о том, как нейросеть выдает итоговый результат, будь то машинный перевод, разметка или продолжение начатого текста. То есть, о декодировании

data lake

Data Lake или Data Warehouse: как работает сбор и хранение в Big Data и в чем отличие двух методов

О больших данных или Big Data стало известно не так давно, но популярность они уже обрели немалую. Говорить о больших данных просто, а понять, как их собирают и обрабатывают — не всегда. Разбираемся, какие подходы существуют в сборе и хранении информации, в чем отличие Data Lake от Data Warehouse, что такое ETL и ELT и как их не перепутать.

Как компьютеры читают комиксы?

Мы привыкли воспринимать комиксы как цветные или черно-белые картинки с текстом, которые складываются в историю. Однако это сложно организованный текст, потребление которого требует от нас и визуального, и текстового восприятия. Несмотря на сложность, сегодня комиксы исследуют автоматически при помощи компьютерного зрения. Рассказываем, как это работает

Как работают трансформеры — крутейшие нейросети наших дней

Трансформер — самая модная сегодня нейросетевая архитектура. Она появилась в 2017 и перевернула всю обработку языка машинами. Мы расскажем о структуре трансформера без кода — чтобы потом при взгляде на код вы могли понять, что он делает

TEI: текстовый инструментарий, который смог

TEI (Text Encoding Initiative) – это формат кодирования текстов и отличная возможность перенести рукописи в удобный электронный вид. TEI используется во многих проектах по созданию цифровых ресурсов. Тексты из архивных документов, рукописей и древних надписей сохраняются со всеми нюансами и разночтениями. А еще дополняются машиночитаемыми метаданными

Sketch Engine и Маяковский. Часть II: «несоветский» поэт Революции

Продолжаем серию постов о применении Sketch Engine в цифровой филологии. В прошлом материале мы узнали, что такое Sketch Engine, научились создавать свой корпус и выяснили, каков был лирический герой Маяковского до и после Революции. Познакомимся с оставшимися функциями Sketch Engine и узнаем, что значили для Маяковского Советы и Россия, что в его жизни изменил 1917 год и как это повлияло на лирику

Почти «Робоцып»: в чем польза роботов-животных?

При создании роботов изобретатели и разработчики часто ищут вдохновение в животном мире. Они стараются не только придать механизмам внешний вид живых существ, но и сохранить их полезные качества. Выясняем, какие устройства-животные уже существуют и как они служат людям

Sketch Engine и Маяковский. Часть I: человек до и после революции

Системный Блокъ уже рассказывал, как провести собственное корпусное исследование при помощи antconc и mystem. Теперь мы обратимся к другому инструменту — корпусному менеджеру Sketch Engine и с его помощью проанализируем корпус текстов Владимира Маяковского.

Как нейросеть узнает растения и почему она ошибается

Автоматические определители живых организмов стоят на смартфонах миллионов любителей природы. Достаточно просто навести камеру на растение или животное, чтобы определить, что это. Разбираемся, как устроены такие приложения и что у них под капотом

Обучаем Word2vec: практикум по созданию векторных моделей языка

Как использовать в своей повседневной работе векторные семантические модели и библиотеку Word2Vec? Это несложно: понадобится немного кода на Python и (для второй части) готовые векторные модели — например, с сайта RusVectores. Публикуем наш тьюториал по Word2vec

«Оскар» за скриншот: что такое screen-life и как его снимают

Можно ли снять блокбастер в собственном WhatsApp, Skype или Telegram? Теперь да! Ведь наша жизнь переместилась в гаджеты. С помощью наших устройств мы общаемся и работаем, сохраняем фотографии и воспоминания в облаках и на дисках. Вся история нашей жизни внутри смартфона или ноутбука — и теперь ее можно превратить в кино! Рассказываем о новом формате на стыке сторителлинга и кино — screen-life

Искусство голограммы и голограммы в искусстве

Наука и искусство всегда взаимодействуют и дополняют друг друга, образуют новые жанры и направления. В этой статье мы расскажем о голограммах и их необычном применении в творческих направлениях

Поделись наушником своим: еще раз о том, как устроены рекомендации Spotify

О том, что в Россию пришел крупнейший в мире стриминговый сервис, не сказал только ленивый. Но чем же Spotify так цепляет аудиторию? «Системный Блокъ» разобрался, какие методы использует компания для разработки рекомендаций, а также как улучшить плейлисты с рекомендациями

Секреты позы и лица: как работают face keypoint detection и pose estimation

Существует две проблемы для определения движения ключевых точек лица и тела. Первая заключается в анатомических различиях и внешних факторах, вторая затрагивает время обработки изображения. Несмотря на трудности, face keypoint detection и pose estimation используются во многих направлениях. Благодаря им строятся алгоритмы для масок в социальных сетях, motion capture, и даже сравнение человеческих эмоций и движений. Обо всем этом читайте в нашем материале

Внимание — все, что вам нужно: как работает attention в нейросетях

«Системный Блокъ» добрался до самых горячих технологий в мире современного глубокого обучения. Сегодня рассказываем о механизме внимания, на котором работают в 2020 году все действительно крутые нейросети. Почему внимание стало killer-фичей диплернинга, что под капотом у attention mechanism, как нейросеть понимает, какие признаки текста или картинки важнее других

Мама мыла LSTM: как устроены рекуррентные нейросети с долгой краткосрочной памятью

Крафтовый техно-лонгрид издания Системный Блокъ, в котором мы разбираем по винтикам одну из самых ходовых технологий в современной компьютерной лингвистике — рекуррентные нейросети с архитектурой LSTM

Как работает FastText и где ее применять

NLP-библиотека FastText от Facebook Research стала следующим после Word2Vec большим шагом в развитии векторных семантических моделей и машинного обучения в обработке текста. Рассказываем, чем хороши модели FastTest — и как и где с ними поработать

Помедленнее, я записываю!

Как работает распознавание речи и зачем оно вообще нужно

Разбираем нейросети по частям: как работает градиентный спуск

Градиентный спуск — это способ поиска точек минимума или максимума в сложных функциях. Рассказываем, почему это так важно для обучения нейросетей

Как находить похожие слова с помощью расстояния Левенштейна?

Когда в начале XX века в газетной статье «Пребывание вдовствующей императрицы Марии Федоровны в Финляндии» опечатались в первом слове, заменив «р» на «о», вышел жуткий скандал. А как находить такие близкие по написанию слова автоматически? Разбираемся с помощью питона и расстояния Левенштейна

Начало всего виртуального сущего

Виртуальная реальность — еще одно измерение человеческой культуры, появившееся благодаря цифровым технологиям. Компьютерные игры в масштабных 3D-вселенных, виртуальные выставки, обучающий VR с его возможностью получения «удаленного» опыта… Как все это осмысляют гуманитарии?

Word2Vec: покажи мне свой контекст, и я скажу, кто ты

Разбираемся, как компьютеры понимают смысл наших текстов

Как провести корпусное исследование? Помогите!

Рассказываем, что такое mystem и antconc, для чего они нужны, и как ими пользоваться

Как понять, о чем текст, не читая его?

Что такое тематическое моделирование и как оно работает

Великий, могучий и понятный… Или нет?

Что такое простой и понятный русский язык? Хотелось бы, чтобы разобрался компьютер. Пока он лучше справляется с английским, но можно его научить

Компьютерная лингвистика? Нет, вычислительная!

Почему переводить computational linguistics как "компьютерная лингвистика" — плохая идея

Может ли машина видеть так же, как человек?

Как Тесла с автопилотом распознает объекты на дороге на видео в реальном времени и как это удается смартфону, когда он обводит лица людей в кадре в цветные рамки еще до снимка

Прокачиваем гуманитария до программиста: инструкция

Я – филолог (лингвист, историк, философ, культуролог, etc) и хочу заняться программированием. В чем мои сильные стороны? Что делать? Рассказывает гуманитарий, перековавшийся в программиста

Как посмотреть на мир глазами нейросетей

Обученная нейросеть может точно предсказать цену дома по фотографии. Но как она это делает? Мы залезли «под капот» искусственному интеллекту — и разобрались в деталях

Как работают фильтры в Инстаграме

Разбираемся в том, как устроено компьютерное зрение, что такое ядро свертки — и при чем тут фильтры в Инстаграме

Как работает статистический перевод по фразам?

Разбираемся, как научиться переводить, не зная ни одного языка

Эмпатичный чат-бот

Насколько хороши чат-боты как собеседники и смогут ли они заменить людей в общении

Из пикселей — в буквы: как работает распознавание текста

— Я угадаю это слово с трех букв! — Угадывай! Рассказываем о том, как устроены системы оптического распознавания символов (OCR)

«Черный ящик» нейросетей приоткрылся

Система искусственного интеллекта из MIT научилась объяснять свои решения через цепочки рассуждений. Теперь люди смогут понимать, почему нейросеть приняла столб за пешехода

Полезные ресурсы для digital гуманитариев. Документы и слайды

Этот материал для вас, если вы до сих пор пользуетесь пакетом Microsoft Office и носите презентации на флешке

Второе поколение говорящих машин

От Элизы к Алисе, или яблоко от яблони: как развивались чат-боты в девяностые