CV

Kandinsky 2.1

Мультиязычная модель для генерации изображений по текстовому описанию

Midjourney

Самая известная модель для генерации изображений по текстовому описанию

DALL-E 2

Улучшение модели DALL-E, генерирующей изображения по текстовому описанию

Stable Diffusion

Одна из самых популярных открытых моделей для генерации изображений по текстовому описанию

DALL-E

Одна из первых моделей, генерирующих качественные изображения по текстовому описанию

CLIP

Мультимодальная модель, способная строить векторные представления текстов и изображений

Transkribus: как компьютерное зрение помогает переводить тексты сирийских мистиков

Сколько ваших знакомых без проблем смогут прочитать рукописи Пушкина? А петровскую скоропись? А рецепт своего лечащего врача? Чтобы разобрать написанное, часто нужен натренированный глаз. Добиться этого можно двумя способами: мы можем тренировать собственное зрение, а можем — компьютерное. Как и зачем тренируют модели распознавания рукописного текста — рассказывают исследовательницы классической сирийской литературы Юлия Фурман и Анна Черкашина

ViT

Модель с архитектурой Transformer для работы с изображениями

ResNet

Архитектура нейросети, благодаря которой стало возможным обучать очень глубокие нейросети

VGG

Модель, которая продемонстрировала, что глубина нейронной сети играет важную роль

AlexNet

Первая глубокая свёрточная нейронная сеть, показавшая беспрецендентые результаты в задаче распознавания изображений

LeNet

Первая свёрточная нейронная сеть, совершившая революцию в области компьютерного зрения и ИИ в целом