Опубликован открытый корпус европейских романов

Проект «Дальнее чтение для европейской литературной истории» выпустил собрание старых произведений. В коллекцию вошли 884 романа на 18 языках

28.01.2021

Иллюстратор: Анна Андреева

В середине ноября инициатива «Европейского собрания литературных текстов» (ELTeC) акции COST представила обновленную базу романов. В версию 1.0.0 вошли 10 новых коллекций текстов. В проекте поучаствовали лидеры WG1 Кэролин Одебретч и Лу Бернард, которые отвечали за обработку страниц.

Редакторы и пользователи портала увеличили количество языков и изданий. Они добавили метаданные, транскрипцию и улучшили разметку ТЕI. Читателям стали доступны полные собрания и коллекции из 20-100 романов и 18 языков. Сейчас база насчитывает 884 текста, но благодаря дополнениям их скоро будет больше 1000.

В собрание входят издания 1840-1920 годов в различных цифровых форматах. Разработчики стремятся оцифровать и разметить неканонические и написанные женщинами книги. Пользователи найдут коллекцию в виде архива в Github репозитории проекта. В файле README присутствует информация о состоянии сборников, авторах и источниках.

Главная задача создателей — собрать 2 500 полных романов. Среди изданий появятся произведения более ранних и поздних периодов. Это позволит дополнить и расширить историю европейской литературы 19-20 вв. Так коллекция распространит методы, данные и инструменты, которые пригодятся в исследованиях дальнего чтения.

Источник: European Literary Text Collection

Автор: Варвара Гузий

Редактор: Вера Шимко

Иллюстратор: Анна Андреева

Теги:корпус

Next Пазлы и искусственный интеллект: как улучшить нейросети при помощи игр »

Previous « ЕГЭ для нейросетей: как тестируют усвоение языка машинами

Tags: корпус

28.01.2021

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

США усилили контроль над лидирующими ИИ моделями, ученые смогли полностью прочитать античный свиток, не разворачивая его — что произошло в…

06.07.2026

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Агенты, которые самостоятельно планируют свои действия и пользуются внешними инструментами. Модели, способные работать с миллионами токенов. Системы, которые помогают сохранять…

02.07.2026

Новости

Национальный корпус русского языка вырос в шесть раз

Теперь в него входят тексты ВКонтакте — почти 11,3 млрд слов из соцсетей

30.06.2026

Опубликован открытый корпус европейских романов

Related Post

Recent Posts

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Национальный корпус русского языка вырос в шесть раз