В середине ноября инициатива «Европейского собрания литературных текстов» (ELTeC) акции COST представила обновленную базу романов. В версию 1.0.0 вошли 10 новых коллекций текстов. В проекте поучаствовали лидеры WG1 Кэролин Одебретч и Лу Бернард, которые отвечали за обработку страниц.
Редакторы и пользователи портала увеличили количество языков и изданий. Они добавили метаданные, транскрипцию и улучшили разметку ТЕI. Читателям стали доступны полные собрания и коллекции из 20-100 романов и 18 языков. Сейчас база насчитывает 884 текста, но благодаря дополнениям их скоро будет больше 1000.
В собрание входят издания 1840-1920 годов в различных цифровых форматах. Разработчики стремятся оцифровать и разметить неканонические и написанные женщинами книги. Пользователи найдут коллекцию в виде архива в Github репозитории проекта. В файле README присутствует информация о состоянии сборников, авторах и источниках.
Главная задача создателей — собрать 2 500 полных романов. Среди изданий появятся произведения более ранних и поздних периодов. Это позволит дополнить и расширить историю европейской литературы 19-20 вв. Так коллекция распространит методы, данные и инструменты, которые пригодятся в исследованиях дальнего чтения.
Источник: European Literary Text Collection