Проект «Дальнее чтение для европейской литературной истории» выпустил собрание старых произведений. В коллекцию вошли 884 романа на 18 языках
Иллюстратор: Анна Андреева
В середине ноября инициатива «Европейского собрания литературных текстов» (ELTeC) акции COST представила обновленную базу романов. В версию 1.0.0 вошли 10 новых коллекций текстов. В проекте поучаствовали лидеры WG1 Кэролин Одебретч и Лу Бернард, которые отвечали за обработку страниц.
Редакторы и пользователи портала увеличили количество языков и изданий. Они добавили метаданные, транскрипцию и улучшили разметку ТЕI. Читателям стали доступны полные собрания и коллекции из 20-100 романов и 18 языков. Сейчас база насчитывает 884 текста, но благодаря дополнениям их скоро будет больше 1000.
В собрание входят издания 1840-1920 годов в различных цифровых форматах. Разработчики стремятся оцифровать и разметить неканонические и написанные женщинами книги. Пользователи найдут коллекцию в виде архива в Github репозитории проекта. В файле README присутствует информация о состоянии сборников, авторах и источниках.
Главная задача создателей — собрать 2 500 полных романов. Среди изданий появятся произведения более ранних и поздних периодов. Это позволит дополнить и расширить историю европейской литературы 19-20 вв. Так коллекция распространит методы, данные и инструменты, которые пригодятся в исследованиях дальнего чтения.
Источник: European Literary Text Collection
Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время
Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст
Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…