Aozora Bunko — это японская цифровая библиотека, основанная в 1997 году. Она предоставляет бесплатный доступ к классическим литературным произведениям Японии. Основная цель проекта — обеспечить доступность японской литературы для всех желающих, а также сохранить литературное наследие.
Важная особенность Aozora Bunko — это участие добровольцев: пользователи помогают в оцифровке и корректировке текстов. Многие произведения на сайте имеют аннотированные примечания, что помогает лучше понять культурные и исторические контексты произведений.
Библиотека также известна своим «открытым исходным кодом» — она предоставляет книги в формате, который можно использовать и редактировать, что делает ее ценным инструментом для исследователей и любителей японской литературы.
Японская литература в сети
Aozora Bunko — далеко не первый цифровой репозиторий художественной литературы. В 1971 году (формальной датой зарождения проекта считается 4 июля 1971 года) Майклом С. Хартом был создан Project Gutenberg — один из крупнейших проектов по оцифровке и распространению общественного достояния в формате электронных книг. Этот проект ориентирован в основном на произведения, которые находятся в общественном достоянии — то есть те, на которые больше не распространяются авторские права. На данный момент в проекте собрано более 75 тыс. электронных книг, включая классическую литературу, научные труды, философские работы, исторические тексты и многое другое.
Aozora Bunko, в отличие от крупных международных проектов вроде Project Gutenberg, ориентирована только на произведения японских авторов. Давайте посмотрим, в чем заключаются ее особенности.
Особенности библиотеки Aozora Bunko
- Литература и языковая поддержка
Aozora Bunko предлагает только японскую литературу на японском языке — как классическую, так и современные произведения. Даже сам сайт проекта представлен исключительно на японском языке.

Скриншот начальной страницы проекта Aozora Bunko
- Форматы скачивания файлов
Книги проекта есть только в тех форматах, которые удобны японским пользователям, — это Shift-JIS и HTML, что для пользователей из других стран менее удобно.
- Оцифровка и волонтерство
В Aozora Bunko оцифровка и проверка текстов осуществляется волонтерами, в основном из Японии. При этом фокус при оцифровке остается только на тех произведениях, которые уже находятся в общественном достоянии Японии.
- Качество и стандарты текстов
Проект внимательно следит за качеством оцифровки, а многие книги имеют примечания и исторические пояснения.
- Правовые ограничения
Aozora Bunko работает в рамках японского законодательства об авторских правах: это значит, что книги на сайте находятся в общественном достоянии в Японии, но могут быть защищены авторским правом в других странах.
Как Aozora Bunko поддерживает уникальные особенности японского языка и культуры в контексте цифровой архивации?
Aozora Bunko занимается сохранением японских классических произведений, сохраняя их в том виде, в котором они были написаны. Это включает в себя редкие и старинные иероглифы, нестандартные грамматические конструкции и особенности стиля, которые были характерны для времени написания книги. Такая работа помогает сохранить атмосферу эпохи, в которой был создан текст, и передать его в том числе визуальные особенности.
Одна из задач Aozora Bunko — это приведение старых произведений к цифровому формату, чтобы они оставались доступными для будущих поколений. При этом особое внимание уделяется сохранению оригинальной японской письменности вместе с редкими символами и шрифтами, чтобы текст не утратил своей точности и остался таким, как в год первого издания.
Кроме того, в Aozora Bunko работают добровольцы, которые активно помогают при проверке текстов и исправлении ошибок. Вы также можете сами стать участником проекта — для этого нужно хорошо знать японский язык!
Какие проблемы возникают при оцифровке японских произведений и как они решаются в Aozora Bunko?
Оцифровка японских произведений — это сложный процесс, который сопряжен с рядом сложностей из-за особенностей японского языка и технологий. В Aozora Bunko эти проблемы решаются разными способами, чтобы сохранить точность и стиль оригинальных текстов.
Особенности японской письменности
Японский язык использует две алфавитные системы письма — хирагану и катакану, и одну иероглифическую систему — кандзи. Особенно сложно работать с кандзи, потому что иероглифов очень много (более 2000) и они могут иметь разные значения и чтения. Кроме того, древние японские произведения могут использовать редкие или архаичные иероглифы, которые не всегда поддерживаются современными системами. Помимо этого японские книги часто бывают написаны вертикальным письмом (слева направо).

Фрагмент японского романа, написанного вертикальным письмом. Источник: Wikipedia
В Aozora Bunko используются специальные кодировки, такие как Shift-JIS и EUC-JP, которые поддерживают все японские символы. Также важно правильно оцифровывать иероглифы, чтобы сохранить смысл текста, хотя это , к сожалению, не всегда удается. Также Aozora Bunko старается использовать максимально полный набор символов, а в случае редких иероглифов предоставляет пояснения или ссылки на базы данных, чтобы сохранить точность текста.
Ошибки в тексте
При оцифровке часто возникают ошибки, такие как неверное распознавание символов или пропущенные знаки. Для проверки файлов в Aozora Bunko есть волонтеры, которые вычитывают и редактируют тексты. Добровольцы исправляют ошибки и добавляют комментарии, чтобы читатели могли лучше понять контекст и особенности произведения.
Отсутствие стандартов для японской оцифровки
Для японского языка нет универсальных стандартов оцифровки, что усложняет работу с японскими текстами в цифровом формате. Aozora Bunko разработала свои собственные стандарты для оцифровки, что помогает создать единый формат и обеспечить высокое качество оцифрованных файлов.
Какие стандарты имеются в виду?
Во-первых, все тексты на Aozora Bunko оцифровываются в формате, который легко читается и редактируется, но при этом сохраняет структуру оригинала. Это включает в себя следующее:
- чистая кодировка текста (обычно UTF-8),
- использование специальных меток для обозначения разделов текста, таких как главы, параграфы, сноски,
- применение специфичных символов для перевода абзацев и разделов.
Во-вторых, используется Aozora Encoding. Этот стандарт включает в себя использование специфичных символов, таких как | (вертикальная черта) для обозначения разделов текста или 〓 (символ «гэта») для указания на то, что иероглиф написан неразборчиво и его невозможно распознать. Это помогает сохранить форматирование при преобразовании текста в цифровой формат.
В-третьих, сохраняется оригинальная пунктуация. Например, для обозначения диалога аналогично кавычкам используются знаки 「 」.
В-четвертых, Aozora Bunko использует стандарты для метаданных, включая информацию об авторе, названии, дате публикации и правах. Это помогает сохранить единообразие данных, облегчить доступ и упростить обработку текстов в различных форматах.
Старый японский язык
Многие произведения написаны на старом японском языке, который отличается от современного. Такие тексты содержат архаизмы, старые грамматические формы и слова. Для решения этой проблемы в Aozora Bunko добавляются аннотации и примечания, чтобы помочь читателям понять старые формы языка. Эти примечания раскрывают исторический контекст и значение архаизмов, а также объясняют, как они использовались в тексте.
Правовые аспекты использования Aozora Bunko
Как японское законодательство о авторских правах влияет на оцифровку и доступность литературы в Aozora Bunko?
Закон об авторских правах в Японии, или тёсакукэнхо: (Закон № 48 от 6 мая 1970 года), регулирует вопросы, связанные с охраной авторских прав, определяя их как часть интеллектуальной собственности. Этот закон защищает произведения, установив правила их использования и охраны. Ответственность за его исполнение лежит на Отделе авторских прав Агентства по делам культуры Министерства образования, культуры, спорта, науки и технологий Японии. Также в этот процесс вовлечены другие государственные учреждения, например Департамент административного управления информационным обменом Министерства внутренних дел и коммуникации.
Срок действия авторских прав в Японии составляет 70 лет после смерти автора. Когда этот срок истекает, произведения переходят в общественное достояние. Тогда они могут быть свободно оцифрованы и распространены. Однако, если автор умер менее 70 лет назад, его произведения остаются под защитой авторских прав, и их оцифровка без разрешения правообладателей будет незаконной.
Что касается переведенных произведений, то права на перевод защищены, даже если оригинал уже стал общественным достоянием. Поэтому Aozora Bunko следит, что у произведения, переведенного на японский язык, нет действующих прав.
Кроме того, в случае изменений в законодательстве Японии, например, когда срок авторских прав на произведение истекает, Aozora Bunko обновляет свои архивы и добавляет новые произведения, которые теперь доступны для оцифровки. Это позволяет библиотеке публиковать только те книги, на которые уже не распространяются авторские права.
Таким образом, соблюдение авторских прав и соблюдение сроков их действия — важнейшая часть работы Aozora Bunko, которая гарантирует, что материалы доступны только в рамках закона.
Как различные страны адаптируют свои законы в отношении перевода и использования произведений из базы данных?
В разных странах по-разному относятся к переводу и использованию произведений, хранящихся в базах данных. В некоторых странах законы об авторских правах довольно строгие, и для перевода или использования произведений нужно получать специальные разрешения. В других странах подход более гибкий. Главное, чтобы организации и пользователи таких баз данных учитывали местные законы и следили за международными нормами, такими как, например, Бернская конвенция.
Возьмем несколько стран, различающихся своей культурой, и посмотрим, как они регулируют вопросы перевода и использования произведений.
Россия
В России, как и в Японии, авторские права действуют в течение 70 лет после смерти автора. Но при этом в России существуют строгие правила относительно использования произведений в интернете, особенно в цифровых библиотеках и базах данных. Проблемы могут возникать, когда произведения, которые в других странах уже находятся в общественном достоянии, в России все еще защищены авторским правом. В таких случаях для легализации перевода могут понадобиться дополнительные шаги, особенно если это касается коммерческого использования.
США
В США существует понятие fair use (добросовестное использование), благодаря которому многие произведения разрешается использовать для образования, науки и некоторых коммерческих целей без разрешения владельцев прав. Но если произведение защищено авторским правом, то и перевод будет защищен, и нужно получить разрешение для его публикации. Также в США есть «публичное достояние» — произведения, на которые истекли авторские права. Как раз их можно использовать без ограничений.
Китай
В Китае авторские права строго регулируются государственными органами. Например, переведенные на китайский язык произведения могут требовать специального разрешения, если они касаются тем, которые регулируются государством.
Европейский Союз
В странах ЕС авторские права защищены общими законами, которые действуют в течение жизни автора плюс еще 70 лет (как в Японии и России). За цифровыми произведениями установлен строгий контроль, и для перевода произведений нужно получить разрешение, если они еще не стали частью общественного достояния. В ЕС особое внимание уделяется защите прав авторов в интернете, например, при доступе к произведениям через онлайн-базы данных. Но если произведение уже в общественном достоянии, то ограничений на его использование нет.
Как собрать свой корпус из файлов Aozora Bunko
Ваше исследование может быть посвящено конкретному автору или ограничено временными рамками, а может, вам интересна только литература, переведенная на японский язык и изданная в эпоху Мэйдзи. Чтобы собрать свой корпус из всей базы данных произведений Aozora Bunko, необязательно сохранять каждый файл вручную.
На сайте есть страница с csv-файлами, в которых собраны метаданные всех текстов Aozora Bunko. Нам нужен наиболее полный файл с кодировкой UTF-8 и ссылками на zip-архивы — 公開中 作家別作品一覧拡充版:全て(CSV形式、UTF-8、zip圧縮)」をダウンロード. Если нажать на эту ссылку, то автоматически сохранится архив, из которого нам надо извлечь csv-файл list_person_all_extended_utf8.
На сегодняшний день в файле содержится информация о 19301 произведении: каждая строка соответствует одному произведению. О каждом произведении из таблицы мы можем узнать автора, переводчика (если произведение переводное), дату первой публикации, издание и пр. И самое главное — в каждой строке в 46-й колонке (テキストファイルURL) есть ссылка, по которой мы будем скачивать текст. Таким образом, нам остается написать код, который будет читать csv-файл, выбирать тексты в соответствии с задачей, обращаться к 46-й колонке, скачивать архив по указанной там ссылке, распаковать архив и сохранить txt.
Для этого мы будем использовать код на языке программирования Python.
Для начала установим необходимые библиотеки:
from io import BytesIO
from urllib.request import urlopen
from zipfile import ZipFile
import re
import csv
from urllib.request import urlretrieve
Теперь напишем несколько функций. Для начала нам нужно открыть и прочитать csv-файл, который мы сохранили с сайта Aozora Bunko. Эта функция будет возвращать нам список, в котором каждая строка перезаписана в отдельный список.
def open_csv(filename_csv):
with open(filename_csv, encoding = 'utf-8') as r_file:
data = csv.reader(r_file, delimiter = ',')
data_list = list(data)
return data_list
Еще одна функция unzip_and_open(link) будет извлекать из архива txt-файл по ссылке из 46-го столбца и перезаписывать его содержимое в переменную text. Возвращать функция будет список из имени файла и текста.
def unzip_and_open(link):
resp = urlopen(link)
zf = ZipFile(BytesIO(resp.read()))
filenames = zf.namelist()
f = ''
for filename in filenames:
if filename.endswith('.txt'):
text = ''
for line in zf.open(filename).readlines():
filename = filename.strip('.txt')
line = line.decode('Shift-JIS')
text = text + line
f = filename
return [f, text]
Последняя функция write_txt(filename, text) будет записывать наш текст под нужным именем в заранее созданную папку My_corpora:
def write_txt(filename, text):
with open('My_corpora/{}.txt'.format(filename), 'w', encoding='utf8') as fw:
fw.write(text)
Теперь соберем функции и запустим их, задав условие: найти только те тексты, автором которых является Акутагава Рюносукэ:
filename = 'list_person_all_extended_utf8.csv'
data = open_csv(filename)
for row in data:
if row[21] == 'Akutagawa' and row[22] == 'Ryunosuke':
if row[45] and row[45].endswith('.zip'):
link = row[45]
try:
filename_text = unzip_and_open(link)
write_txt(filename_text[0], filename_text[1])
except UnicodeDecodeError:
print('UnicodeDecodeError: ', link)
Таким образом мы получили все тексты Акутагавы Рюноскэ в папке My_corpora в формате .txt и кодировке UTF-8.
Как стать волонтером цифровой библиотеки Aozora Bunko

Ссылка на информационную страницу для волонтеров на сайте Aozora Bunko
Чтобы стать волонтером на проекте, следуйте нашей инструкции с описанием, что нужно делать.
1. Ознакомиться с правилами
- Прочитать «Правила обращения с файлами, включенными в Aozora Bunko»
- Прочитать «Правила размещения ссылок Aozora Bunko».
2. Согласиться с правилами и отправить заявку
Если вы согласны с правилами, отправьте электронное письмо на адрес [email protected] с текстом:
Тема письма: Согласен
Текст письма: Я ознакомился с правилами и согласен с описанными обязательствами. (Имя для Aozora Bunko).

Образец письма для волонтеров «Аодзора-бунко» с согласием
3. Изучить руководство по созданию файлов
4. Выбрать произведение для работы
Решите, хотите ли вы вводить текст или заниматься корректурой, и изучите соответствующие разделы для выбора исходного текста.
5. Начать работу в специальной программе для ввода
После того, как вы определились с работой и произведением, воспользуйтесь «Системой ввода данных», чтобы начать работу.
6. Обратиться за помощью, если остались вопросы
Если возникнут трудности с выбором произведения или подачи заявки, свяжитесь с [email protected] для получения помощи.
После выполнения этих шагов вы сможете приступить к работе в Aozora Bunko как волонтер.
Источники
- Японская электронная библиотека Aozora Bunko. URL: https://www.aozora.gr.jp/ (дата обращения 03.02.2025).
- Цифровая библиотека Project Gutenberg. URL: https://www.gutenberg.org/ (дата обращения 03.02.2025).
- Статья о том, как стать волонтером проекта Aozora Bunko. URL: https://www.aozora.gr.jp/guide/kousakuin.html (дата обращения 03.02,2025).
- Законы Японии «Об авторском праве» и «О японском праве патента». URL: https://web.archive.org/web/20150527135144/,
http://www.tomeika.jur.kyushu-u.ac.jp/ip/index.html (дата обращения: 11.02.2025). - Агентство по делам культуры Японии. URL: https://www.bunka.go.jp/ (дата обращения: 11.02.2025).
- Министерство образования, культуры, спорта, науки и технологий (MEXT). URL: https://www.mext.go.jp/ (дата обращения: 11.02.2025).
- Департамент административного управления информационным обменом. URL: https://www.soumu.go.jp/main_sosiki/joho_ryutsu/index.html (дата обращения: 11.02.2025).
- Министерство внутренних дел и коммуникации Японии. URL: https://www.soumu.go.jp/ (дата обращения: 11.02.2025).
- Бернская конвенция об охране литературных и художественных произведений. URL: https://www.wipo.int/wipolex/en/treaties/textdetails/12807 (дата обращения: 11.02.2025).