Глоссарий

Что такое capta и чем отличается от больших данных?

Рассказываем про вид данных, отличающийся от привычных big data, и чем малые данные похожи на археологический раскоп.

Что такое capta?

Термин «данные» (data) зачастую используют по отношению к любой анализируемой информации. Некоторые исследователи считают, что этот термин недостаточно точно характеризует определённый вид данных: информацию, которая была скорее «отобрана» целенаправленно, чем «дана» изначально. Например, если вы собрали базу всех известных русских пьес первой четверти XIX века или всех турецких романов, написанных женщинами, — это, скорее, capta (от латинского «взято», «ухвачено»), чем data (от латинского «дано»).

Термин «капта»/capta вводится для того, чтобы разграничить большие или средние данные (например, обширную статистику по какому-либо вопросу) и малые данные, зачастую собранные самим исследователем под конкретную задачу. Историк Андрей Володин удачно сравнил капту с археологическим раскопом: сегодня в раскопе обнаружены какие-то объекты и по ним можно сделать выводы об истории исследуемой культуры, но совершенно точно рядом есть ещё много ненайденных объектов, и какая-то часть ваших выводов будет искажена тем, в каком именно месте вы сделали раскоп, как собирали находки и что именно попало в поле вашего внимания.

Capta и big data — в чём различия?

Сравним два вида данных. Характеристики в таблице не всегда являются определяющими для того или иного вида: это скорее общие закономерности.

Большие данные, dataМалые данные, capta
«даны» — зачастую достаточно полно характеризуют какую-либо сферу, например, данные переписи населения«ухвачены» — отобраны исследователем под конкретную задачу
как правило, получены из стороннего источникакак правило, собраны самостоятельно
большой объём, миллионы записейсравнительно небольшой объём, например, несколько тысяч или сотен записей
репрезентативность достигается благодаря большому объёму (близкому к генеральной совокупности)репрезентативность достигается благодаря работе исследователя (соблюдению принципов отбора наблюдений)

Примеры «капты» в цифровых гуманитарных исследованиях

Термин «капта» может употребляться по отношению к сравнительно небольшим цифровым коллекциям, посвящённым конкретной теме. Например, в исторических исследованиях примером может быть корпус жалоб в Англии семнадцатого века или коллекция берестяных грамот.

Называет свои данные «каптой» и корпус открыток «Пишу тебе»: создатели объясняют это региональными и хронологическими особенностями коллекции.

Термин «капта» пока не является устоявшимся и чаще всего малые данные по-прежнему называются данными. Некоторые критики термина, например, говорят о сложности использования термина и его избыточности: такие производные, как captabase или captasource, могут звучать искусственно.

Источники

  1. Drucker J. Humanities Approaches to Graphical Display [Электронный ресурс]// Digital Humanities Quarterly. 2011. 005, no. 1. — URL: http://www.digitalhumanities.org/dhq/vol/5/1/000091/000091.html (дата обращения: 25.02.2024).
  2. Володин А. Ю. Исторические исследования в контексте датаизма: методологический аспект // Вестник Пермского университета. История. 2023. № 4(63). С. 135–147.
  3. Chippindale C. Capta and data: On the true nature of archaeological information //American antiquity. – 2000. – Т. 65. – №. 4. – С. 605-612.
  4. Lavin M. Why digital humanists should emphasize situated data over capta. Digital Humanities Quarterly. 2021;15(2) [Электронный ресурс]. — URL: http://www.digitalhumanities.org/dhq/vol/15/2/000556/000556.html (дата обращения: 25.02.2024).
  5. Critical Approaches to “Capta” (Семинар «Цифровая среда» DHRI@СФУ, 11.03.2022) [Электронный ресурс]. URL: https://www.youtube.com/watch?v=pWB6Fs9T9jw (дата обращения: 25.02.2024).
Share

Recent Posts

GPT решила знаменитую нерешенную задачу математики, Google показал новый ИИ-поиск

Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время

25.05.2026

ИИ найдет «скрытых» детей в соцсетях по костям лица

Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст

19.05.2026

Какая математика нужна джуну в NLP?

Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…

19.05.2026