Что такое capta?
Термин «данные» (data) зачастую используют по отношению к любой анализируемой информации. Некоторые исследователи считают, что этот термин недостаточно точно характеризует определённый вид данных: информацию, которая была скорее «отобрана» целенаправленно, чем «дана» изначально. Например, если вы собрали базу всех известных русских пьес первой четверти XIX века или всех турецких романов, написанных женщинами, — это, скорее, capta (от латинского «взято», «ухвачено»), чем data (от латинского «дано»).
Термин «капта»/capta вводится для того, чтобы разграничить большие или средние данные (например, обширную статистику по какому-либо вопросу) и малые данные, зачастую собранные самим исследователем под конкретную задачу. Историк Андрей Володин удачно сравнил капту с археологическим раскопом: сегодня в раскопе обнаружены какие-то объекты и по ним можно сделать выводы об истории исследуемой культуры, но совершенно точно рядом есть ещё много ненайденных объектов, и какая-то часть ваших выводов будет искажена тем, в каком именно месте вы сделали раскоп, как собирали находки и что именно попало в поле вашего внимания.
Capta и big data — в чём различия?
Сравним два вида данных. Характеристики в таблице не всегда являются определяющими для того или иного вида: это скорее общие закономерности.
Большие данные, data | Малые данные, capta |
«даны» — зачастую достаточно полно характеризуют какую-либо сферу, например, данные переписи населения | «ухвачены» — отобраны исследователем под конкретную задачу |
как правило, получены из стороннего источника | как правило, собраны самостоятельно |
большой объём, миллионы записей | сравнительно небольшой объём, например, несколько тысяч или сотен записей |
репрезентативность достигается благодаря большому объёму (близкому к генеральной совокупности) | репрезентативность достигается благодаря работе исследователя (соблюдению принципов отбора наблюдений) |
Примеры «капты» в цифровых гуманитарных исследованиях
Термин «капта» может употребляться по отношению к сравнительно небольшим цифровым коллекциям, посвящённым конкретной теме. Например, в исторических исследованиях примером может быть корпус жалоб в Англии семнадцатого века или коллекция берестяных грамот.
Называет свои данные «каптой» и корпус открыток «Пишу тебе»: создатели объясняют это региональными и хронологическими особенностями коллекции.
Термин «капта» пока не является устоявшимся и чаще всего малые данные по-прежнему называются данными. Некоторые критики термина, например, говорят о сложности использования термина и его избыточности: такие производные, как captabase или captasource, могут звучать искусственно.
Источники
- Drucker J. Humanities Approaches to Graphical Display [Электронный ресурс]// Digital Humanities Quarterly. 2011. 005, no. 1. — URL: http://www.digitalhumanities.org/dhq/vol/5/1/000091/000091.html (дата обращения: 25.02.2024).
- Володин А. Ю. Исторические исследования в контексте датаизма: методологический аспект // Вестник Пермского университета. История. 2023. № 4(63). С. 135–147.
- Chippindale C. Capta and data: On the true nature of archaeological information //American antiquity. – 2000. – Т. 65. – №. 4. – С. 605-612.
- Lavin M. Why digital humanists should emphasize situated data over capta. Digital Humanities Quarterly. 2021;15(2) [Электронный ресурс]. — URL: http://www.digitalhumanities.org/dhq/vol/15/2/000556/000556.html (дата обращения: 25.02.2024).
- Critical Approaches to “Capta” (Семинар «Цифровая среда» DHRI@СФУ, 11.03.2022) [Электронный ресурс]. URL: https://www.youtube.com/watch?v=pWB6Fs9T9jw (дата обращения: 25.02.2024).