Рассказываем про вид данных, отличающийся от привычных big data, и чем малые данные похожи на археологический раскоп.
Термин «данные» (data) зачастую используют по отношению к любой анализируемой информации. Некоторые исследователи считают, что этот термин недостаточно точно характеризует определённый вид данных: информацию, которая была скорее «отобрана» целенаправленно, чем «дана» изначально. Например, если вы собрали базу всех известных русских пьес первой четверти XIX века или всех турецких романов, написанных женщинами, — это, скорее, capta (от латинского «взято», «ухвачено»), чем data (от латинского «дано»).
Термин «капта»/capta вводится для того, чтобы разграничить большие или средние данные (например, обширную статистику по какому-либо вопросу) и малые данные, зачастую собранные самим исследователем под конкретную задачу. Историк Андрей Володин удачно сравнил капту с археологическим раскопом: сегодня в раскопе обнаружены какие-то объекты и по ним можно сделать выводы об истории исследуемой культуры, но совершенно точно рядом есть ещё много ненайденных объектов, и какая-то часть ваших выводов будет искажена тем, в каком именно месте вы сделали раскоп, как собирали находки и что именно попало в поле вашего внимания.
Сравним два вида данных. Характеристики в таблице не всегда являются определяющими для того или иного вида: это скорее общие закономерности.
| Большие данные, data | Малые данные, capta |
| «даны» — зачастую достаточно полно характеризуют какую-либо сферу, например, данные переписи населения | «ухвачены» — отобраны исследователем под конкретную задачу |
| как правило, получены из стороннего источника | как правило, собраны самостоятельно |
| большой объём, миллионы записей | сравнительно небольшой объём, например, несколько тысяч или сотен записей |
| репрезентативность достигается благодаря большому объёму (близкому к генеральной совокупности) | репрезентативность достигается благодаря работе исследователя (соблюдению принципов отбора наблюдений) |
Термин «капта» может употребляться по отношению к сравнительно небольшим цифровым коллекциям, посвящённым конкретной теме. Например, в исторических исследованиях примером может быть корпус жалоб в Англии семнадцатого века или коллекция берестяных грамот.
Называет свои данные «каптой» и корпус открыток «Пишу тебе»: создатели объясняют это региональными и хронологическими особенностями коллекции.
Термин «капта» пока не является устоявшимся и чаще всего малые данные по-прежнему называются данными. Некоторые критики термина, например, говорят о сложности использования термина и его избыточности: такие производные, как captabase или captasource, могут звучать искусственно.
Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время
Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст
Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…