ИИ для исследователей: как заниматься наукой по-новому

Своим опытом делятся главный редактор «Системного Блока» Даниил Скоринкин, автор «Системного Блока» Анастасия Жук и преподаватель Тимур Хусяинов.

Оглавление

Инструменты

  • Elicit — помогает искать идеи для исследования, выбирать и уточнять тему;
  • Litmaps, Connectedpapers — используются для поиска научных статей;
  • Meetcody.ai, Typeset.io — позволяют создавать базы знаний;
  • Consensus.app, Perplexity.ai — применяются для чтения и анализа научных источников;
  • DeepSeek — оформляет библиографический список;
  • Zotero — помогает собирать, организовывать, аннотировать, цитировать и делиться исследовательскими материалами;
  • Mendeley — является аналогом Zotero, но имеет встроенный поиск статей и рассылки по тематикам.

Задачи

Задача 1. Систематический обзор литературы

Systematic Literature Review (SLR) — выявление и оценка всей релевантной литературы по теме для формирования выводов по рассматриваемому вопросу. Для чего это необходимо? 

  • Демонстрация текущего состояния темы;
  • Идентификация пробелов и направлений для дальнейших исследований по заданному исследовательскому вопросу.

Цель SLR — формализованный методологический подход для уменьшения искажений, вызванных чрезмерно ограничительным отбором доступной литературы, и для повышения надежности отобранной литературы.

Elicit

Может использоваться для поиска идеи исследования, выбора темы и ее уточнения. Получаемые ответы представляют собой реальные статьи, проверенные или сгенерированные языковой моделью.

Что мы можем здесь найти? 

  • Ссылки на работы;
  • DOI;
  • Авторы и исследования (NB! Которые ИИ считает самыми релевантными);
  • Краткий пересказ статей;
  • Можно добавить различные лимитирующие параметры (методология, основные выводы исследования, место исследования, участники, какая статистика использовалась);
  • NB! Research gaps — найти новые темы для исследования!

Для сужения темы можно скопировать заинтересовавшее название в новый блокнот и задать исследовательский вопрос. Также есть возможность добавлять колонки для автоматической идентификации пробелов в исследованиях (gaps) и участников.

Автор: Анастасия Жук

Задача 2. Поиск научных статей

Litmaps

Сервис помогает найти связанные с указанной темой статьи. Поиск возможен по количеству цитирований (top-shared citations) и ссылкам (references). Также доступен поиск по самым цитируемым авторам в выбранной сфере (common authorship patterns).

В платной версии сервис синхронизируется с Zotero. В бесплатной интегрирован поиск по DOI, названию и другим идентификаторам.

Функция Visualize помогает построить графики по работам
Разные типы поиска

Возможно также импортировать статьи вручную.

Connectedpapers

Cервис помогает определить статьи «предшественники» и «преемники». Поиск осуществляется по теме исследования. Также присутствует возможность загрузки: list view — download. Так выглядит демонстрационный датасет:

Автор: Анастасия Жук

Задача 3. Создание базы знаний

Meetcody.ai

Meetcody — чат-бот, которого вы можете натренировать отвечать на вопросы на основе загруженных в него работ. 

Как это сделать? 

  • Загрузите статьи (Knowledge section);
  • Выберите Personality — factual bot;
  • Выберите Handling unanswerable queries — best guess;
  • Попробуйте задать вопросы (e.g. What possible research questions can you suggest? What possible research strategy and methodology can you suggest?)

Создание бота в Meetcody

Обучение созданного бота

Какие вопросы можно задать боту?

  • Пробелы в исследованиях: Какие пробелы в исследовании ты можешь обнаружить, и как я могу это учесть в будущих исследованиях?
  • Методология: Какая методология использовалась в исследовании, какие есть сильные и слабые стороны?
  • Результаты: Какие основные результаты исследования, какие выводы они имеют для образовательной практики или политики?
  • Теория: Какие теоретические основы лежат в основе исследования, и как они влияют на анализ и выводы?
  • Другие факторы: Как социально-экономические и политические факторы влияют на результаты исследования?
  • Сравнительные исследования: Есть ли в исследовании сравнения различных образовательных контекстов или педагогических подходов?
  • Участники: Как исследования учитывают мнения учителей и студентов, и какое влияние это оказывает на результаты?
  • Будущие направления: Какие направления для будущих исследований предлагаются, и какие области требуют дальнейшего изучения?
Примеры вопросов боту

Typeset.io

Typeset.io — “scispace” / «научная база данных» для работы с научной литературой. Задайте вопрос по теме и получите ответ будет на основании топ-5 работ. Вы также можете получить краткое описание других релевантных работ по вашей теме в формате таблицы.

Пример выдачи базы данных в Typeset.io

Также есть возможность работать с определенной работой: upload paper — co-pilot (задавать вопросы по конкретной работе). 

Формулирование вопросов по конкретной работе

Наконец, сервис может объяснять непонятные фрагменты статьи, графики, математические формулы.

Объяснение конкретного фрагмента статьи

Фактически — это комбинация всех рассматриваемых ранее инструментов.

Автор: Анастасия Жук

Задача 4. Чтение и анализ научных работ

Consensus.app

Сервис дает научно обоснованные ответы на заданные вопросы. Поддерживает русский язык.

Рекомендация: сервис лучше всего работает с закрытыми вопросами.

Perplexity.ai

Данный сервис является аналогом Consensus.app, но, в отличие от Consensus, предоставляет результаты в различных сферах, а не только в науке.

В сервисе также есть режим «фокуса», который позволяет настроить определенную фильтрацию. Например, использовать только подтвержденные данные, только данные со ссылками или только научные работы.

Автор: Анастасия Жук

Задача 5. Оформление библиографического списка

Описание задачи

Я обращаюсь к нейросетям для правильного оформления списка литературы (источников).

Промпт

Оформи ссылки по примеру.
Пример: 
1. ADEDZE, Agbenyega, “Commemorating the Chief: The Politics of Postage Stamps in West Africa,” African Arts, 37, 2 (2004): 68-73, 96.
2. “Re-Presenting Africa: Commemorative Postage Stamps of the Colonial Exhibition of Paris (1931),” African Arts, 37, 2 (2004): 58-61, 94-95.
3. “Domination and Resistance through the Prism of Postage Stamps,” Afrika Zamani, 17 (2009): 227-246.
4. “Visualizing the Game: the Iconography of Football on African Postage Stamps,” Soccer & Society, 13, 2 (2012): 294-308.
5. AHMAD, Feroz, “Postage Stamps, Politics and Ideology in the Late Ottoman Empire,” in Feroz AHMAD, From Empire to Republic vol. 2 Essays on the Late Ottoman Empire and Modern Turkey (Istanbul: Bilgi University Press, 2008).

То, что нужно оформить (на русском и с транслитерацией):
278. Пермякова П.В., Хусяинов Т.М. Почтовая открытка как источник по изучению истории Выборга и его жителей начала XX века: по материалам цифрового корпуса «Пишу тебе» // Страницы Выборгской истории. Книга восьмая. Выборг, 2024. С. 154-163.
277. Хусяинов Т.М. Почтовая коммуникация и повседневность жителей Гродно на рубеже XIX-XX веков (на материалах цифрового корпуса почтовых открыток «Пишу тебе» // Социальные, культурные и коммуникативные практики в динамике общественного развития : сб. науч. ст. / ГрГУ им. Янки Купалы ; редкол.: В. А. Белозорович (гл. ред.) [и др.]. – Гродно: ГрГУ, 2024 – С. 332-336.
276. Динамика коммуникативных практик в почтовой переписке (на материале корпуса «Пишу тебе»): монография / В. А. Куликова, Т. М. Хусяинов, П. А. Шкунов, А. К. Айсина, П. В. Доможирова, А. А. Карнаухов, М. С. Журавлева, П. В. Пермякова, Ю. Д. Мусинова; Под ред. В. А. Куликовой, Т. М. Хусяинова. – М.: Издательство РОИФН, 2024. 258 с.
275. Хусяинов Т.М. Почтовые открытки в рамках современных практик психологических интервенций у различных категорий // Современная реальность в социально-психологическом контексте – 2024: сборник научных трудов / под науч. ред. А. Л. Журавлева, О. А. Белобрыкиной, М. И. Кошеновой; Министерство просвещения Российской Федерации, Новосибирский государственный педагогический университет. – Новосибирск : Изд-во НГПУ, 2024. С. 188-191. 

Выдача нейросети

Комментарий

Я обычно за один раз оформляю как русскоязычные, так и англоязычные источники. Принцип, таким образом, довольно простой: присылаешь пример оформления, а затем перечень источников, которые необходимо оформить.

Автор: Тимур Хусяинов

Задача 6. Обработка больших массивов мультимодальных данных

Описание задачи

Передо мной стояла задача переформатировать информацию из файла Word в Excel; при этом структура сильно отличалась. Сами данные — это ревизская сказка одной из деревень Костромской губернии за 1850 год. В дальнейшем ее надо было загрузить на сайт Familio. Так как я уже несколько лет занимаюсь генеалогической реконструкцией по этому району, то накопилось много материалов, и сделать их общедоступными — это помочь большому кругу потенциальных исследователей. В процессе решения задачи было использовано две нейросети: ChatGPT и DeepSeek. В результате второй справился лучше, быстрее поняв суть задачи и выдав верный результат.

Задача выполнялась с помощью нескольких промптов.

Промпт 1

Привет! У меня есть образец документа в Excel и данные для заполнения в Word, можешь сделать?

Образец:

Оглавление
Лист со списком населённых пунктом очень важен в шаблоне индексации.
Лист с персонами из ревизии в шаблоне
Перечисление персон из ревизской сказки

Ревизская сказка — это документ, содержащий результаты проведения подушных переписей податного населения Российской империи в начале XVIII — XIX веков. Ревизские сказки проводились с целью налогообложения и представляют из себя поимённые списки населения с указанием фамилии (при наличии), имени, отчества главы семьи, его возраст, и имена, отчества членов семьи с указанием возраста, отношения к главе семьи.

Данный он предназначен для индексации ревизских сказок. Шаблон для индексации ревизских сказок выполнен в табличном редакторе Excel. Файл с оцифрованной ревизской сказкой можно хранить локально на компьютере, делиться файлом с другими исследователями, в Excel можно легко осуществлять поиск и фильтрацию, а также структура файла сделана в формате, удобном для дальнейшего внесения в «Справочники Familio».

Вся основная информация описана во вкладке «INFO» шаблона. Табличный редактор Excel удобен тем, что некоторые данные можно использовать как «список» и при наборе выбирать данные из него, а не набирать. Это также позволяет избежать опечаток.

Индексирующий сам вносит основные данные о документе и о себе. Индексацию можно сделать по нескольким годам, а можно по 1 году. Если РС за один год, то неплохо бы заполнить все данные о архивном документе, чтобы они также прописались у каждой персоны на сайте. Во вкладке «spiski» прописывается перечень чинов и статусов персон. «Пол» уже заполнен.

Вспомогательные листы для набора в шаблон индексации ревизских сказок. Лист «about». Лист со списком населённых пунктом очень важен в шаблоне индексации.
Для привязки записей о персонах к населённым пунктам на сайте необходимо будет составить список н.п. в листе «location» с привязкой к «Местам» Familio.
Один нас.пункт точно будет по месту составления ревизии. Но также очень часто людей переводили из других н.п. или в другие н.п., название указано и его точно можно определить на карте. Тогда одна запись по персоне может быть привязана минимум к одному н.п. или к двум, трём. Не обязательно заполнять «волость» или «уезд» если вы не знаете, но от того как заполните зависит что будет написано у персоны на сайте, а от URL — к какому населённому пункту пойдёт привязка.

Непосредственно привязка к н.п. позволит из справочника на сайте переходить от записей по персонам к н.п. и наоборот, персоны будут появляться в населённых пунктах, по ним можно будет вести поиск или эти «справочные записи» связывать со своими персонами в древе.

Если какого то населённого пункта нет в базе мест Familio, но у вас есть карта или иная информация, позволяющая точно определить это место, то вы можете написать в любом чате Familio сообщение с хэштегом #хочунп и запросом на добавление. Список чатов находится здесь: chat.familio.org

Лист с персонами из ревизии в шаблоне
Шаблон для заполнения информации о персонах, указанных в ревизии, сделан максимально подробным. Архивный шифр дела и листов, для того чтобы желающие всегда могли обратиться к источнику. Населённый пункт составления ревизской сказки выбирается из списка листа «location».

Одна персона в ревизии — одна строка в Excel. Члены одной семьи (двора) все с одним номером двора/семьи, и каждый уже внутри двора имеет свой порядковый номер. Общий номер двора/семьи позволит все персоны с единым номером связать в общий блок на сайте. Нумерация персон внутри семьи также позволяет указывать родственные связи.

При наличии в одной переписи персон нескольких помещиков — есть возможность указать к какому помещику относятся переписываемые персоны.

Архивный шифр и нумерация персон одной семьи в шаблоне ревизской сказки
Перечисление персон из ревизской сказки. Построчно вносятся ФИО «участников переписи», их пол. Для понимания связей внутри семьи используется указание степени родства и номера по списку того члена семьи, к которому относится указанное родство. Саму связь можно указывать на своё усмотрение от «сын» (номера 1) до «сын Василия Яковлева» (номер 1).

Далее указывается возраст на текущую ревизию и возраст на прошлую ревизию (если таковой записан). В некоторых более поздних ревизиях указывается точная дата рождения и для этого предусмотрены отдельные поля.

Очень часто указана информация о переводе людей из других населённых пунктов, тогда указана причина перевода и очень часто название н.п.. Аналогично с местом, куда персоны переводят. Как уже сказано ранее, если удаётся определить название места по «Местам» на сайте Familio, то лучше это сделать, т.к. тогда запись о персоне будет видно среди персон и одного нас.пункта и другого. Исходя из указанного возраста и года ревизии высчитывается примерный год рождения персон и при наличии записи о смерти в определённом году в столбцах убытия — прописывается год смерти.

Есть поле для пометок или комментариев, которые указаны непосредственно в ревизской сказке (например о на всю семью может быть указано примечание в стиле «эта семья получена от помещика такого-то в таком то году…) и если примечание для всей семьи, то повторить текст пометки нужно в каждой строке всех членов семьи. А также есть поле для «авторского комментария наборщика», куда можно внести любые дополнения «от себя», например указать что не разобрали фамилию, что утрачена часть текста и т.д.

Образец исходной таблицы

СемьяКрестьянеВозраст по последней ревизииВыбылиВозраст на момент ревизии
1Степан Николаев28 44
Степана Николаева жена Афросинья Филиппова 44
сын Петр Степанов5 21
Петра Степанова жена Каптелина (^Капитолина) Андреева 20
сын Николай Степанов2 18
дочь Арина Степанова 15 1/2
2Конон Ефимов18Отдан в рекруты в 1841 г. 
Конона Ефимова мать Дарья Леонтьева 64
Конона Ефимова брат Агап4 20
Агапа Ефимова жена Варвара Матвеева 18
3Иван Карпов30 46
сын Лукьян Иванов2 18
сын Василий Ивановноворожденный 14 1/2
дочь Марина Иванова 11
дочь Оксинья Иванова 6 1/2
Лукьяна Иванова жена Маремьяна Феодулова  17

Комментарий

DeepSeek лучше понял структуру таблицы и в целом правильнее справился с задачей, чем ChatGPT. Затем нейросеть (ChatGPT) задала уточняющие вопросы по таблице. И ChatGPT, и DeepSeek сделали требуемое по 2-3 семьям из 18. Первый сделал 3, второй — 2, после чего оба спросили, нужно ли сделать то же самое по остальным. Ниже даны вопросы нейросети и мои ответы на них.

Выдача нейросети

Год ревизии — это 1850, как указано в документе. Подтверди, пожалуйста? Да.

Населённый пункт: деревня Дубовик, Замерская волость, Галичский уезд, Костромская губерния — правильно ли я понимаю, что именно это место нужно указать в листе location? Да.

В документе есть указания о переводе, выбытии, смерти — нужно ли всё это заносить в шаблон? Например: «Отдан в рекруты в 1841 г.», «Умер в 1843 г.», «Переведен из Буйского уезда деревни Устинова». Да, в комментарии.

Пол и родственные связи — можно ли определять автоматически по имени и описанию (например, «жена», «сын» и т.д.)? Да.

Нужно ли указывать архивный шифр или оставить поле пустым (если в Word его нет)? Государственный архив Костромской области, фонд 200, опись 14, дело 42, листы 110-115об.

У некоторых персон есть указания типа «новорожденный», «1/2 года», «14 1/2» и т.д. — сохраняем это как есть, или округлять возраст до целого числа? Округляем.

Промпт 2

Сделай CSV по примеру. Пример: таблица-шаблон в формате txt

Образец в формате txt

Выдача нейросети

Комментарий

Затем я перенес результат в Excel. За 3 промпта нейросеть справилась с этой задачей. Единственная проблема, которую мне удалось обнаружить, — формат ячеек не везде подходит данным. Но это удалось исправить уже вручную.

Автор: Тимур Хусяинов

Написание кода для визуализации романов

Описание задачи

Я использую ChatGPT для написания кода. Например, у меня есть датасет с частотностями слов в разных книгах. Я прошу нейросеть написать мне код, который делает такую визуализацию, чтобы каждая книга была трехмерным вектором трех верхних частотностей. Задача выполняется в 4 промпта.

Промпт 1

Hey, I have data on word frequencies in certain novels in csv format (see attached). Each novel is a column, each word a row. Write a python code to visualize novels as points in 3-dimensional space, where the dimensions would come from the frequencies of selected words.

(У меня есть данные о частоте встречаемости слов в некоторых романах в формате csv (см. вложение). Каждый роман это столбец, каждое слово строка. Напиши код на python для визуализации романов в виде точек в 3-мерном пространстве, где размерность будет определяться частотой выбранных слов).

Выдача нейросети

Результат выдачи ChatGPT

Комментарий

Затем прошу ChatGPT использовать кодирование по цветам для визуального разграничения Толстого и Достоевского.

Промпт 2

Can you use colors to differentiate Tolstoy and Dostoevsky?

Выдача нейросети

Комментарий

Я попросил изменить код — так, чтобы сетка была белого, а не серого цвета.

Промпт 3

Can we alter the code so that the grid behind is white and not grey?

Выдача нейросети

Комментарий

Уточняю, как можно дифференцировать маркеры.

Промпт 4

Is there also a possibility to differentiate the markers? Now both are the same shape, I’d love to change them 

Выдача нейросети

Автор: Даниил Скоринкин

Создание разметки

Описание задачи

ChatGPT выполняет задачи по разметке текста. Например, мне понадобилась разметка прямой речи в тексте с указанием говорящего и адресата реплики.

Промпт

Hello. You are a native speaker of Russian and an assitant in manual text markup. You will be marking up all instances of direct speech in Russian texts. You will need assign a speaker (i.e. concrete speaking character) to each direct speech instance, and, whenever it is known, assign an addressee of the speech (i.e. the character to whom the speech is addressed). But you should not assign an addressee if there is no clear addressee or the character speaks to himself. The output should be in JSON format. Please do not omit any speech text. Here is an example input: 

Раздался звонок. В дверь. Калям спрыгнул с тахты и, задрав хвост, поскакал в прихожую. Малянов аккуратно положил ручку.

– С цепи сорвались, честное слово, – произнес он.

В прихожей Калям описывал нетерпеливые круги и орал, путаясь под ногами.

– Ка-ал-лям! – сказал Малянов сдавленно-угрожающим голосом. – Да Калям, пошел вон!

Он открыл дверь. За дверью оказался плюгавый мужчина в кургузом пиджачке неопределенного цвета, небритый и потный. Слегка откинувшись всем корпусом назад, он держал перед собою большую картонную коробку. Бурча нечленораздельное, он двинулся прямо на Малянова.

– Вы… э… – промямлил Малянов, отступая.

Плюгавый был уже в прихожей – глянул направо в комнату и решительно повернул налево в кухню, оставляя за собой на линолеуме белые пыльные следы.

– Позвольте… э… – бормотал Малянов, наступая ему на пятки.

Мужчина уже поставил коробку на табурет и вытащил из нагрудного кармана пачку каких-то квитанций.

– Вы из ЖЭКа, что ли? – Малянову почему-то пришло в голову, что это водопроводчик наконец явился – чинить кран в ванной.

– Из гастронома, – сипло сказал мужчина и протянул две квитанции, сколотые булавкой. – Распишитесь вот здесь…

– А что это? – спросил Малянов и тут же увидел, что это бланки стола заказов. Коньяк – две бутылки, водка… – Подождите, – сказал он. – По-моему, мы ничего…

Он увидел сумму. Он ужаснулся. Таких денег в квартире не было. Да и вообще с какой стати? Охваченное паникой воображение мигом выстроило перед ним удручающую последовательность всевозможных сложностей, вроде необходимости оправдываться, отпираться, возмущаться, призывать к здравому смыслу… звонить, наверное, куда-нибудь придется, может быть, даже ехать… Но тут на углу квитанции он обнаружил фиолетовый штамп «Оплачено» и сразу же – имя заказчика: Малянова И.Е. Ирка!.. Ни черта понять невозможно.

– Вот тут расписывайтесь, вот тут… – бурчал плюгавый, тыча траурным ногтем. – Вот где птичка стоит…

Малянов принял от него огрызок карандаша и расписался.

– Спасибо… – сказал он, возвращая карандаш. – Большое спасибо… – обалдело повторял он, протискиваясь рядом с плюгавым через узкую прихожую. Дать ему надо бы что-нибудь, да мелочи нет… – Огромное вам спасибо, до свидания!.. – крикнул он в спину кургузому пиджачку, ожесточенно отпихивая ногой Каляма, который рвался полизать цементный пол на лестничной площадке.

Потом Малянов закрыл дверь и некоторое время постоял в сумраке. В голове было как-то все неясно.

– Странно… – сказал он вслух и вернулся на кухню.

For that example input, here is an example output:  

[
     {
         «speaker»: «Малянов»,
         «speech»: «С цепи сорвались, честное слово»
     },
     {
         «speaker»: «Малянов»,
         «speech»: «Ка-ал-лям!»,
         «addressee»: «Калям»
     },
     {
         «speaker»: «Малянов»,
         «speech»: «Да Калям, пошел вон!»,
         «addressee»: «Калям»
     },
     {
         «speaker»: «Малянов»,
         «speech»: «Вы… э…»,
         «addressee»: «Мужчина с коробкой»
     },
     {
         «speaker»: «Малянов»,
         «speech»: «Позвольте… э…»,
         «addressee»: «Мужчина с коробкой»
     },
     {
          «speaker»: «Малянов»,
         «speech»: «Вы из ЖЭКа, что ли?»,
         «addressee»: «Мужчина с коробкой»
     },
     {
         «speaker»: «Мужчина с коробкой»,
         «speech»: «Из гастронома, Распишитесь вот здесь…»,
         «addressee»: «Малянов»
     },
     {
          «speaker»: «Малянов»,
         «speech»: «А что это?»,
         «addressee»: «Мужчина с коробкой»
     },
     {
         «speaker»: «Малянов»,
         «speech»: «Подождите, По-моему, мы ничего…»,
         «addressee»: «Мужчина с коробкой»
     },
     {
         «speaker»: «Мужчина с коробкой»,
         «speech»: «Вот тут расписывайтесь, вот тут… Вот где птичка стоит…»,
         «addressee»: «Малянов»    
     },
     {
         «speaker»: «Малянов»,
         «speech»: «Спасибо… Большое спасибо… Огромное вам спасибо, до свидания!»,
         «addressee»: «Мужчина с коробкой»
     },
     {
         «speaker»: «Малянов»,
         «speech»: «Странно…»
     }
]

Комментарий

После этого я присылаю ChatGPT текст для создания разметки. 

Выдача нейросети

Автор: Даниил Скоринкин

Авторы раздела

«Системный Блокъ» выражает благодарность Анастасии Жук, Тимуру Хусяинову и Даниилу Скоринкину за предоставление промптов, текста и фотоматериалов.