Глоссарий

В рубрике «Глоссарий» собраны материалы, которые простым языком объясняют ключевые термины из машинного обучения, NLP, статистики, цифровых исследований и гуманитарной аналитики. Здесь можно разобраться в понятиях, которые часто встречаются в статьях о данных, алгоритмах, текстах и цифровых инструментах.

Глоссарий, Лингвистика 29.05.2026

Что такое корпус текстов?

Если собрать много текстов на одном языке, это уже корпус? Если да, то много — это сколько? Рассказываем, что называется корпусом и какие есть критерии отбора текстов. Объясняем, почему «чем больше, тем лучше» не работает, как устроены национальные, веб- и мультимедийные корпусы, и зачем они нужны ученым (и не только)

Филипп Тучак

Глоссарий, Лингвистика 07.03.2025

Что такое список Сводеша?

Для того, чтобы определить степень родства двух языков, часто сравнивают их лексический состав. Рассказываем о списке Сводеша — инструменте, созданном американским лингвистом Моррисом Сводешем для сравнения языков.

Мария Подрядчикова, Филипп Тучак

Глоссарий 03.01.2025

Что такое гражданская наука?

Необязательно быть учёным, чтобы вносить вклад в науку. Что такое гражданская наука? Какие её цели и тенденции? Как стать гражданским учёным и какие проекты для этого существуют? «Системный Блокъ» отвечает на эти вопросы.

Даниил Михайлюк

Глоссарий 01.01.2025

Что такое датасет в машинном обучении?

В машинном обучении не обойтись без данных. Точнее — без датасетов. Разбираемся, какие датасеты нужны моделям для «учёбы» и где их можно найти.

Даниил Михайлюк

Глоссарий 11.12.2024

Что такое косинусная близость?

Как онлайн-кинотеатры определяют, какой фильм вам порекомендовать, а маркетплейсы — какой похожий товар предложить? Как интернет-поисковики находят темы, которые отвечают теме запроса? И, наконец, может ли компьютер отличить мем с пёсиком от мема с котиком? Разбираем, что такое косинусная близость и как с помощью неё машина сравнивает объекты.

Михаил Ким, Ирина Бобринева

Глоссарий 30.05.2024

Что такое обучение с подкреплением?

Как машины могут учиться принимать решения на основе опыта подобно людями и животным? Изучим принципы обучения с подкреплением — подход, который позволяет компьютеру находить оптимальные стратегии действий в разнообразных сценариях. Эта статья погрузит вас в ключевые концепции и покажет, что стоит за простой идеей «учиться на своих ошибках».

Анастасия Марголина

Глоссарий, Филология 10.05.2024

Дневники, письма, конспекты: что такое эго-документ?

Историю можно изучать не только по летописям или книгам, но и по частным источникам, или эго-документам: письмам, дневникам, записным книжкам. Рассказываем об эго-документах и связанных с ними цифровых исследованиях.

Мария Подрядчикова

Глоссарий 08.05.2024

Что такое RAG?

Что значит «языковая модель галлюцинирует»? Как сделать её ответы более точными и фактологически верными? Умеет ли нейросеть гуглить? Может ли нейросеть выдумывать несуществующие факты? Отвечаем в нашем материале о RAG (Retrieval Augmented Generation) — методе, позволяющем «подключать» языковые модели к внешним источникам информации.

Михаил Ким

Глоссарий 11.04.2024

Что такое лемматизация?

Как компьютеры понимают, что зло, зла и (из двух) зол — формы одного и того же слова? Рассказываем про лемматизацию — один из основных методов предобработки текстов, который помогает компьютеру лучше их понимать.

Михаил Ким

Глоссарий 04.04.2024

Что такое тест Тьюринга?

Тест Тьюринга появился в середине XX века и должен был определить, может ли компьютер думать. Рассмотрим подробнее, что такое тест Тьюринга: как он появился, в чём заключается и смогла ли ChatGPT его пройти?

Михаил Ким

Глоссарий 29.03.2024

Что такое регулярные выражения

Как найти в тексте все числа из четырех цифр или все email-адреса? Рассказываем о регулярных выражениях — мощном инструменте для анализа и редактирования текстов, который используется программистами, специалистами в NLP и Digital Humanities, а также биоинформатиками. Регулярные выражения — это классика компьютерных методов обработки текстовых данных, они используются гораздо дольше, чем все новомодные методы, связанные с машинным обучением и нейросетями. Но до сих пор многие задачи проще и лучше всего решаются именно регулярками!

Михаил Ким

Глоссарий 20.03.2024

Что такое random forest?

Random forest (он же «случайный лес») — это алгоритм машинного обучения, который состоит из множества отдельных независимых «решающих деревьев». Чтобы повысить качество предсказаний, в машинном обучении используют ансамбли — алгоритмы, сочетающие сразу несколько моделей. Рассказываем об одном из самых популярных ансамблей — random forest.

Валерия Мелкозерова

Глоссарий 12.03.2024

Что такое сетевой анализ?

Сетевой анализ ― это метод исследования, с помощью которого можно визуализировать и исследовать связи между людьми в сообществе, персонажами в художественном произведении, животными в стае и вообще любыми объектами. Из чего состоит сеть как модель? Какие параметры у них есть и о чём они говорят? Объясняем основы сетевого анализа на простых примерах.

Евгения Устинова

Глоссарий 26.02.2024

Что такое capta и чем отличается от больших данных?

Рассказываем про вид данных, отличающийся от привычных big data, и чем малые данные похожи на археологический раскоп.

Мария Подрядчикова

Глоссарий 21.02.2024

Что такое KNN?

Может ли компьютер сравнивать объекты? Как сравнение объектов может быть полезно для решения задач классификации и регрессии (например, предсказания стоимости квартир)? И причём тут «проклятие размерности»? Узнаем в новом материале «Системного Блока»‎.

Михаил Ким

Глоссарий 16.10.2023

Что такое автоэнкодер?

Как использовать нейронные сети для распознавания лиц? Может ли нейросеть определить, какие признаки в данных значимые, а какие просто шум? Что такое латентное пространство и зачем оно нужно? Отвечаем на все эти вопросы в нашем материале про один из типов нейросетей — автоэнкодер

Таисья Соларёва

Глоссарий 20.03.2023

Что такое transfer learning в обучении нейросетей

Как нейросеть, обученная под одну задачу, решает другую? Может ли она использовать свой «предыдущий опыт»? Почему это важно и почему корпорации спешат внедрить эту технологию? Рассказываем о популярном методе «переноса знаний» в машинном обучении на примерах языков, ягод и Достоевского.

Анастасия Марголина

Глоссарий 27.02.2023

Что такое визуализация данных?

Зачастую данные содержат полезную информацию — от цен на «Биг Мак» в разных странах, по которым можно оценить стоимость валюты, до коррупционных схем высших должностных лиц и свидетельств военных преступлений. Поэтому существует множество способов извлечения важной информации из большого и сложно устроенного массива данных. В этом материале мы расскажем об одном из таких методов — о визуализации данных.

Михаил Ким, Мария Матвеева

Глоссарий 09.01.2023

Что такое генеральная совокупность и выборка?

Наша жизнь полна разных событий, и иногда на их основе нам хочется сделать какой-то определенный вывод или отыскать закономерность в происходящем. Всем известная фраза «Все мужики козлы» — один из таких случаев. У человека, который говорит эту фразу, скорее всего, имеется неудачный опыт общения с определенной группой лиц мужского пола (в статистике это называют экспериментами), и на основе этого неудачного опыта был сделан такой вывод. Почему это утверждение в корне неверное с точки зрения статистики? Когда можно делать выводы, основываясь на неполных данных, а когда нет? В этой статье постараемся ответить на эти вопросы.

Дарья Матяш

Глоссарий 08.11.2022

Что такое векторные представления слов?

Если спросить, какое слово ближе к слову «король»: «правитель» или «рабочий», почти все ответят, что «правитель», конечно же, ближе. Это кажется очевидным почти всякому человеку, но как можно объяснить это компьютеру? Сегодня это легко решается представлением значений слов с помощью векторов. Векторные представления слов позволяют хранить семантику слов в понятном для компьютера виде.

Макар Фёдоров

Глоссарий 26.10.2022

Что такое морфологический анализ

Слово «морфологический» может быть знакомо вам с уроков русского языка в школе — иногда там дают задания на морфологический разбор слов. В них нужно выписать слово и его часть речи, а также различные грамматические характеристики: род, число, падеж у существительного, спряжение, вид, время у глагола, разряд у местоимения. Такой разбор является одним из этапов компьютерной обработки текста, и современные методы позволяют делать его автоматически.

Анна Голуб

Глоссарий 20.09.2022

Что такое дерево решений

Поговорим о деревьях решений – простом и популярном методе машинного обучения.

Мария Матвеева

Глоссарий 08.09.2022

Что такое глубинное обучение?

Как связаны глубинное обучение и машинное обучение? На что влияет «глубина» нейронной сети? Рассказываем о важнейшей области машинного обучения.

Михаил Ким

Глоссарий 19.08.2022

Что такое кластеризация?

Разберём, что такое кластеризация, поговорим об известных ее методах и расскажем, зачем она используется в реальных задачах

Мария Матвеева

Глоссарий 26.07.2022

Что такое машинное обучение?

Отвечаем на все вопросы о машинном обучении, которые вы боялись задать

Михаил Ким

Глоссарий 27.06.2022

Что такое линейная регрессия?

Рассказываем об одной из классических моделей машинного обучения – линейной регрессии

Михаил Ким

Глоссарий 09.06.2022

Что такое мешок слов

Рассказываем, что такое мешок слов и как он может помочь в задачах автоматической обработки текста

Системный Блокъ

Глоссарий 05.04.2022

Что такое дальнее чтение?

Франко Моретти пишет: «Мы умеем читать тексты, теперь нужно научиться не читать их». Возможно ли исследование литературы без детального чтения текстов? Возможно. При помощи дальнего чтения и инструментария digital humanities.

Елизавета Котикова

Глоссарий 10.03.2022

Что такое онтология

Изучением всего сущего и категоризацией понятий и объектов занимается не только философия, но и компьютерная наука. Как это может помочь оптимизировать работу поиска, предостеречь от кибератак и построить графы знаний? В новой статье глоссария рассказываем об онтологии – формате хранения структурированных данных – и объясняем, зачем ее создавать и где применить.

Лола Самеева

Глоссарий 28.02.2022

Knowledge Graph, или граф знаний: что это такое и где применяется

Порой поисковик понимает нас лучше, чем мы сами. Например, по запросу «фильм, в котором был грунт» он ответит верно и выдаст «Стражей галактики». Это возможно благодаря Knowledge Graph – семантической сети, которая умеет выявлять взаимосвязи между разными объектами. В новой статье глоссария рассказываем, что такое граф знаний, как он устроен и чем помогает поисковикам.

Лола Самеева

Глоссарий 24.02.2022

Что такое нейросеть GPT-3 и зачем она нужна

Общение с чат-ботами и голосовыми помощниками стало частью повседневного опыта. Мы спрашиваем у нейросетей о погоде и пробках, просим переводить и сочинять тексты, проверяем их способности стихосложения и иногда даже делимся сокровенными секретами. СБъ уже не раз рассказывал о работе языковых моделей, которые делают боты более человечными. Предлагаем освежить знания и прочитать материал из глоссария про наиболее крупную и продвинутую языковую модель в мире – GPT-3

Лола Самеева

Глоссарий 11.02.2022

Обратный тест Тьюринга

Тест Тьюринга придумали в середине 20 века, чтобы измерить интеллект машин и проверить, насколько он схож с человеческим. Сегодня мы все еще используем этот тест, но чаще с обратной целью: теперь компьютер проверяет наш интеллект. Рассказываем про обратный тест Тьюринга, популярные капчи и объясняем, зачем нам все это нужно

Лола Самеева

Глоссарий 29.01.2022

Что такое геоданные

Сегодня с геоданными взаимодействует практически каждый. Мы заказываем такси и еду, используем навигацию, изучаем цифровые карты, чтобы понять местность или найти нужное заведение. С помощью геоданных наука может предсказать экологические проблемы, а бизнес и государство – строить логистику компаний, контролировать строительство, нефтяную отрасль, развивать сельское хозяйство. Всё это возможно благодаря геоинформационной системе с огромным количеством данных о местности, инфраструктуре, экологии. В этой статье мы коротко расскажем о видах геоданных, для чего они нужны и где применяются

Лола Самеева

Глоссарий 15.04.2021

А автор кто? Рассудит дельта Бёрроуза

Как найти сходства между текстами, определить авторство и проследить за эволюцией письма? Рассказываем об одном из самых применяемых методов вычисления стилистической близости – дельте Бёрроуза

Илья Трейвиш

Глоссарий 03.01.2021

Расстояние Левенштейна

Мы уже рассказывали про редакционные расстояния, с помощью которых сравнивают близость строк и вычисляют степень их похожести. Сегодня рассказываем о самом распространенном редакционном расстоянии — расстоянии Левенштейна

Ася Ройтберг

Глоссарий 18.11.2020

Как вычислить TF-IDF?

Интуитивно задачу TF-IDF решает каждый, кто делал запрос в Гугле: нужно догадаться, какие слова ярче всего характеризуют запрос и «спросить» именно их. Хороший поисковик, если он хочет выдать релевантные результаты, тоже вычислит, какие слова несут больше всего смысла в текстах и соответствуют запросам. Как получить численные ответы на вопросы о том, какие слова важнее других и что это значит, читайте в глоссарии «Системного Блока»

Владимир Селеверстов

Глоссарий, Лингвистика 11.11.2020

Named Entity Recognition (NER)

Когда человек читает книгу, он без труда понимает, что какие-то слова в тексте — это имя героя, а какие-то — название местности, даже если он впервые столкнулся с таким именем или названием. Для компьютера работа по распознаванию имен людей, названий организаций, топонимов и т.п. оказалась довольно сложной, но всё-таки машины с ней справляются — и с каждым годом всё лучше

Ася Ройтберг

О проекте

Контакты

СОЦСЕТИ

Теги

Темы