Глоссарий

Что такое обучение с подкреплением?

Как машины могут учиться принимать решения на основе опыта подобно людями и животным? Изучим принципы обучения с подкреплением — подход, который позволяет компьютеру находить оптимальные стратегии действий в разнообразных сценариях. Эта статья погрузит вас в ключевые концепции и покажет, что стоит за простой идеей «учиться на своих ошибках».

Дневники, письма, конспекты: что такое эго-документ?

Историю можно изучать не только по летописям или книгам, но и по частным источникам, или эго-документам: письмам, дневникам, записным книжкам. Рассказываем об эго-документах и связанных с ними цифровых исследованиях.

Что такое RAG?

Что значит «языковая модель галлюцинирует»? Как сделать её ответы более точными и фактологически верными? Умеет ли нейросеть гуглить? Может ли нейросеть выдумывать несуществующие факты? Отвечаем в нашем материале о RAG (Retrieval Augmented Generation) — методе, позволяющем «подключать» языковые модели к внешним источникам информации.

Что такое лемматизация?

Как компьютеры понимают, что зло, зла и (из двух) зол — формы одного и того же слова? Рассказываем про лемматизацию — один из основных методов предобработки текстов, который помогает компьютеру лучше их понимать.

Что такое тест Тьюринга?

Тест Тьюринга появился в середине XX века и должен был определить, может ли компьютер думать. Рассмотрим подробнее, что такое тест Тьюринга: как он появился, в чём заключается и смогла ли ChatGPT его пройти?

Что такое регулярные выражения

Как найти в тексте все числа из четырех цифр или все email-адреса? Рассказываем о регулярных выражениях — мощном инструменте для анализа и редактирования текстов, который используется программистами, специалистами в NLP и Digital Humanities, а также биоинформатиками. Регулярные выражения — это классика компьютерных методов обработки текстовых данных, они используются гораздо дольше, чем все новомодные методы, связанные с машинным обучением и нейросетями. Но до сих пор многие задачи проще и лучше всего решаются именно регулярками!

Что такое random forest?

Random forest (он же «случайный лес») — это алгоритм машинного обучения, который состоит из множества отдельных независимых «решающих деревьев». Чтобы повысить качество предсказаний, в машинном обучении используют ансамбли — алгоритмы, сочетающие сразу несколько моделей. Рассказываем об одном из самых популярных ансамблей — random forest.

Что такое сетевой анализ?

Сетевой анализ ― это метод исследования, с помощью которого можно визуализировать и исследовать связи между людьми в сообществе, персонажами в художественном произведении, животными в стае и вообще любыми объектами. Из чего состоит сеть как модель? Какие параметры у них есть и о чём они говорят? Объясняем основы сетевого анализа на простых примерах.

Что такое capta и чем отличается от больших данных?

Рассказываем про вид данных, отличающийся от привычных big data, и чем малые данные похожи на археологический раскоп.

Что такое KNN?

Может ли компьютер сравнивать объекты? Как сравнение объектов может быть полезно для решения задач классификации и регрессии (например, предсказания стоимости квартир)? И причём тут «проклятие размерности»? Узнаем в новом материале «Системного Блока»‎.

Что такое автоэнкодер?

Как использовать нейронные сети для распознавания лиц? Может ли нейросеть определить, какие признаки в данных значимые, а какие просто шум? Что такое латентное пространство и зачем оно нужно? Отвечаем на все эти вопросы в нашем материале про один из типов нейросетей — автоэнкодер

Что такое transfer learning в обучении нейросетей

Как нейросеть, обученная под одну задачу, решает другую? Может ли она использовать свой «предыдущий опыт»? Почему это важно и почему корпорации спешат внедрить эту технологию? Рассказываем о популярном методе «переноса знаний» в машинном обучении на примерах языков, ягод и Достоевского.

Что такое визуализация данных?

Зачастую данные содержат полезную информацию — от цен на «Биг Мак» в разных странах, по которым можно оценить стоимость валюты, до коррупционных схем высших должностных лиц и свидетельств военных преступлений. Поэтому существует множество способов извлечения важной информации из большого и сложно устроенного массива данных. В этом материале мы расскажем об одном из таких методов — о визуализации данных.

Что такое генеральная совокупность и выборка?

Наша жизнь полна разных событий, и иногда на их основе нам хочется сделать какой-то определенный вывод или отыскать закономерность в происходящем. Всем известная фраза «Все мужики козлы» — один из таких случаев. У человека, который говорит эту фразу, скорее всего, имеется неудачный опыт общения с определенной группой лиц мужского пола (в статистике это называют экспериментами), и на основе этого неудачного опыта был сделан такой вывод. Почему это утверждение в корне неверное с точки зрения статистики? Когда можно делать выводы, основываясь на неполных данных, а когда нет? В этой статье постараемся ответить на эти вопросы.

Что такое векторные представления слов?

Если спросить, какое слово ближе к слову «король»: «правитель» или «рабочий», почти все ответят, что «правитель», конечно же, ближе. Это кажется очевидным почти всякому человеку, но как можно объяснить это компьютеру? Сегодня это легко решается представлением значений слов с помощью векторов. Векторные представления слов позволяют хранить семантику слов в понятном для компьютера виде.

Что такое морфологический анализ

Слово «морфологический» может быть знакомо вам с уроков русского языка в школе — иногда там дают задания на морфологический разбор слов. В них нужно выписать слово и его часть речи, а также различные грамматические характеристики: род, число, падеж у существительного, спряжение, вид, время у глагола, разряд у местоимения. Такой разбор является одним из этапов компьютерной обработки текста, и современные методы позволяют делать его автоматически.

Что такое дерево решений

Поговорим о деревьях решений – простом и популярном методе машинного обучения.

Что такое глубинное обучение?

Как связаны глубинное обучение и машинное обучение? На что влияет «глубина» нейронной сети? Рассказываем о важнейшей области машинного обучения.

Что такое кластеризация?

Разберём, что такое кластеризация, поговорим об известных ее методах и расскажем, зачем она используется в реальных задачах

Что такое машинное обучение?

Отвечаем на все вопросы о машинном обучении, которые вы боялись задать

Что такое линейная регрессия?

Рассказываем об одной из классических моделей машинного обучения – линейной регрессии

Что такое мешок слов

Рассказываем, что такое мешок слов и как он может помочь в задачах автоматической обработки текста

Что такое дальнее чтение?

Франко Моретти пишет: «Мы умеем читать тексты, теперь нужно научиться не читать их». Возможно ли исследование литературы без детального чтения текстов? Возможно. При помощи дальнего чтения и инструментария digital humanities.

Что такое онтология

Изучением всего сущего и категоризацией понятий и объектов занимается не только философия, но и компьютерная наука. Как это может помочь оптимизировать работу поиска, предостеречь от кибератак и построить графы знаний? В новой статье глоссария рассказываем об онтологии – формате хранения структурированных данных – и объясняем, зачем ее создавать и где применить.

Knowledge Graph или граф знаний: что это такое и где применяется

Порой поисковик понимает нас лучше, чем мы сами. Например, по запросу «фильм, в котором был грунт» он ответит верно и выдаст «Стражей галактики». Это возможно благодаря Knowledge Graph – семантической сети, которая умеет выявлять взаимосвязи между разными объектами. В новой статье глоссария рассказываем, что такое граф знаний, как он устроен и чем помогает поисковикам.

Что такое нейросеть GPT-3 и зачем она нужна

Общение с чат-ботами и голосовыми помощниками стало частью повседневного опыта. Мы спрашиваем у нейросетей о погоде и пробках, просим переводить и сочинять тексты, проверяем их способности стихосложения и иногда даже делимся сокровенными секретами. СБъ уже не раз рассказывал о работе языковых моделей, которые делают боты более человечными. Предлагаем освежить знания и прочитать материал из глоссария про наиболее крупную и продвинутую языковую модель в мире – GPT-3

Обратный тест Тьюринга

Тест Тьюринга придумали в середине 20 века, чтобы измерить интеллект машин и проверить, насколько он схож с человеческим. Сегодня мы все еще используем этот тест, но чаще с обратной целью: теперь компьютер проверяет наш интеллект. Рассказываем про обратный тест Тьюринга, популярные капчи и объясняем, зачем нам все это нужно

Что такое геоданные

Сегодня с геоданными взаимодействует практически каждый. Мы заказываем такси и еду, используем навигацию, изучаем цифровые карты, чтобы понять местность или найти нужное заведение. С помощью геоданных наука может предсказать экологические проблемы, а бизнес и государство – строить логистику компаний, контролировать строительство, нефтяную отрасль, развивать сельское хозяйство. Всё это возможно благодаря геоинформационной системе с огромным количеством данных о местности, инфраструктуре, экологии. В этой статье мы коротко расскажем о видах геоданных, для чего они нужны и где применяются

А автор кто? Рассудит дельта Бёрроуза

Как найти сходства между текстами, определить авторство и проследить за эволюцией письма? Рассказываем об одном из самых применяемых методов вычисления стилистической близости – дельте Бёрроуза

редакционное расстояние

Расстояние Левенштейна

Мы уже рассказывали про редакционные расстояния, с помощью которых сравнивают близость строк и вычисляют степень их похожести. Сегодня рассказываем о самом распространенном редакционном расстоянии — расстоянии Левенштейна

Как вычислить TF-IDF?

Интуитивно задачу TF-IDF решает каждый, кто делал запрос в Гугле: нужно догадаться, какие слова ярче всего характеризуют запрос и «спросить» именно их. Хороший поисковик, если он хочет выдать релевантные результаты, тоже вычислит, какие слова несут больше всего смысла в текстах и соответствуют запросам. Как получить численные ответы на вопросы о том, какие слова важнее других и что это значит, читайте в глоссарии «Системного Блока»

Named Entity Recognition (NER)

Когда человек читает книгу, он без труда понимает, что какие-то слова в тексте — это имя героя, а какие-то — название местности, даже если он впервые столкнулся с таким именем или названием. Для компьютера работа по распознаванию имен людей, названий организаций, топонимов и т.п. оказалась довольно сложной, но всё-таки машины с ней справляются — и с каждым годом всё лучше