Глоссарий

Что такое линейная регрессия?

Рассказываем об одной из классических моделей машинного обучения – линейной регрессии

Что такое мешок слов

Рассказываем, что такое мешок слов и как он может помочь в задачах автоматической обработки текста

Что такое дальнее чтение?

Франко Моретти пишет: «Мы умеем читать тексты, теперь нужно научиться не читать их». Возможно ли исследование литературы без детального чтения текстов? Возможно. При помощи дальнего чтения и инструментария digital humanities.

Что такое онтология

Изучением всего сущего и категоризацией понятий и объектов занимается не только философия, но и компьютерная наука. Как это может помочь оптимизировать работу поиска, предостеречь от кибератак и построить графы знаний? В новой статье глоссария рассказываем об онтологии – формате хранения структурированных данных – и объясняем, зачем ее создавать и где применить.

Knowledge Graph или граф знаний: что это такое и где применяется

Порой поисковик понимает нас лучше, чем мы сами. Например, по запросу «фильм, в котором был грунт» он ответит верно и выдаст «Стражей галактики». Это возможно благодаря Knowledge Graph – семантической сети, которая умеет выявлять взаимосвязи между разными объектами. В новой статье глоссария рассказываем, что такое граф знаний, как он устроен и чем помогает поисковикам.

Что такое нейросеть GPT-3 и зачем она нужна

Общение с чат-ботами и голосовыми помощниками стало частью повседневного опыта. Мы спрашиваем у нейросетей о погоде и пробках, просим переводить и сочинять тексты, проверяем их способности стихосложения и иногда даже делимся сокровенными секретами. СБъ уже не раз рассказывал о работе языковых моделей, которые делают боты более человечными. Предлагаем освежить знания и прочитать материал из глоссария про наиболее крупную и продвинутую языковую модель в мире – GPT-3

Обратный тест Тьюринга

Тест Тьюринга придумали в середине 20 века, чтобы измерить интеллект машин и проверить, насколько он схож с человеческим. Сегодня мы все еще используем этот тест, но чаще с обратной целью: теперь компьютер проверяет наш интеллект. Рассказываем про обратный тест Тьюринга, популярные капчи и объясняем, зачем нам все это нужно

Что такое геоданные

Сегодня с геоданными взаимодействует практически каждый. Мы заказываем такси и еду, используем навигацию, изучаем цифровые карты, чтобы понять местность или найти нужное заведение. С помощью геоданных наука может предсказать экологические проблемы, а бизнес и государство – строить логистику компаний, контролировать строительство, нефтяную отрасль, развивать сельское хозяйство. Все это возможно благодаря геоинформационной системе с огромным количеством данных о местности, инфраструктуре, экологии. В этой статье мы коротко расскажем о видах геоданных, для чего они нужны и где применяются

разница между текстами

А автор кто? Рассудит дельта Бёрроуза

Как найти сходства между текстами, определить авторство и проследить за эволюцией письма? Рассказываем об одном из самых применяемых методов вычисления стилистической близости – дельте Бёрроуза

редакционное расстояние

Расстояние Левенштейна

Мы уже рассказывали про редакционные расстояния, с помощью которых сравнивают близость строк и вычисляют степень их похожести. Сегодня рассказываем о самом распространенном редакционном расстоянии — расстоянии Левенштейна

Как вычислить TF-IDF?

Интуитивно задачу TF-IDF решает каждый, кто делал запрос в Гугле: нужно догадаться, какие слова ярче всего характеризуют запрос и «спросить» именно их. Хороший поисковик, если он хочет выдать релевантные результаты, тоже вычислит, какие слова несут больше всего смысла в текстах и соответствуют запросам. Как получить численные ответы на вопросы о том, какие слова важнее других и что это значит, читайте в глоссарии «Системного Блока»

Named Entity Recognition (NER)

Когда человек читает книгу, он без труда понимает, что какие-то слова в тексте – это имя героя, а какие-то – название местности, даже если он впервые столкнулся с таким именем или названием. Для компьютера работа по распознаванию имен людей, названий организаций, топонимов и т.п. оказалась довольно сложной, но все-таки машины с ней справляются — и с каждым годом все лучше