Фото автора

Валерия Мелкозерова

Автор

Автор статей

Цифровая охота: как «поймать» всех животных в тексте

Что влияет на распределение содержательных слов в тексте сильнее: литературная традиция или внешние факторы? Кирилл Маслинский, исследователь литературы, сотрудник Пушкинского дома и создатель Деткорпуса, изучает процесс создания контента. Он использует модель роста словаря, чтобы оценить разнообразие концептов семантической области «‎‎животные»‎ в разных жанрах детской литературы, и вычисляет, какие животные вероятнее встретятся в каждом жанре. В ужастиках, конечно, на первом месте — змеи, а вот в научной фантастике частыми гостями неожиданно становятся морские обитатели. Расскажем о методе и результатах этого исследования.

Первая в СССР система французско-русского машинного перевода

В 1950-е годы гуманитарии и математики объединились, чтобы заниматься машинным переводом. Именно с этого берёт начало сфера автоматической обработки естественного языка (Natural Language Processing). За 70 лет с тех пор методы машинного перевода радикально сменились несколько раз, но как работали самые первые системы? Вспоминаем историю системы французско-русского перевода из 50-х гг., описываем принцип работы алгоритма (он состоял из 17 программ) и сравниваем его с современными моделями.

Что такое random forest?

Random forest (он же «случайный лес») — это алгоритм машинного обучения, который состоит из множества отдельных независимых «решающих деревьев». Чтобы повысить качество предсказаний, в машинном обучении используют ансамбли — алгоритмы, сочетающие сразу несколько моделей. Рассказываем об одном из самых популярных ансамблей — random forest.

Как это (не) работает: технологии нейросети-писателя

Как научить нейросеть писать в стиле Набокова? И насколько хорошо (или плохо) у нейросетей вообще получается писать художественные тексты? Могут ли нейросети привести филологов к мировому господству? Ответы на эти и другие вопросы нам дали цифровой филолог Борис Орехов и исследователь в области глубинного обучения Михаил Ким.

Поясни за стиль. Какому поэту подражает нейросеть?

Цифровые филологи научились «измерять стиль»: у «Системного Блока» есть подборка статей о стилометрии и гайд о том, как провести собственное стилометрическое исследование. Нейросети зашли еще дальше: современные технологии уже позволяют выделять стиль текстов и даже подражать ему (об этом мы писали здесь). Сегодня мы расскажем о новом эксперименте Бориса Орехова, в котором исследователь оценивает, насколько хорошо модель может скопировать узнаваемый авторский стиль