Фото автора

Анна Мурашова

Редактор

Социолог литературы, продакт-менеджер, веду канал https://t.me/Sense_catcher о книгах и электронном книгоиздании

Редактор статей

Набоков и Булгаков — сексисты? Корпусное исследование русской классики

Продолжаем рассказывать о том, как русские писатели описывали женщин и мужчин и можно ли измерить гендерное неравенство в литературе. В прошлый раз досталось Пушкину и Толстому, на этот раз смотрим на Набокова и Булгакова

Толстой и Пушкин — сексисты? Корпусное исследование русской классики

«Системный Блокъ» писал об исследованиях того, как по-разному мужчины и женщины описывались в литературе XIX и XX веков. Сегодня перейдем к русской классической литературе: как там описывали женщин и мужчин и видно ли гендерное неравенство. Рассказывают создательницы проекта «Толстой сексист? А Пушкин?»

Как работает GPT-3 — самая продвинутая языковая модель

GPT-3 — самая известная из современных нейросетевых моделей языка. Вокруг нее много мифов, но модель действительно умеет впечатлить. Она отлично справляется с написанием целых эссе на заданную тему, удачно отвечает на вопросы, а также пишет стихи и программный код. Рассказываем, как работает GPT-3.

BERT модель

UniLM — языковая модель для тех, кому мало BERT

Сегодня каждая большая IT-корпорация пытается сделать «еще более умную» нейросетевую языковую модель, которая решала бы сразу множество задач: и ответы на вопросы, и порождение правдоподобного текста по заданной теме, и краткий пересказ. Мы уже писали о BERT от Google и семействе GPT от OpenAI — настал черед UniLM от Microsoft

Как устроена нейросеть BERT от Google

BERT — нейросетевая модель-трансформер от Google, на которой сегодня строится большинство инструментов автоматической обработки языка. Модель появилась в начале 2018-го, а уже в октябре того же года Google встроил модель в свой поисковик. Разбираемся, что же представляет из себя модель BERT и как она работает

какие задачи решаются с помощью NLP

Компьютерная лингвистика в медицине: от справок до COVID

О чем вы думаете, когда слышите «NLP»? О голосовых помощниках, о переводчиках, о поисковой машине… Но область применения для технологии обработки естественного языка гораздо шире! Разбираемся, как NLP помогает бороться с COVID-19 и упрощает взаимодействие людей в медицине

Маркес и шесть лет российских писателей

Разобрались, какие книги пользуются спросом у читателей благодаря единой системе по числу книговыдач в Москве

редакционное расстояние

Расстояние Левенштейна

Мы уже рассказывали про редакционные расстояния, с помощью которых сравнивают близость строк и вычисляют степень их похожести. Сегодня рассказываем о самом распространенном редакционном расстоянии — расстоянии Левенштейна

Как цифровой этикет формирует комфортную digital-среду

Благодаря пандемии мы уже научились защищать свои физические границы и держать дистанцию. Но личные границы существуют и в цифровой среде. Разбираемся, как обезопасить свою страницу от хейтеров, не скомпрометировать самих себя и писать сообщения так, чтобы получать качественные и своевременные ответы.

Что такое редакционное расстояние

Как понять, насколько близки две строки формально? Какое расстояние от слова «карета» до слова «ракета»? Линейкой здесь не измеришь, на помощь приходят редакционные расстояния. Рассказываем, что такое редакционное расстояние, как они работают и какие виды редакционных расстояний существуют

Как работает GPT-2 и в чем его особенности

Все слышали о GPT-3, которая умеет сочинять стихи и прозу, разгадывать анаграммы, переводить, отвечать на вопросы по прочитанному тексту и даже писать философские рассуждения о жизни и смерти. Рассказываем, как работает ее бабушка, GPT-2, без которой такой прорыв в области обработки естественного языка был бы невозможен

Named Entity Recognition (NER)

Когда человек читает книгу, он без труда понимает, что какие-то слова в тексте — это имя героя, а какие-то — название местности, даже если он впервые столкнулся с таким именем или названием. Для компьютера работа по распознаванию имен людей, названий организаций, топонимов и т.п. оказалась довольно сложной, но всё-таки машины с ней справляются — и с каждым годом всё лучше

Sketch Engine и Маяковский. Часть II: «несоветский» поэт Революции

Продолжаем серию постов о применении Sketch Engine в цифровой филологии. В прошлом материале мы узнали, что такое Sketch Engine, научились создавать свой корпус и выяснили, каков был лирический герой Маяковского до и после Революции. Познакомимся с оставшимися функциями Sketch Engine и узнаем, что значили для Маяковского Советы и Россия, что в его жизни изменил 1917 год и как это повлияло на лирику

Автор или авторка: влияет ли пол автора на восприятие произведения

Несмотря на все достижения в борьбе за гендерное равноправие, предубеждение против писательниц продолжает существовать. Авторы-женщины остаются в стороне и не воспринимаются читателями так же, как и авторы-мужчины. Вероятность автора-женщины выиграть литературную премию или, например, получить положительную рецензию на свою работу гораздо ниже

Sketch Engine и Маяковский. Часть I: человек до и после революции

Системный Блокъ уже рассказывал, как провести собственное корпусное исследование при помощи antconc и mystem. Теперь мы обратимся к другому инструменту — корпусному менеджеру Sketch Engine и с его помощью проанализируем корпус текстов Владимира Маяковского.

Как нейросеть узнает растения и почему она ошибается

Автоматические определители живых организмов стоят на смартфонах миллионов любителей природы. Достаточно просто навести камеру на растение или животное, чтобы определить, что это. Разбираемся, как устроены такие приложения и что у них под капотом

«Оскар» за скриншот: что такое screen-life и как его снимают

Можно ли снять блокбастер в собственном WhatsApp, Skype или Telegram? Теперь да! Ведь наша жизнь переместилась в гаджеты. С помощью наших устройств мы общаемся и работаем, сохраняем фотографии и воспоминания в облаках и на дисках. Вся история нашей жизни внутри смартфона или ноутбука — и теперь ее можно превратить в кино! Рассказываем о новом формате на стыке сторителлинга и кино — screen-life

Дата-майнинг Бодлера: как стихи запретного декадента разлетелись по миру

Рассказываем о проекте Baudelaire Song Project, где собраны все песни, написанные на стихи Шарля Бодлера, и музыка, вдохновленная его поэзией. Этот ресурс — разведочный аналитический дашборд с яркими визуализациями, целиком посвященный тому, как, кто и где «поет Бодлера». Россияне среди исполнителей тоже есть

Бэггинсы, Кольца и Сауроны: как научить компьютер понимать кто есть кто?

Как помочь компьютеру понять, что Гарри — волшебник, Гендальф — майар, а Джон Сноу — (СПОЙЛЕР!) одновременно Старк и Таргариен? Человек схватывает новую информацию на лету: из контекста, из интонации, из невербального общения. А как дать компьютеру такие же умения?

Джеймс против Джойса: вычислима ли сложность художественной литературы

Измерение сложности текста — задача для компьютерной лингвистики не новая, и в этой области многое уже придумано. Но применимо ли это для художественной литературы? Разбираемся на примере произведений американского писателя Генри Джеймса

Мифы о защите персональных данных: как не надо прятаться от Большого Брата

За мной следят, но у меня фэйковый аккаунт! Я в безопасности? На самом деле нет. Разбираемся, какие способы защиты личной информации не помогут избавиться от цифровых следов в интернете

Ресурсы для цифровых стиховедов: поэтические корпуса

Корпус — это собрание текстов в электронной форме, в котором можно осуществлять поиск. Важное отличие корпуса от электронной библиотеки — в корпусе всегда присутствует разметка. Корпуса бывают самыми разными, и мы уже рассказывали про литературные корпуса отдельных авторов. Расскажем еще об одном специальном типе литературных корпусов — поэтических корпусах

Морфология: Памяти А. А. Зализняка. Часть IV

Мы давно не удивляемся разговорам с голосовым помощником или банковским роботом-автоответчиком. Задать вопрос Siri или Алисе, продиктовать адрес навигатору — все это наши простые ежедневные действия. Мы привыкли, что приборы и поисковые системы не только неплохо понимают нас, но и сами понятно и грамотно говорят по-русски. Но так было не всегда

Проект Гутенберг: от тысячи книг до электронного собрания

В доинтернетную эпоху основным местом поиска литературы были библиотеки и каталоги. Однако нужная книга могла быть выпущена маленьким тиражом, на нее могла быть «живая очередь», или она находилась в частном собрании. Порталы с электронными книгами, такие как Project Gutenberg, решили эту проблему

Автор статей

Код «Мастера и Маргариты»

Как устроен шедевр Булгакова: анализируем роман «Мастер и Маргарита» с помощью методов цифрового литературоведения