Лингвистика

В рубрике “Лингвистика” мы пишем об интересных лингвистических исследованиях, в которых используются различные цифровые технологии и методы. Например, как, изучая запросы к поисковой системе, найти специфические региональные слова. Также в этой рубрике вы узнаете, о том, как и зачем создают текстовые корпусы и как их потом используют для исследований с помощью компьютерной лингвистики.

Лингвистика 06.08.2025

Под капотом у языкового корпуса: как нейросети и NLP-библиотеки используются в НКРЯ

В Национальном корпусе русского языка за последние годы появилось много новых инструментов. Один из них — это «Портрет слова», который не только содержит информацию о морфологических признаках и морфемах каждого слова, но и дает представление, например, о его семантических соседях. В статье мы покажем, как пользоваться этим и другими заметными нововведениями, и расскажем, какие технологии за ними стоят.

Мария Подрядчикова

Гайды, Лингвистика, Филология 05.08.2025

Как скачать весь Telegram: автоматизация выгрузки каналов с помощью Python

Как получить доступ к огромным массивам текстов из Telegram, чтобы изучать язык медиа, тренды или реакцию общества на события в мире? В этом помогут Telegram Desktop, Python и библиотека pyrogram. В гайде с кодом рассказываем о методе «цепной реакции» для поиска и скачивания целых групп связанных каналов. Превратите Telegram в ваш исследовательский полигон!

Дмитрий Пронин

Лингвистика 12.07.2025

Что неопределенность рассказывает нам о языке — и как это посчитать

Кто-то, где-то, что-то, как-то, почему-то. Все мы часто используем неопределенные местоимения. Они спасают нас в минуту неуверенности и незнания. В 1997 году лингвист Мартин Хаспельмат описал, какие значения они могут выражать и какие закономерности есть в употреблении неопределенных местоимений. Рассказываем, чем эта классификация помогает ученым и как с помощью вычислительных методов можно показать стремление языков к оптимальности.

Филипп Тучак

Лингвистика, Филология 18.04.2025

Что такое коллокации и как они помогают гуманитариям

Коллокации — это словосочетания, в которых слова часто встречаются рядом. Рассказываем, как устроены коллокации и какие есть способы их выявлять. А также изучим с помощью коллокаций в НКРЯ, что представлял собой антисемитизм в Российской империи второй половины XIX века.

Яков Львовский

Глоссарий, Лингвистика 07.03.2025

Что такое список Сводеша?

Для того, чтобы определить степень родства двух языков, часто сравнивают их лексический состав. Рассказываем о списке Сводеша — инструменте, созданном американским лингвистом Моррисом Сводешем для сравнения языков.

Мария Подрядчикова, Филипп Тучак

Лингвистика, Филология 14.02.2025

Какие языковые модели (LLM) хорошо пересказывают истории

Иногда сложно понять, что же хотел сказать автор своим сочинением, а пересказать текст кажется нереальной задачей — из-за необычной структуры повествования или при использовании разных рассказчиков. Как справляются с подобными задачами LLM? Ученые Колумбийского университета спросили у самих писателей.

Яна Хлусова

Биоинформатика, Лингвистика 28.01.2025

Как биологи и лингвисты вместе изучают эволюцию языков

Язык — естественная система. Он распространяется, развивается и даже мутирует, подчиняясь законам естественных наук. Можно ли с его помощью реконструировать эволюцию человечества? Рассказываем, как генеалогические деревья объединили биологов и лингвистов и какой вклад в языкознание внес Чарльз Дарвин.

Диана Захряпина

Лингвистика 22.01.2025

Взламывая шифр Зодиака: как энтузиасты разгадали послание серийного убийцы

Современные технологии хорошо помогают в криптоанализе: программы, перебирающие тысячу вариантов за несколько секунд, в разы превосходят возможности человека. Однако слепого применения софта недостаточно, особенно если речь идёт о самом приоритетном неразгаданном шифре в списке ФБР — криптограмме серийного убийцы Зодиака. В новом материале разбираемся, какие вообще бывают шифры, почему шифр Зодиака не могли дешифровать на протяжении 50 лет и как криптографам всё-таки удалось его раскусить.

Максим Еремеев

NLP, Лингвистика, Филология 14.12.2024

A real area: что такое ареальная типология и как её изучают цифровыми методами

В мире почти 7000 языков, и они очень разные. Лингвистическая типология — раздел науки о языке, описывающий эти различия. Часто, хотя и не всегда, сходство языков обусловлено географически — тогда языки можно даже объединить в языковые ареалы. Но выделять их вручную — задача трудоёмкая и полная неоднозначностей. Тут на помощь исследователям приходят вычислительные методы.

Яков Львовский

Лингвистика 21.06.2024

Первая в СССР система французско-русского машинного перевода

В 1950-е годы гуманитарии и математики объединились, чтобы заниматься машинным переводом. Именно с этого берёт начало сфера автоматической обработки естественного языка (Natural Language Processing). За 70 лет с тех пор методы машинного перевода радикально сменились несколько раз, но как работали самые первые системы? Вспоминаем историю системы французско-русского перевода из 50-х гг., описываем принцип работы алгоритма (он состоял из 17 программ) и сравниваем его с современными моделями.

Валерия Мелкозерова

Интервью, Лингвистика 16.05.2024

«Меня интересует знать, а не уметь»: Игорь Мельчук о нетрадиционной лингвистике, машинном переводе и жизни в Канаде

Как в СССР возник машинный перевод? Чем нетрадиционная лингвистика отличается от традиционной? Почему эмиграция иногда становится спасением жизни? Об этом в интервью изданию «Системный Блокъ» рассказал Игорь Мельчук, лингвист, заслуженный профессор Монреальского университета, один из основоположников российской математической лингвистики и Московской семантической школы.

Даниил Скоринкин, Руслан Родионов

Лингвистика, Обзоры, Филология 29.04.2024

Национальному корпусу русского языка — 20 лет: подборка

Мы собрали лучшие материалы «‎Системного Блока»‎, посвящённые главной цифровой коллекции текстов на русском языке: художественных, научных, церковнославянских, диалектных, списанных с бересты, поэтических, памятников литературы с XI века и многих других.

Мария Подрядчикова

Лингвистика 18.04.2024

Жизнь и научная деятельность Романа Якобсона: лингвистика vs двадцатый век

Помешает ли постоянная вынужденная миграция развивать фонологию, исследовать русский авангард, заниматься сербо-хорватским эпосом, изучать нейрофизиологические нарушения речи, перенести структурализм с одного континента на другой и создать работы, которые окажут влияние на Леви-Стросса? Жизнь Романа Осиповича Якобсона показывает, что даже сложное время не может остановить искреннее желание заниматься наукой.

Елизавета Котикова

Интервью, Лингвистика 01.03.2024

«Ты же не думаешь, что можно заниматься диалектологией как профессией?»: интервью с диалектологом Игорем Исаевым

Как отделить язык от диалекта? Должна ли вся страна говорить на одном «стандартном» языке и какие преимущества есть у использования диалектов? Имеют ли смысл политизированные споры вокруг разграничения русского, украинского и белорусского языков? Как проходят диалектологические экспедиции? Всё это «Системный Блокъ» обсудил с диалектологом, замдиректора Института языкознания РАН по науке Игорем Исаевым.

Анна Цызова, Руслан Родионов

Лингвистика, Тесты 09.02.2024

👋 Тест: какой вы жест из мультимедийного корпуса русского языка?✍️

«Закатить глаза» или «троекратный поцелуй»? Узнайте, каким жестом вы были бы во вселенной мультимедийного корпуса русского языка.

Мария Подрядчикова

Интервью, Лингвистика 01.02.2024

«Нам надоели префиксы и инфиксы, что мы можем для людей сделать?»: Ольга Драгой о настоящем и будущем нейролингвистических исследований

Нейролингвистические исследования находятся на стыке психологии, неврологии и лингвистики: здесь изучается речь пациентов, переживших инсульт, разрабатываются приложения для определения дислексии и даже синтезируются слова по активности нейронов. О соединении нейролингвистических экспериментов с машинным обучением «Системный Блокъ» поговорил с Ольгой Драгой, директором Центра языка и мозга НИУ ВШЭ и доктором филологических наук.

Анастасия Лопухина

Лингвистика, Тесты 28.08.2023

Бабка, гаишник и Чапаев входят в бар, а он им как раз. Тест: Узнаете ли вы подкорпус НКРЯ по характерным для него словам?

Какие слова чаще встречаются в анекдотах, а какие — в деловых документах? Узнать это можно на сайте Национального корпуса русского языка, на основе которого мы придумали тест. Проверьте, насколько хорошо вы разбираетесь во всем разнообразии текстов на русском языке — от смс-сообщений до классической литературы.

Мария Подрядчикова

Востоковедение, Лингвистика 12.05.2023

Русско-китайский корпус НКРЯ, или Как превратить ботвинью в гаспачо

Параллельный корпус — это коллекция текстов, где для каждого текста хранятся его переводы на другой язык (или языки). Параллельные корпуса позволяют узнать, какие приемы и стратегии использовал переводчик для передачи слов, у которых нет эквивалентов в другом языке. В этой статье мы расскажем про русско-китайский параллельный корпус в составе Национального корпуса русского языка.

Диана Бадаева, Кирилл Семенов

NLP, Лингвистика 06.05.2023

От древнерусского до корпуса блогов: как изменился Национальный корпус русского языка после редизайна

Национальный корпус русского языка (НКРЯ) — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной культурой. Изменения в работе НКРЯ были заметны ещё в 2019 году: тогда лингвисты высказали опасения о возможном закрытии сервиса. К счастью, проблемы оказались временными, и НКРЯ не только не прекратил свою работу, но и заметно изменился и расширился. Самым заметным обновлением стал новый дизайн сайта, но есть и много глубоких содержательных перемен. Об основных обновлениях в корпусе, очевидных и не очень — в нашем сегодняшнем материале.

Мария Подрядчикова

Лингвистика, Тесты 20.07.2022

Знатный борщ, голодная тетка и мужик-молодец: как менялись значения слов в русском языке на протяжении XVIII-XIX веков

За два века слово может изменить свое значение до неузнаваемости. Многие слова, которыми мы пользуемся сегодня, совершенно иначе воспринимались нашими предками. Тест на лингвистическую интуицию: сможете ли вы догадаться, когда возникла поговорка «голод не тетка», а слово «молодец» стало похвалой?

Далия Домрачева

Лингвистика 06.07.2022

Точка, точка, запятая: как меняется язык в интернет-пространстве

«Привет» или «ПРИВЕТ»? А, может быть, «првиет!»? Вариантов поздороваться в онлайн-переписке, как и написать любое другое слово, множество. Причем каждый из них обладает своим эмоциональным оттенком и передает настроение собеседника. В интернет-пространстве смысл может быть спрятан в отдельных символах языка, будь то точка в конце сообщения или буква «а» в слове «молоко». Изучение того, как языки меняются в виртуальной сети, только начинается, но уже есть немало исследований, посвященных этим правилам.

Надежда Фильцова

Лингвистика 19.04.2022

Reverso Context — сервис для перевода слов с примерами использования в контексте

Reverso Context — сайт, разработанный с целью улучшения качества работы с переводом с различных языков, в том числе и с русского. Рассказываем, как работает переводчик, которым пользуется даже Департамент культуры Франции.

Ольга Шелухина

NLP, История, Лингвистика 18.01.2022

«Впереди сущий сахарный голод»: что говорит о дневниках 1917 года анализ данных

Революция 1917 года — одно из крупнейших потрясений в российской истории. О чем думал Николай II в день отречения? Что волновало простых граждан? Какие темы поднимали в газетах? Мы проанализировали дневники очевидцев, которые собрал проект «1917. Свободная история», и выяснили, о чем в революцию писали чаще всего

Тимофей Атнашев

Лингвистика 06.12.2021

Отмороженный искусственный интеллект: зима (не) близко

Многие представляют себе искусственный интеллект по фантастике. Альтрон из «Железного человека», ВИКИ Азимова, «Мир Дикого запада» и «Апгрейд» — все это выглядит, как торжество развития технологии, способной и улучшить жизнь человечества, и положить ему конец. Правда, реальный искусственный интеллект пока далек от того, что показывают нам в фильмах и книгах. Но это не повод расстраиваться — ведь в истории ИИ были и куда более тёмные времена

Анастасия Гарькуша

Лингвистика 26.11.2021

Скажи «да» по-русски: зачем нужен «Прагматикон»

Многие говорят, что эффективный способ выучить иностранный язык – смотреть сериалы на этом языке. Если вы тоже пробовали такой метод, то наверняка обращали внимание, как какой-нибудь герой из сериала Netflix вместо простых «нет» или «да» произносит не всем знакомые выражения типа no way или you bet. Что это такое и почему об этом почти не говорили на уроках в школе? Рассказываем о дискурсивных формулах и новом цифровом ресурсе для их изучения в русском языке, а также поиска аналогов в английском

Евгения Козюк

Востоковедение, Гайды, Как это работает, Лингвистика 19.10.2021

Как исследовать японские тексты с помощью Voyant Tools

Разбираемся, что такое Voyant Tools и как с его помощью можно проанализировать большой корпус текстов с YouTube на японском языке

Алексей Киселев

Гайды, Как это работает, Лингвистика 11.10.2021

Как превратить текст в генеалогическое древо с помощью Python

Как понять, кем вам приходится сваха внучатого племянника вашей сестры? Проще всего - нарисовать генеалогическое древо, которое отразит все родственные связи. А еще лучше - написать код на Python, который сделает это за вас

Анна Голуб

Лингвистика 02.09.2021

Компьютер учит срамоту

Как обучить нейросеть генерировать жёлтые тексты в духе самых трешовых баннеров? Наш автор Иван Торубаров погрузился в глубины кликбейта и спешит поделиться с вами тем, что он там нашел

Иван Торубаров

NLP, Как это работает, Лингвистика 21.07.2021

Как работает GPT-3 — самая продвинутая языковая модель

GPT-3 — самая известная из современных нейросетевых моделей языка. Вокруг нее много мифов, но модель действительно умеет впечатлить. Она отлично справляется с написанием целых эссе на заданную тему, удачно отвечает на вопросы, а также пишет стихи и программный код. Рассказываем, как работает GPT-3.

Светлана Бесаева

NLP, Как это работает, Лингвистика 09.06.2021

Как устроена нейросеть BERT от Google

BERT — нейросетевая модель-трансформер от Google, на которой сегодня строится большинство инструментов автоматической обработки языка. Модель появилась в начале 2018-го, а уже в октябре того же года Google встроил модель в свой поисковик. Разбираемся, что же представляет из себя модель BERT и как она работает

Камилла Кубелекова, Владимир Селеверстов

Исследование, Лингвистика, Цифровая память 31.05.2021

«Нравственное право» и «немеркнущая правда»: как речи президентов на 9 мая влияют на коллективную память

Мы проанализировали все речи президентов, которые произносились в честь 9 мая с 2000 года. О том, как эти выступления влияют на нашу коллективную память и помогают легитимировать власть, читайте в исследовании СБъ

Мария Кнышева

Как это работает, Лингвистика 05.04.2021

В пространстве текстов: детоксикация комментариев, подделка отзывов и нейроцензура

Как работают современные методы переноса стиля? Могут ли они быть полезны или опасны? И при чём здесь «бутылочное горлышко» нейросети?

Михаил Ким

Как это работает, Лингвистика 26.02.2021

Стилометрия: как в разное время люди искали авторов текстов

Сегодня для того, чтобы понять, кто написал текст под псевдонимом, у исследователей есть количественные методы анализа, в основе которых – подсчет служебных слов в тексте. О том, как люди к этому пришли, рассказываем в материале об истории стилометрии

Алина Затонская, Даниил Скоринкин

NLP, Лингвистика 27.01.2021

ЕГЭ для нейросетей: как тестируют усвоение языка машинами

Многие знают о современных языковых моделях и спорят, что лучше: BERT или GPT-3. Но мало кто знает, по каким критериям оценивается их качество. Разбираемся, что делает языковую модель умной

Анна Аксёнова

Лингвистика, Общество 22.01.2021

Токсичный Путин: что видно в соцсети русского компромата

Рассказываем, что увидели ученые, построив «социальную сеть русского компромата» на 11 тысяч человек. Спойлер: Путин официально самый токсичный! Но ведь если ваши связи помогают вам прятать деньги и возводить на них дворцы, то «токсичность» можно и потерпеть? Ради комнаты для грязи — годятся любые связи. Подробности — в нашей статье

Системный Блокъ

Как это работает, Лингвистика 11.12.2020

Как работает GPT-2 и в чем его особенности

Все слышали о GPT-3, которая умеет сочинять стихи и прозу, разгадывать анаграммы, переводить, отвечать на вопросы по прочитанному тексту и даже писать философские рассуждения о жизни и смерти. Рассказываем, как работает ее бабушка, GPT-2, без которой такой прорыв в области обработки естественного языка был бы невозможен

Владимир Селеверстов, Камилла Кубелекова

Глоссарий, Лингвистика 11.11.2020

Named Entity Recognition (NER)

Когда человек читает книгу, он без труда понимает, что какие-то слова в тексте — это имя героя, а какие-то — название местности, даже если он впервые столкнулся с таким именем или названием. Для компьютера работа по распознаванию имен людей, названий организаций, топонимов и т.п. оказалась довольно сложной, но всё-таки машины с ней справляются — и с каждым годом всё лучше

Ася Ройтберг

Лингвистика 27.10.2020

Сводеш 2.0: новый уровень разговоров про академию

За что хвататься, когда учишь новый язык? Некоторые начинают со ста самых частотных слов, некоторые — с любимой темы или полезных выражений типа «Спасибо» или «Передайте, пожалуйста, соль». Но как быть, если изучать приходится не французский или испанский, а целый пласт разнообразных выражений, используемых в академической среде? На помощь приходят корпусные исследования!

Наталья Крякина

Лингвистика 13.10.2020

Почему Алиса и Siri располагают нас к откровенным разговорам

В фильме «Она» показано недалекое будущее, где искусственный интеллект стал рутиной, а главный герой заводит роман с виртуальной помощницей. В 2020 году эта мелодрама не кажется фантастикой. Разбираемся, как виртуальные агенты становятся нашими собеседниками, конфидентами и друзьями

Дарья Коростелева

Лингвистика, Общество 29.09.2020

Ok, Google, купи слона: онлайн-шоппинг и голосовые помощники

Типичный поход в магазин включает в себя долгий выбор продуктов, блуждание между полками товаров, ожидание в очереди. А что если бы мы могли доверить весь онлайн-шоппинг голосовым ассистентам в нашем смартфоне?

Мария Голубева

Лингвистика, Общество 16.09.2020

Правильные слова: как привить детям интерес к науке

Слова обладают мощным воздействием на наше сознание. Словом можно травмировать, а можно...привить детям интерес к науке! Американские психологи показали, что если правильно выбрать слова для заданий на уроке физики, дети будут более упорны в своих исследованиях

Ana Coughlin

Лингвистика 10.09.2020

Запутать нельзя угадать: как нейросети генерируют ложные приманки для тестов

Составлять тесты сложно: кроме правильного ответа надо придумать хотя бы три неправильных. Причем придумать их с умом: чтобы варианты не были слишком очевидно неверными — но и не оказались бы при этом подходящей альтернативой верному варианту. Хорошая новость в том, что скоро эту головоломную работу смогут выполнить за вас нейросети

Никита Логин

Лингвистика, Филология 04.09.2020

Бэггинсы, Кольца и Сауроны: как научить компьютер понимать кто есть кто?

Как помочь компьютеру понять, что Гарри — волшебник, Гендальф — майар, а Джон Сноу — (СПОЙЛЕР!) одновременно Старк и Таргариен? Человек схватывает новую информацию на лету: из контекста, из интонации, из невербального общения. А как дать компьютеру такие же умения?

Артур Хисматулин

Лингвистика, Филология 23.07.2020

Data Science против фейков: как алгоритм отделяет выдуманные новости от правды

Фейковые новости – острая проблема информационного общества. Они быстро распространяются через социальные сети, мессенджеры и СМИ, вводя людей в заблуждение. Это может привести к массовой дезинформации, манипуляциям и общественным кризисам

Камила Абдукаримова

Лингвистика, Филология 29.05.2020

Как измеряют эффект Вертера

Но не тот, о котором вы подумали. Мы расскажем не о последствиях трагической любви, которые заставляют молодых людей с разбитым сердцем сводить счеты с жизнью, а о том, как «Страдания юного Вертера» перекликаются с окружающими его текстами

Системный Блокъ

Лингвистика 07.05.2020

Сейчас вылетит птичка: что внутри у платформ для изучения языка?

Мы часто воспринимаем платформы для изучения языка как волшебные инструменты, с помощью которых и вправду можно выучить японский за тридцать дней. Приложения типа Lingualeo или Memrise добросовестно напоминают нам о необходимости пройти новый раздел грамматики или повторить слова, сопровождают каждый урок смешными примерами и вообще предлагают довольно широкий выбор тем — интересно будет и маленькому ребёнку, и начинающему новый язык взрослому. Но как именно организовать такой обширный материал? Давайте разберёмся на примере всем известного Duolingo

Наталья Крякина

Лингвистика, Новости 01.05.2020

Семантика эмоций: ученые объяснили природу вариативности языка

Анализ более 2000 языков показал различия в концептуализации чувств в разных культурах

Михаил Совин

NLP, Лингвистика 13.03.2020

Как управлять мамонтом: генерируем нужные тексты с помощью моделей Plug and Play

Нейросети хорошо порождают правдоподобный текст. Но как заставить их писать на нужную тему, да еще и с нужным отношением к этой теме (положительным, нейтральным или отрицательным)? Рассказываем про решение, которое позволяет «донастраивать» языковую модель под себя

Системный Блокъ

Лингвистика 09.03.2020

Журналисты VS роботы: неравный бой

Искусственный интеллект — друг или враг журналисту? Чтобы ответить на этот вопрос, изучаем 10 свежих AI-проектов со всего мира мира

Анастасия Уткина

Лингвистика, Филология 05.03.2020

Краудсорсинг в Digital Humanities: опыт Латвийского фольклорного архива

Рассказываем, как фольклорному архиву Латвии удалось привлечь тысячи волонтеров к оцифровке и обогащению своих электронных коллекций, а также почему это может быть полезно другим странам

Наталья Перкова

Лингвистика 15.02.2020

Чат-боты угрожают отрезать людям пальцы. Мы все умрем?

Что можно назвать «эмоциональным» искусственным интеллектом и как он работает

Екатерина Смирнова

Лингвистика 24.01.2020

Google-проповедник, гендерные стереотипы и развитие ИИ: интервью с разработчиком Googlе-Переводчика

Как совершенствуются системы машинного перевода, стоит ли пугаться религиозных предсказаний при переводе на маори и как избавиться от сексизма и стереотипов в переводчике

Инесса Анохина, Наталья Пак

Лингвистика, Общество 16.01.2020

280 символов Трампа: как Твиттер стал оружием в политической гонке

Как гневные твиты, написанные КАПСОМ, помогли Дональду Трампу завоевать пост президента США? Разбираются ученые

Вера Шимко

Лингвистика 15.01.2020

Вавилонская нейросеть для многоязычного перевода

Не так давно заговорили о том, что система нейронного машинного перевода от Google сама научилась переводить в языковых парах, для которых у неё нет параллельных корпусов. Действительно ли онлайн-переводчик изобрел собственный универсальный язык, машинную интерлингву?

Александра Опанасенко

Лингвистика 01.11.2019

Большие данные о языках в справочнике Ethnologue

Обзор самого известного онлайн-ресурса о языках мира: что можно узнать и кому это пригодится?

Мария Захарова

NLP, Лингвистика 25.10.2019

Акцентуаторы. Памяти А.А. Зализняка. Часть III

Великое, могучее, свободное, подвижное. От праславянской акцентуации к нейросетевым программам автоматической расстановки ударений

Ольга Чхотуа

NLP, Лингвистика 18.10.2019

Зачем нужна карта метафор?

На литературе в школе нас учили, что метафора — это что-то такое из стихов Пушкина. Помните, как учительница затирала про «образное сравнение»? Но на самом деле метафорами пронизан весь наш язык (даже эта фраза), и их исследование может многое сказать о том, как мы говорим и мыслим. А зачем нужна цифровая карта метафор?

Алена Соколова