
Что такое список Сводеша?
Для того, чтобы определить степень родства двух языков, часто сравнивают их лексический состав. Рассказываем о списке Сводеша — инструменте, созданном американским лингвистом Моррисом Сводешем для сравнения языков.
В рубрике “Лингвистика” мы пишем об интересных лингвистических исследованиях, в которых используются различные цифровые технологии и методы. Например, как, изучая запросы к поисковой системе, найти специфические региональные слова. Также в этой рубрике вы узнаете, о том, как и зачем создают текстовые корпусы и как их потом используют для исследований с помощью компьютерной лингвистики.
Для того, чтобы определить степень родства двух языков, часто сравнивают их лексический состав. Рассказываем о списке Сводеша — инструменте, созданном американским лингвистом Моррисом Сводешем для сравнения языков.
Иногда сложно понять, что же хотел сказать автор своим сочинением, а пересказать текст кажется нереальной задачей — из-за необычной структуры повествования или при использовании разных рассказчиков. Как справляются с подобными задачами LLM? Ученые Колумбийского университета спросили у самих писателей.
Язык — естественная система. Он распространяется, развивается и даже мутирует, подчиняясь законам естественных наук. Можно ли с его помощью реконструировать эволюцию человечества? Рассказываем, как генеалогические деревья объединили биологов и лингвистов и какой вклад в языкознание внес Чарльз Дарвин.
Современные технологии хорошо помогают в криптоанализе: программы, перебирающие тысячу вариантов за несколько секунд, в разы превосходят возможности человека. Однако слепого применения софта недостаточно, особенно если речь идёт о самом приоритетном неразгаданном шифре в списке ФБР — криптограмме серийного убийцы Зодиака. В новом материале разбираемся, какие вообще бывают шифры, почему шифр Зодиака не могли дешифровать на протяжении 50 лет и как криптографам всё-таки удалось его раскусить.
В мире почти 7000 языков, и они очень разные. Лингвистическая типология — раздел науки о языке, описывающий эти различия. Часто, хотя и не всегда, сходство языков обусловлено географически — тогда языки можно даже объединить в языковые ареалы. Но выделять их вручную — задача трудоёмкая и полная неоднозначностей. Тут на помощь исследователям приходят вычислительные методы.
В 1950-е годы гуманитарии и математики объединились, чтобы заниматься машинным переводом. Именно с этого берёт начало сфера автоматической обработки естественного языка (Natural Language Processing). За 70 лет с тех пор методы машинного перевода радикально сменились несколько раз, но как работали самые первые системы? Вспоминаем историю системы французско-русского перевода из 50-х гг., описываем принцип работы алгоритма (он состоял из 17 программ) и сравниваем его с современными моделями.
Как в СССР возник машинный перевод? Чем нетрадиционная лингвистика отличается от традиционной? Почему эмиграция иногда становится спасением жизни? Об этом в интервью изданию «Системный Блокъ» рассказал Игорь Мельчук, лингвист, заслуженный профессор Монреальского университета, один из основоположников российской математической лингвистики и Московской семантической школы.
Мы собрали лучшие материалы «Системного Блока», посвящённые главной цифровой коллекции текстов на русском языке: художественных, научных, церковнославянских, диалектных, списанных с бересты, поэтических, памятников литературы с XI века и многих других.
Помешает ли постоянная вынужденная миграция развивать фонологию, исследовать русский авангард, заниматься сербо-хорватским эпосом, изучать нейрофизиологические нарушения речи, перенести структурализм с одного континента на другой и создать работы, которые окажут влияние на Леви-Стросса? Жизнь Романа Осиповича Якобсона показывает, что даже сложное время не может остановить искреннее желание заниматься наукой.
Как отделить язык от диалекта? Должна ли вся страна говорить на одном «стандартном» языке и какие преимущества есть у использования диалектов? Имеют ли смысл политизированные споры вокруг разграничения русского, украинского и белорусского языков? Как проходят диалектологические экспедиции? Всё это «Системный Блокъ» обсудил с диалектологом, замдиректора Института языкознания РАН по науке Игорем Исаевым.
«Закатить глаза» или «троекратный поцелуй»? Узнайте, каким жестом вы были бы во вселенной мультимедийного корпуса русского языка.
Нейролингвистические исследования находятся на стыке психологии, неврологии и лингвистики: здесь изучается речь пациентов, переживших инсульт, разрабатываются приложения для определения дислексии и даже синтезируются слова по активности нейронов. О соединении нейролингвистических экспериментов с машинным обучением «Системный Блокъ» поговорил с Ольгой Драгой, директором Центра языка и мозга НИУ ВШЭ и доктором филологических наук.
Какие слова чаще встречаются в анекдотах, а какие — в деловых документах? Узнать это можно на сайте Национального корпуса русского языка, на основе которого мы придумали тест. Проверьте, насколько хорошо вы разбираетесь во всем разнообразии текстов на русском языке — от смс-сообщений до классической литературы.
Параллельный корпус — это коллекция текстов, где для каждого текста хранятся его переводы на другой язык (или языки). Параллельные корпуса позволяют узнать, какие приемы и стратегии использовал переводчик для передачи слов, у которых нет эквивалентов в другом языке. В этой статье мы расскажем про русско-китайский параллельный корпус в составе Национального корпуса русского языка.
Национальный корпус русского языка (НКРЯ) — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной культурой. Изменения в работе НКРЯ были заметны ещё в 2019 году: тогда лингвисты высказали опасения о возможном закрытии сервиса. К счастью, проблемы оказались временными, и НКРЯ не только не прекратил свою работу, но и заметно изменился и расширился. Самым заметным обновлением стал новый дизайн сайта, но есть и много глубоких содержательных перемен. Об основных обновлениях в корпусе, очевидных и не очень — в нашем сегодняшнем материале.
За два века слово может изменить свое значение до неузнаваемости. Многие слова, которыми мы пользуемся сегодня, совершенно иначе воспринимались нашими предками. Тест на лингвистическую интуицию: сможете ли вы догадаться, когда возникла поговорка «голод не тетка», а слово «молодец» стало похвалой?
«Привет» или «ПРИВЕТ»? А, может быть, «првиет!»? Вариантов поздороваться в онлайн-переписке, как и написать любое другое слово, множество. Причем каждый из них обладает своим эмоциональным оттенком и передает настроение собеседника. В интернет-пространстве смысл может быть спрятан в отдельных символах языка, будь то точка в конце сообщения или буква «а» в слове «молоко». Изучение того, как языки меняются в виртуальной сети, только начинается, но уже есть немало исследований, посвященных этим правилам.
Reverso Context — сайт, разработанный с целью улучшения качества работы с переводом с различных языков, в том числе и с русского. Рассказываем, как работает переводчик, которым пользуется даже Департамент культуры Франции.
Революция 1917 года — одно из крупнейших потрясений в российской истории. О чем думал Николай II в день отречения? Что волновало простых граждан? Какие темы поднимали в газетах? Мы проанализировали дневники очевидцев, которые собрал проект «1917. Свободная история», и выяснили, о чем в революцию писали чаще всего
Многие представляют себе искусственный интеллект по фантастике. Альтрон из «Железного человека», ВИКИ Азимова, «Мир Дикого запада» и «Апгрейд» — все это выглядит, как торжество развития технологии, способной и улучшить жизнь человечества, и положить ему конец. Правда, реальный искусственный интеллект пока далек от того, что показывают нам в фильмах и книгах. Но это не повод расстраиваться — ведь в истории ИИ были и куда более тёмные времена
Многие говорят, что эффективный способ выучить иностранный язык – смотреть сериалы на этом языке. Если вы тоже пробовали такой метод, то наверняка обращали внимание, как какой-нибудь герой из сериала Netflix вместо простых «нет» или «да» произносит не всем знакомые выражения типа no way или you bet. Что это такое и почему об этом почти не говорили на уроках в школе? Рассказываем о дискурсивных формулах и новом цифровом ресурсе для их изучения в русском языке, а также поиска аналогов в английском
Разбираемся, что такое Voyant Tools и как с его помощью можно проанализировать большой корпус текстов с YouTube на японском языке
Как понять, кем вам приходится сваха внучатого племянника вашей сестры? Проще всего - нарисовать генеалогическое древо, которое отразит все родственные связи. А еще лучше - написать код на Python, который сделает это за вас
Как обучить нейросеть генерировать жёлтые тексты в духе самых трешовых баннеров? Наш автор Иван Торубаров погрузился в глубины кликбейта и спешит поделиться с вами тем, что он там нашел
GPT-3 — самая известная из современных нейросетевых моделей языка. Вокруг нее много мифов, но модель действительно умеет впечатлить. Она отлично справляется с написанием целых эссе на заданную тему, удачно отвечает на вопросы, а также пишет стихи и программный код. Рассказываем, как работает GPT-3.
BERT — нейросетевая модель-трансформер от Google, на которой сегодня строится большинство инструментов автоматической обработки языка. Модель появилась в начале 2018-го, а уже в октябре того же года Google встроил модель в свой поисковик. Разбираемся, что же представляет из себя модель BERT и как она работает
Мы проанализировали все речи президентов, которые произносились в честь 9 мая с 2000 года. О том, как эти выступления влияют на нашу коллективную память и помогают легитимировать власть, читайте в исследовании СБъ
Как работают современные методы переноса стиля? Могут ли они быть полезны или опасны? И при чём здесь «бутылочное горлышко» нейросети?
Сегодня для того, чтобы понять, кто написал текст под псевдонимом, у исследователей есть количественные методы анализа, в основе которых – подсчет служебных слов в тексте. О том, как люди к этому пришли, рассказываем в материале об истории стилометрии
Многие знают о современных языковых моделях и спорят, что лучше: BERT или GPT-3. Но мало кто знает, по каким критериям оценивается их качество. Разбираемся, что делает языковую модель умной
Все слышали о GPT-3, которая умеет сочинять стихи и прозу, разгадывать анаграммы, переводить, отвечать на вопросы по прочитанному тексту и даже писать философские рассуждения о жизни и смерти. Рассказываем, как работает ее бабушка, GPT-2, без которой такой прорыв в области обработки естественного языка был бы невозможен
Когда человек читает книгу, он без труда понимает, что какие-то слова в тексте — это имя героя, а какие-то — название местности, даже если он впервые столкнулся с таким именем или названием. Для компьютера работа по распознаванию имен людей, названий организаций, топонимов и т.п. оказалась довольно сложной, но всё-таки машины с ней справляются — и с каждым годом всё лучше
За что хвататься, когда учишь новый язык? Некоторые начинают со ста самых частотных слов, некоторые — с любимой темы или полезных выражений типа «Спасибо» или «Передайте, пожалуйста, соль». Но как быть, если изучать приходится не французский или испанский, а целый пласт разнообразных выражений, используемых в академической среде? На помощь приходят корпусные исследования!
В фильме «Она» показано недалекое будущее, где искусственный интеллект стал рутиной, а главный герой заводит роман с виртуальной помощницей. В 2020 году эта мелодрама не кажется фантастикой. Разбираемся, как виртуальные агенты становятся нашими собеседниками, конфидентами и друзьями
Типичный поход в магазин включает в себя долгий выбор продуктов, блуждание между полками товаров, ожидание в очереди. А что если бы мы могли доверить весь онлайн-шоппинг голосовым ассистентам в нашем смартфоне?
Слова обладают мощным воздействием на наше сознание. Словом можно травмировать, а можно...привить детям интерес к науке! Американские психологи показали, что если правильно выбрать слова для заданий на уроке физики, дети будут более упорны в своих исследованиях
Составлять тесты сложно: кроме правильного ответа надо придумать хотя бы три неправильных. Причем придумать их с умом: чтобы варианты не были слишком очевидно неверными — но и не оказались бы при этом подходящей альтернативой верному варианту. Хорошая новость в том, что скоро эту головоломную работу смогут выполнить за вас нейросети
Как помочь компьютеру понять, что Гарри — волшебник, Гендальф — майар, а Джон Сноу — (СПОЙЛЕР!) одновременно Старк и Таргариен? Человек схватывает новую информацию на лету: из контекста, из интонации, из невербального общения. А как дать компьютеру такие же умения?
Фейковые новости – острая проблема информационного общества. Они быстро распространяются через социальные сети, мессенджеры и СМИ, вводя людей в заблуждение. Это может привести к массовой дезинформации, манипуляциям и общественным кризисам
Но не тот, о котором вы подумали. Мы расскажем не о последствиях трагической любви, которые заставляют молодых людей с разбитым сердцем сводить счеты с жизнью, а о том, как «Страдания юного Вертера» перекликаются с окружающими его текстами
Мы часто воспринимаем платформы для изучения языка как волшебные инструменты, с помощью которых и вправду можно выучить японский за тридцать дней. Приложения типа Lingualeo или Memrise добросовестно напоминают нам о необходимости пройти новый раздел грамматики или повторить слова, сопровождают каждый урок смешными примерами и вообще предлагают довольно широкий выбор тем — интересно будет и маленькому ребёнку, и начинающему новый язык взрослому. Но как именно организовать такой обширный материал? Давайте разберёмся на примере всем известного Duolingo
Анализ более 2000 языков показал различия в концептуализации чувств в разных культурах
Нейросети хорошо порождают правдоподобный текст. Но как заставить их писать на нужную тему, да еще и с нужным отношением к этой теме (положительным, нейтральным или отрицательным)? Рассказываем про решение, которое позволяет «донастраивать» языковую модель под себя
Искусственный интеллект — друг или враг журналисту? Чтобы ответить на этот вопрос, изучаем 10 свежих AI-проектов со всего мира мира
Рассказываем, как фольклорному архиву Латвии удалось привлечь тысячи волонтеров к оцифровке и обогащению своих электронных коллекций, а также почему это может быть полезно другим странам
Что можно назвать «эмоциональным» искусственным интеллектом и как он работает
Как совершенствуются системы машинного перевода, стоит ли пугаться религиозных предсказаний при переводе на маори и как избавиться от сексизма и стереотипов в переводчике
Как гневные твиты, написанные КАПСОМ, помогли Дональду Трампу завоевать пост президента США? Разбираются ученые
Не так давно заговорили о том, что система нейронного машинного перевода от Google сама научилась переводить в языковых парах, для которых у неё нет параллельных корпусов. Действительно ли онлайн-переводчик изобрел собственный универсальный язык, машинную интерлингву?
Обзор самого известного онлайн-ресурса о языках мира: что можно узнать и кому это пригодится?
Великое, могучее, свободное, подвижное. От праславянской акцентуации к нейросетевым программам автоматической расстановки ударений
Почему «Слово о полку Игореве» не смогли бы создать инопланетяне или нейросеть, и при чем тут берестяные грамоты?
Какие метафоры популярны при описании габаритов предмета, как они изменялись со временем и почему из сравнений исчезли голубиные яйца
Фанаты Assassin’s Creed за одну ночь помогли собрать материал для переводчика египетских иероглифов
Аесова и другие: откуда и благодаря кому мы знаем, как ругались русские люди в XII веке?