1. Национальный корпус русского языка — электронное собрание текстов на русском языке объемом в сотни миллионов (!) слов. Это самый фундаментальный цифровой проект по изучению и документированию русского языка разных эпох. Рассказываем, кто и как использует корпус.
2. Если в таких языках, как французский, финский или чешский дела с ударением обстоят довольно легко, то с русским разобраться не так и просто. В праславянском языке ударение было свободным, подвижным и музыкальным, но сегодня у нас целая система сложных правил, которая сводит с ума иностранцев и компьютерные алгоритмы. От праславянской акцентуации к нейросетевым программам автоматической расстановки ударений.
3. Всего двадцать лет назад по запросу «как расчесать длинношерстную собаку» поисковые алгоритмы могли не выдать вам нужной статьи: они просто не понимали, что «собаку» и «собака» это одно и то же слово в разных падежах. Чтобы поисковый алгоритм понимал такие запросы, он должен уметь приводить слова к начальной форме — нормализовывать. Рассказываем, как благодаря труду выдающегося лингвиста появились первые морфологические анализаторы для русского языка.
4. Под влиянием культурных и социальных условий наш язык трансформируется. В эпоху Интернета эти изменения происходят гораздо чаще, и принять их бывает трудно. Разбираемся, достоин ли «великий и могучий» русский язык называться таковым после языка падонкафф, где грань между «лол» и кек и почему нельзя повышать шрифт на кого попало.
5. Люди охотно делятся в соцсетях результатами теста своего словарного запаса. Разбираемся, как устроен этот тест и что позволяет ему после нескольких вопросов утверждать, что ваш словарный запас равен 92000 слов.