Что может чтение 26 000 книг рассказать исследователям о том, как языковая среда влияет на языковое поведение? Брендан Т. Джонс, доцент кафедры коммуникативных расстройств Колледжа гуманитарных и естественных наук в Баффало, дает ответы на некоторые вопросы, начиная с того, как мы используем и обрабатываем язык, заканчивая вопросами развития болезни Альцгеймера.

Инстинктивен ли язык?

Давайте будем честны: Джонс не читал все эти книги. Он является экспертом в области вычислительных когнитивных наук и опубликовал исследование по компьютерному моделированию, которое отражает опыт взаимодействия людей с различными средами обучения.

По словам Джонса, ранее в лингвистике предполагалось, что большая часть наших способностей к использованию языка была инстинктивной, однако модели, которые разрабатываются сегодня, заставляют нас усомниться в этих суждениях. Окружающая среда, похоже, формирует поведение.

Открытия Джона и его соавтора Рэндалла К. Джеймисона, профессора факультета психологии Университета Манитобы, опубликованы в журнале «Behavior Research Methods».

Достижения в обработке естественного языка и увеличение мощности вычислительных ресурсов позволяют таким исследователям, как Джонс и Джеймисон, находить ответы на когда-то неразрешимые вопросы.

США и Великобритания: почему они такие разные?

Модели, называемые моделями распределения, служат аналогами процесса изучения человеческого языка. В исследовании использовалось 26 000 книг, написанные тремя тысячами авторов (около 2000 авторов из США и около 500 — из Великобритании). В книгах было использовано более 1,3 миллиарда слов.

Бернарду Шоу часто приписывают высказывание о том, что Великобритания и Америка — это две страны, разделенные общим языком. Но языки не идентичны, и для того, чтобы установить и представить потенциальные культурные различия, исследователи использовали для каждой из 26 000 книг информацию о том, когда родился автор, и где была опубликована книга.

Получив эту информацию, исследователи проанализировали данные 10 различных работ, в которых участвовало более 1000 участников и использовалось большое количество психолингвистических задач.

Вопрос, на который исследователи попытались ответить в своей работе, следующий: «Если мы обучим модель на материалах, которые кто-то мог прочитать в конкретной стране (Великобритании или США), станет ли она больше похожа на этих людей? Мы обнаружили, что окружение, в которое попадают люди, похоже, формирует их поведение».

По словам Джонса, книги, отражающие отдельную культуру, объясняют большую часть различий данных в этом исследовании: «Огромное преимущество — иметь корпус, специфичный для культуры, и еще большее преимущество — иметь корпус, специфичный для конкретного времени», — сообщает Джонс. «Различия, которые мы находим в языковой среде и поведении как функции времени и места, — это то, что мы называем «гипотезой избирательного чтения».

Использование таких подходов машинного обучения демонстрирует богатую информативность сред, поэтому Джонс работает сейчас над созданием систем машинного обучения для оптимизации образовательного процесса. В его последней статье показано, как можно определить языковое поведение человека и оценить материалы, которые он прочитал. В дальнейшем исследователи хотят разработать модель того, что человек знает на основе его прошлого опыта работы с языком, что позволит максимально индивидуализировать учебный процесс.

Машинное обучение и болезнь Альцгеймера

Также Джонс также изучает клинические популяции, и его работа с пациентами, страдающими болезнью Альцгеймера, заставляет его задуматься о том, как применить свои модели чтобы потенциально помочь людям с риском развития этого заболевания.

Он сообщает, что у некоторых людей наблюдается небольшая потеря памяти в отсутствии других признаков когнитивного снижения. Эти пациенты с легкими когнитивными нарушениями имеют риск диагностирования болезни Альцгеймера с вероятностью 10-15% в любой год жизни, по сравнению с 2% для населения в возрасте старше 65 лет.

Исследователи обнаружили, что у людей, у которых развивается болезнь Альцгеймера, наблюдаются определенные типы потери языка и его производства, когда они, вероятно, теряют семантические ассоциации между далекими или низкочастотными словами. Следующий вопрос — могут ли быть разработаны задачи и методы, которые позволят этой группе дольше сохранять свои языковые способности, или необходимо создать более персонализированную оценку, чтобы понять, какой тип информации они теряют в своей когнитивной системе? Эта исследовательская программа имеет потенциал для ответа на подобные вопросы.

Источник: What 26,000 books reveal when it comes to learning language