Системные преобразования
Лингвистика — это наука, которая изучает устную и письменную формы человеческого языка, его структуру, элементы, его связь с другими науками. Современная лингвистика имеет два подхода к изучению: синхронический и диахронический. Изначально преобладал диахронический подход, описывающий историю развития языка, этимологию ее форм и слов.
Изменения в лингвистической теории начались с появлением работ швейцарского лингвиста Фердинанда де Соссюра. Он первым обратил внимание лингвистов на необходимость изучения языковой системы в целом (1916). Было важно провести систематизацию элементов языка, выстроить иерархию и установить систему связей между элементами. Упор делался на современное состояние языка. Именно так появился синхронический подход.
Лингвистика и кибернетики: первое знакомство
Столь значительное изменение привлекло к лингвистике внимание математиков и инженеров. Этому способствовали экономические и политические события до и после Второй мировой войны. Первые попытки междисциплинарных исследований были проведены американскими инженером и математиком Клодом Шенноном (1948) и Уорреном Уивером. Заинтересованные идеей научить компьютер говорить и общаться, ученые пытались применить математические аспекты к трансформации естественного языка в формальный — тот, который будет понимать компьютер. В их работах заложена база для стохастических методов, которые играют ведущую роль в современной лингвистике.
Следующей ступенью в знакомстве и коллаборациях наук стали идеи американского лингвиста Ноама Хомского — он разработал первое представление систематической формализации описания предложений естественного языка (1957). Интересно, что сам Хомский всегда подчеркивал, что его мотивация к введению формальной грамматики никогда не была связана с компьютеризацией. По разным причинам, в первую очередь из-за нехватки вычислительной мощности, необходимой для вероятностных и других вычислительно интенсивных подходов, его работа оставалась доминирующей в области компьютерной лингвистики более тридцати лет.
Другие теории формального языка и системы формальных грамматик появились в 1960-х, 1970-х и начале 1980-х годов (Gazdar, Kaplan and Bresnan), и были связаны с контекстно-свободным грамматическим формализмом, предложенным Хомским. Хотя новый подход существенно отличался, эти теории мало способствовали достижению реальных целей компьютерной лингвистики, например, создание широко распространенных синтаксических анализаторов предложений на естественном языке. Сегодня работы Ноама Хомского и его последователей находят более широкое применение в области формальных языков, таких как синтаксис программирования или языки разметки.
Параллельно с разработкой формального языка в 1980-х гг. возрождаются стохастические методы, заложенные в работах Шеннона и Уивера. Благодаря значительно возросшей мощности компьютеров использование этих методов привело к значительным успехам в автоматической обработке текста, распознавании речи, машинном переводе. Сегодня формальные средства описания естественного языка объединяются с классическими информационно-теоретическими методами, порождая гибридные технологии.
Продуктивная дружба — компьютерная лингвистика
Компьютерная лингвистика — относительно новая междисциплинарная наука, которая занимается компьютерной обработкой человеческого языка или NLP (Natural Language Processing — не путать с нейролингвистическим программированием).
Ее теоретическая основа представляет ядерную смесь из лингвистики, математики (теория вероятности, статистики, теории информации, алгебры, теории формальных языков и т. д.), логики, психологии, когнитивных и компьютерных наук. Результатом служат прикладные исследования в разработке искусственного интеллекта и новые формы представления знаний — текстовые корпуса, семантические векторные модели, предобученные нейросети для синтеза текста, новые поколения тезаурусов и идеографических словарей.
Изучая формальные теории описания языка, компьютерную морфологию и семантику, компьютерный синтаксис, а также применяя различные алгоритмы, исследователи компьютерной лингвистики пытаются найти решения практических задач в области обработки естественного языка (NLP): генерация текстов и языковое моделирование, создание параллельных корпусов и систем машинного перевода, разработка диалоговых систем и чат-ботов, распознавание и синтез речи.
Примечательно, что в отличие от многих других областей гуманитарных наук, исследования в области компьютерной лингвистики получают оценки. Что это значит? Кроме исходных данных, с которыми будет происходить основная работа, также используются заранее подготовленные проверочные данные. С ними сравниваются «преобразованные» исходные данные. На результатах их сравнения и формируется оценка. Зачастую она определяется количеством ошибок, которые делает система; когда это невозможно, используется другая мера (например, вероятность тестовых данных). Дополнением к частоте ошибок является точность.
Объективная автоматическая система оценивания вошла в вычислительную компьютерную лингвистику с возрождением статистических методов и считается одним из важнейших изменений в этой области с момента ее создания — считается, что именно такая оценка стала движущей силой в быстрых темпах достижений в недавнем прошлом.
Будущее
Несмотря на то, что компьютерная лингвистика считается относительно молодой наукой, современному человеку уже сложно представить свою жизнь без существования голосовых помощников, эффективных веб-поисковиков или автоматических переводчиков. В то же время многие проблемы обработки естественного языка, включая и машинный перевод, до сих пор не имеют хорошего универсального решения. Поэтому необходимо продолжать исследования в этой области и разрабатывать новые технологии.
Источник: A Companion To Digital Humanities