Определение неоднозначности в изучении языка

В лингвистикаОднозначность - это процесс определения того, какой смысл слово используется в определенном контекст. Также известный как лексическое значение.

В компьютерной лингвистике этот дискриминационный процесс называется двусмысленность слов (WSD).

Примеры и наблюдения

«Так получилось, что наш связь, в различных языки также позволяет использовать одну и ту же форму слова для обозначения разных вещей в отдельных коммуникативных транзакциях. Следствием этого является то, что в конкретной транзакции нужно выяснить предполагаемое значение данного слова среди его потенциально связанных значений. В то время неоднозначность возникающие из таких множественных формозначающих ассоциаций на лексический уровне, они часто должны быть решены с помощью более широкого контекста из речь вложение слова. Следовательно, различные значения слова «служение» можно было бы отличить друг от друга только в том случае, если бы можно было выйти за пределы самого слова, как в отличие от обслуживание игрока на Уимблдоне «с обслуживанием официанта в Шератоне». Этот процесс определения значений слов в дискурсе обычно известный как

instagram viewer

смысл слова неоднозначности (WSD). "(Oi Yee Kwong, Новые перспективы вычислительных и когнитивных стратегий для устранения двойного смысла. Springer, 2013)

Лексическая двусмысленность и двусмысленность слов (WSD)

«Лексико неоднозначности в самом широком смысле это не что иное, как определение значения каждого слова в контексте, которое, по-видимому, является в значительной степени бессознательным процессом в людях. Как вычислительная проблема, она часто описывается как «AI-полная», то есть проблема, решение которой предполагает решение для завершения. на естественном языке понимание или здравый смысл (Ide и Véronis 1998).

«В области компьютерной лингвистики проблема обычно называется устранением неоднозначности смысла слова (WSD) и определяется как проблема вычислительного определения того, какой «смысл» слова активируется при использовании слова в определенном контекст. WSD по сути является задачей классификации: смысловые значения слова являются классами, контекст обеспечивает доказательства, и каждое вхождение слова присваивается одному или нескольким из его возможных классов на основе доказательство. Это традиционная и распространенная характеристика WSD, которая рассматривает его как явный процесс устранения неоднозначности в отношении фиксированной инвентаризации значений слов. Предполагается, что слова имеют конечный и дискретный набор смыслов из толковый словарьлексическая база знаний или онтология (в последнем смысле смыслы соответствуют понятиям, которые лексизирует слово). Специфичные для применения инвентаризации также могут быть использованы. Например, в настройках машинного перевода (МТ) можно рассматривать переводы слов как значения слов, подход, который становится все более осуществимым из-за наличия большого многоязычного параллельно корпусы это может служить данными обучения. Постоянная инвентаризация традиционного WSD уменьшает сложность проблемы, но существуют альтернативные поля.. .. "(Энеко Агирре и Филипп Эдмондс," Введение ". Смысл словосочетания: алгоритмы и приложения. Springer, 2007)

Омонимия и неоднозначность

«Лексико неоднозначности хорошо подходит особенно для случаев омонимиянапример, возникновение бас должен быть наложен на любой из лексических предметов бас₁ или бас₂в зависимости от предполагаемого значения.

«Лексическое устранение неоднозначности подразумевает когнитивный выбор и является задачей, которая тормозит процессы понимания. Его следует отличать от процессов, которые приводят к дифференциации смысловых значений слов. Первая задача выполнена довольно надежно и без большого количества контекстной информации, а вторая - нет (ср. Веронис 1998, 2001). Также было показано, что одноименные слова, которые требуют устранения неоднозначности, замедляют лексический доступ, в то время как многозначные слова, которые активируют множество значений слов, ускоряют лексический доступ (Rodd e.a. 2002).

«Тем не менее, как продуктивная модификация семантических ценностей, так и простой выбор между лексически различными элементами имеют в общем то, что им требуется дополнительная нелексическая информация. "(Питер Бош," Производительность, многозначность и предикатность индексируемости ". Логика, язык и вычисления: 6-й международный Тбилисский симпозиум по логике, языку и вычислениямпод ред. Балдер Д. Тен Кейт и Хенк В. Zeevat. Springer, 2007)

Лексическая категория, двусмысленность и принцип правдоподобия

«Корли и Крокер (2000) представляют модель широкого охвата лексическая категориянеоднозначности на основе Принцип вероятности. В частности, они предлагают для предложения, состоящего из слов вес₀... вес_Nпроцессор предложений принимает наиболее вероятный часть речи последовательность T₀... T_N. Более конкретно, их модель использует две простые вероятности: (я) условная вероятность слова вес_я учитывая определенную часть речи T_я, а также (б) вероятность T_я учитывая предыдущую часть речи T_я-1. Когда встречается каждое слово в предложении, система присваивает ему эту часть речи T_я, что максимизирует произведение этих двух вероятностей. Эта модель опирается на понимание того, что многие синтаксический неясности имеют лексическую основу (MacDonald et al., 1994), как в (3):

(3) Складские цены / марки дешевле, чем остальные.

«Эти предложения временно неоднозначны между чтением, в котором Цены или марки это основной глагол или часть составное существительное. После обучения в большом корпусе модель предсказывает наиболее вероятную часть речи для Цены, правильно учитывая тот факт, что люди понимают цена как существительное, но марки как глагол (см. Crocker & Corley, 2002, и ссылки, цитируемые в нем). Мало того, что модель учитывает диапазон предпочтений устранения неоднозначности, коренящихся в лексической категории двусмысленность, это также объясняет, почему, в целом, люди очень точны в решении таких двусмысленностей ". (Мэтью У. Крокер, «Рациональные модели понимания: решение парадокса производительности». Психолингвистика двадцать первого века: четыре краеугольных камняпод ред. Энн Катлер. Лоуренс Эрлбаум, 2005)