Работа с естественными языками

Работа с естественными языками .doc

Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.

Введение

Лингвистическая обработка естественных языков является одной из центральных проблем интеллектуализации информационных технологий. Этой проблеме уделяется значительное внимание в развитых странах Европы и США, свидетельством чего является выделение огромных средств на разработку лингвистического программного обеспечения.
Большое количество научно-исследовательских программ направлено на развитие лингвистических информационных систем. В связи с бурным развитием Интернета, других компьютерно-коммуникационных технологий эта проблема приобретает еще большую значимость.
Еще с середины 50-х годов прошлого века значительные усилия ученых были направлены на разработку математических алгоритмов и компьютерных программ обработки текстов на естественном языке. Для автоматизации анализа и синтеза текстов создавались разнообразные модели процессов обработки текста, а также соответствующие алгоритмы и структуры представления данных.
Традиционно анализ естественных языков представлялся как последовательность действий - морфологический анализ, синтаксический анализ, семантический анализ. Для каждого из этих этапов были созданы соответствующие модели и алгоритмы.
Наиболее сложные проблемы обработки естественных языков обусловлены явлениями полисемии, омонимии и т.д., которые привносят в язык неоднозначность и значительно усложняют задачу установления корректного отображения семантически синтаксической структуры текста в его формальное логическое представление. Но все эти проблемы решаются на уровне семантического анализа.

1. Основные проблемы при работе с естественными языками

За два последних века человечество успешно справилось с автоматизацией многих задач используя механические и электрические приборы. Во второй половине ХХ века внимание человека обращается и к автоматизации обработки естественного языка. Теперь человеку необходима помощь не только с механической работой, но и с интеллектуальными задачами. Человечество хочет, чтобы машина была способна читать неподготовленный текст, проверять его на ошибки, выполнять задачи, поставленные в тексте.
Проблему обработки естественного языка нельзя назвать простой. Трудности возникают по ряду объективных причин, вроде существования сотен естественных языков, в каждом из которых действуют свои синтаксические правила. В рамках одного языка существуют слова, которые могут иметь разный смысл в зависимости от контекста употребления. Даже на уровне отдельных символов встречаются определенные трудности.
Исследованию по работе с естественными языками посвящено много публикаций в зарубежной науке, в частности исследования таких ученых, как D. Jurafsky [1], R. M. Reese [2], Y. Goldberg [3]. В российской компьютерной лингвистике вопросам обработки естественного языка и автоматического синтаксического анализа посвящены исследования Сачков В. Е. [5], Фурсов П. А. [6], Калинина Л. В. [7], Суюнбаева А. Ж. [8], Гончарова А. А. [9], Губин М. Ю. [10].
В процессе работы с естественными языками всегда следует учитывать кодировку, используемую в конкретном документе. Текст может храниться в различных кодировках: ASCII, UTF-8, UTF-16 или Latin-1. Особые виды обработки могут понадобиться для знаков пунктуации и для чисел. Иногда приходится отдельно обрабатывать использование знаков, которые отражают эмоции (комбинации символов или специальные символы), гиперссылок, знаков препинания повторяющиеся (... или ---), расширений файлов и имен пользователей, содержащих точки [2].
Под распределением текста на фрагменты или элементы обычно имеется в виду представление текста в виде последовательности слов. В этом случае слова обозначаются термином "лексический элемент", "лексема", или просто "токен" (token), а процесс разделения текста - называется "токенизация" (tokenization). Этот процесс не вызывает особых трудностей в языках, использующих пробельные символы для разделения слов, но в языках, подобных китайскому, это сделать гораздо труднее, поскольку иероглифы могут обозначать как склады, так и целые слова

Зарегистрируйся, чтобы продолжить изучение работы

. Да и в английском языке с процессом токенизации могут возникнуть определенные трудности, ведь существует большое количество альтернативных вариантов, когда одно слово может писаться слитно, раздельно или через дефис [2].
Определение границ предложений связано с определенными трудностями, хотя на первый взгляд кажется, что достаточно только найти точку, обозначающую конец предложения. Но точки могут встречаться и внутри предложений, например, после сокращенных слов [1].
При грамматическом разборе все еще возникают серьезные проблемы с точностью. Во-первых, многое здесь зависит от качества морфологической разметки (part-of-speech tagging), которая должна быть очень высокой (97-98%), однако в длинных предложениях очень часто можно встретить неправильно распознанную определенную часть речи, что приводит к дальнейшим ошибкам разбора. Во-вторых, современный автоматический синтаксический разбор дает точность примерно 90-93%, а это, в свою очередь, означает, что в длинном предложении практически всегда будут ошибки разбора. Например, при точности разбора 90%, вероятность разбора предложения длиной 10 слов без единой ошибки составит всего 35%.
Современное состояние исследований дает надежду на улучшение качества разбора, однако часто правильный синтаксический разбор включает также понимание семантики предложения, но, например, в английском языке это нередко вызывает трудности. Так, в предложении "Не saw a man with a hammer" может быть два разных варианта синтаксического разбора в зависимости от того, считаем ли мы, что человека увидели с помощью молотка или увидели человека с молотком. Конечно, если нужно получить максимально точный синтаксический разбор, то имеет смысл оставлять несколько наиболее вероятных вариантов, а затем определять правильный по совокупности различных факторов, в том числе семантических.
Одной из самых открытых проблем при работе с естественными языками является неоднозначность (многозначность) ее единиц, которая определяется на всех его уровнях и выражается в явлениях полисемии, омонимии и синонимии. Говоря о неоднозначности, можно отметить лексическую (существование более чем одного значения слова, например, "bank") синтаксическую или структурную (когда одно предложение имеет несколько возможных вариантов грамматической структуры и, соответственно имеет другое значение, например проблема присоединения (attachment ambiguity), когда PP может присоединяться как к VP так и к NP в пределах одного предложения с изменением значения: "The police shot the rioters with guns ") семантическая неоднозначность (когда одно и то же предложение можно по-разному понимать в разных контекстах, хотя лексическая или структурная многозначность отсутствует: "all linguists prefer a theory"), прагматическая неоднозначность (когда одно предложение можно по-разному понимать в контексте, в котором оно существует "every student thinks he is a genius") [11].
Современные системы решения лексической многозначности имеют точность в диапазоне 60-70% и чаще всего, представлены как самостоятельные методы. Решение проблемы снятия неоднозначности потребует интеграции нескольких источников информации и методов [11].
Несмотря на все перечисленные трудности, технология обработки естественного языка в большинстве случаев способна достаточно успешно справиться со своими задачами, поэтому она является достаточно эффективной во многих отраслях.

2. Методы решения основных проблем при работе с естественными языками

Примерно в половине случаев при работе с естественными языками имеет место любая форма омонимии, и набор морфологических признаков оказывается недостаточным для ее решения. Уменьшить неоднозначность можно с помощью синтаксического и семантического анализа с использованием статистических методов, которые позволяют отбросить крайне маловероятные варианты

50% реферата недоступно для прочтения

Закажи написание реферата по выбранной теме всего за пару кликов. Персональная работа в кратчайшее время!

Работа с естественными языками

Зарегистрируйся, чтобы продолжить изучение работы

50% реферата недоступно для прочтения

Прикладная информатика в юриспруденции

Групповое вещание, стандартная модель, адреса, основные типы протоколов группового вещания

Устройство персонального компьютера