БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
На правах рукописи
УДК 811.11
Зенькова
Анастасия Сергеевна
Применение информационных технологий в исследовании лингвистических особенностей политического дискурса
Выпускная работа по
«Основам информационных технологий»
Магистрантки кафедры английского языкознания
Специальность 1германские языки
Научные руководители:
кандидат филологических наук ,старший преподаватель
МИНСК 2012
ГРАФ НАУЧНЫХ ИНТЕРЕСОВ
Магистрантки , филологический факультет
Специальность «Германские языки»
Смежные специальности
| Основная специальность
| сопутствующие
|
ОГЛАВЛЕНИЕ
ГРАФ НАУЧНЫХ ИНТЕРЕСОВ.. 2
ОГЛАВЛЕНИЕ.. 3
СПИСОК ОБОЗНАЧЕНИЙ.. 4
ГЛАВА 1. 6
ОБЗОР ЛИТЕРАТУРЫ... 6
ГЛАВА 2. 14
МЕТОДИКА ИССЛЕДОВАНИЯ.. 14
ГЛАВА 3. 15
ОСНОВНЫЕ РЕЗУЛЬТАТЫ... 15
ГЛАВА 4. 16
ОБСУЖДЕНИЕ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ.. 16
ЗАКЛЮЧЕНИЕ.. 18
СПИСОК ЛИТЕРАТУРЫ... 19
ПРИЛОЖЕНИЕ А ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ. 20
ПРИЛОЖЕНИЕ Б ИНТЕРНЕТ РЕСУРСЫ В ОБЛАСТИ ИССЛЕДОВАНИЯ.. 21
ПРИЛОЕНИЕ В ДЕЙСТВУЮЩИЙ ЛИЧНЫЙ САЙТ. 22
http://zenkovanastya. *****/ПРИЛОЖЕНИЕ Д.. 22
ПРИЛОЖЕНИЕ Д.. 23
ТЕСТОВЫЕ ВОПРОСЫ ПО ИТ. 23
ПРИЛОЖЕНИЕ Г ГРАФ НАУЧНЫХ ИНТЕРЕСОВ.. 24
ПРИЛОЖЕНИЕ Е ПРЕЗЕНТАЦИЯ МАГИСТОРСКОЙ ДИССЕРТАЦИИ.. 26
СПИСОК ОБОЗНАЧЕНИЙ
ИТ – информационные технологии
НИТ – новые информационные технологии
КТ – компьютерные технологии
КИТ – компьютерные информационные технологии
ПК – персональный компьютер
ИОТ – информационные образовательные технологии
ИТО – информационные технологии обучения
ИП – информационный подход
ЗУН – знания, умения и навыки
ГИС – глобальные информационные сети
ЭВМ – электронно-вычислительная машина
WRB - Wh-наречие
PSS - личное местоимение 3 л., ед. ч.
VB - инфинитив или глагол не 3-е л., ед. ч.
AT - опр. артикль
NN - существительное ед. ч.
MD - модальный глагол
RP - послелог
DTI - предопределитель
CC - сочинительный союз
CS - подчинительный союз
BER - глагол be, 3 л., ед. ч.
VBG - participle I или герундий
ВВЕДЕНИЕ
Выполняя функции источника и хранителя информации, язык одновременно является способом выражения накопленного знания и базой для формирования нового. Как «носитель информации» конкретный язык выступает в качестве инструмента социальной наследственности, благодаря которому человек может обращаться к знаниям и опыту предыдущих поколений, чтобы затем получать новые знания. Именно поэтому с помощью языка в процессе активной познавательно-трудовой деятельности человеку удалось радикально изменить информационную картину мира.
Развитие цивилизации влечет за собой неуклонный рост объема накопленных человечеством знаний. Миллионы книг и рукописей содержат информацию по многочисленным отраслям науки и культуры, но их все больше заменяют электронные носители. Уже сейчас существуют электронные версии многих книг, популярные печатные издания выходят как в бумажном, так и в электронном виде, количество документов в сети Интернет растет экспоненциально. В связи с этим возникает множество проблем, таких как классификация, анализ, поиск информации, решение которых сопряжено с интеллектуальной обработкой больших массивов текстов на естественном языке.
Наибольшую потребность в обработке и анализе больших объемов текста испытывают ученые во всех областях. В последнее время их задачу облегчили инновационные информационные технологии, таких как статистическая обработка текста, автоматическое реферирование и другие. Для работы над темой «Лингвостилистические средства воздействия на массово сознание», было выбрано именно реферирование, в связи с большим объемом информации
ГЛАВА 1
ОБЗОР ЛИТЕРАТУРЫ
Целью автоматического реферирования является формирование небольшого информативного текста – реферата, способного донести до пользователя, то основное, что несет в себе исходный документ. Машинный реферат обычно составляется из предложений исходного документа. В соответствии с определенными критериями предложения взвешиваются по важности. Наиболее весомые предложения, идущие в том порядке, в котором они встречались в тексте, попадают в реферат. Далее возможна небольшая стилистическая корректировка для придания реферату большей связности и естественности.
В зависимости от конкретных задач можно говорить о различных типах рефератов. Реферат может быть тематическим: выделяется информация по заданной теме (ключевым словам), которая задается пользователем. Если тема не задана, то говорят об общем реферате. Кроме того, конечным результатом может быть не обязательно связный текст, а, например, список ключевых слов, набор семантических отношений, визуальное представление, заполненные поля некоторой структуры данных (для документов имеющих строго определенную структуру, например, патентов) и др.
Для реферата в виде связного текста заключительная выборка предложений может быть основана на коэффициенте сжатия, говорящем во сколько раз уменьшать исходный текст. Применяются также и пороговые числа, указывающие минимальный нормированный вес предложения для его включения в реферат.
Однако общая структура системы автоматического реферирования остается неизменной. Выделяются три взаимосвязанных этапа: анализа входного текста, взвешивания (оценивания) его элементов (слов, словосочетаний, предложений и др.) и непосредственно генерации реферата. Самым трудоемким из них является этап автоматического анализа, который может состоять из нескольких стадий: лексического, лексико-грамматического, синтаксического и семантического анализа. Современное состояние разработок в области автоматического анализа таково, что полностью успешно реализуется только лексический и лексико-грамматический анализ. Построение же синтаксического и семантического анализаторов сопряжено с рядом проблем, являющихся причиной свойств самого ЕЯ. В зависимости от глубины проводимого автоматического анализа различают системы реферирования с опорой на знания (проводится, как минимум синтаксический анализ) и без опоры на знания (проводятся первые одна или две стадии анализа). Тип системы обуславливает алгоритмы, используемые на этапах взвешивания и генерации реферата.
При проектировании системы автоматического реферирования должен быть решен обширный круг научных проблем.
Лингвистические проблемы заключаются в формировании необходимых знаний о языке, построении словарей, составлении грамматических, синтаксических и семантических правил, подготовке текстовых материалов и др.
Математические проблемы включают вопросы теории вероятности и математической статистики, теории формальных грамматик, теории графов и др.
Алгоритмические проблемы и проблемы машинной реализации заключаются в составлении оптимальных алгоритмов, эффективно реализующих математические методы, в обеспечении хранения, доступа и пополнения лингвистических знаний, в организации обмена информацией, как между частями системы, так и между системой и человеком.
Одним из ключевых элементов любой системы автоматического анализа текста является лингвистический процессор (ЛП). Задача ЛП — преобразование естественно-языкового текста в некоторый набор элементов, являющихся формальным представлением его смысла.
Классическая структура лингвистического процессора содержит три последовательных блока — для морфологического, синтаксического и семантического анализа текста. Кроме того, при подготовке исходных данных для работы ЛП может использоваться блок лексического анализа, осуществляющий фрагментацию исходного текста на предложения, а затем на слова и знаки пунктуации. Лексический анализ не представляет серьезных проблем для программной реализации, однако, требует высокой точности алгоритмов. Ошибки на данном этапе очень сильно сказываются на общих характеристиках и презентабельности системы. Целью лексико-грамматического анализа является разбор входного потока слов с распознаванием частей речи: существительное, прилагательное, глагол, наречие и т. д., а также других морфологических параметров, таких как род, число, падеж и др.
1.1 Лексико-грамматический анализ
В английском языке простейший алгоритм, присваивающий каждому слову в тексте наиболее вероятный для данного слова лексико-грамматический класс, работает с точностью около 90% [2], что обусловлено лексической многозначностью английского языка. Для улучшения точности лексико-грамматического анализа используются два типа алгоритмов: вероятностно-статистические и основанные на продукционных правилах, оперирующих словами и кодами.
В настоящее время информационная основа ЕЯ для задач АПТ задается в виде корпусов текстов (КТ). Корпус текстов представляет собой специально подобранную коллекцию текстов конкретного ЕЯ. Существуют определенные критерии формирования этих коллекций, основным из которых является представительность. Т. е. корпус должен отражать основное лингвистическое поведение естественного языка. КТ, как правило, априорно раскрашены. Разрабатывается классификация свойств данного ЕЯ на определенном уровне глубины языка. Для задачи лексико-грамматического анализа – на лексико-грамматическом уровне. Классификация заключается в построении системы кодов для элементов уровня, т. н. классификатора. Раскраска корпуса (т. е. приписывание каждому слову единственного кода из классификатора) осуществляется группой экспертов-лингвистов с применением средств автоматизации. Раскрашенный корпус текстов называется корпусом виртуальных текстов (КВТ). Основные назначения такого корпуса это тестирование лингвистических гипотез и получение количественных характеристик для количественного измерения свойств ЕЯ.
Большинство вероятностно-статистических алгоритмов использует два источника информации:
1. Словарь словоформ языка, в котором каждой словоформе соответствует множество лексико-грамматических классов, которые могут иметься у данной словоформы. Например, для словоформы well в словаре указано, что она может быть наречием, существительным, прилагательным и междометием. Для каждого лексико-грамматического класса словоформы указывается частота его встречаемости относительно других лексико-грамматических классов данной словоформы. Частота обычно подсчитывается на корпусе текстов, в котором предварительно вручную каждому слову приведен в соответствие лексико-грамматический класс. Таким образом, словоформа well в словаре будет представлена следующим образом:
well noun 4 occurences in corpus
well adverb 1567 occurences in corpus
well adjective 6 occurences in corpus
well interjection 1 occurences in corpus
№. Информацию о встречаемости всех возможных последовательностей лексико-грамматических классов. В зависимости от того, как представлена данная информация, разделяют биграмную, триграмную и квадриграмную модели. В биграмной модели используется информация обо всех возможных последовательностях из двух кодов:
неопр. артикль + сущ. ед. ч. 35983 occurences in corpus
неопр. артикль + сущ. мн. ч. 7494 occurences in corpus
опр. артикль + сущ. ед. ч. 13838 occurences in corpus
неопр. артикль + сущ. мн. ч. 47 occurences in corpus
неопр. артикль + глагол 3 л., ед. ч. 0 occurences in corpus
глагол 3 л., ед. ч. + предлог 3744 occurences in corpus
В триграмной модели и квадриграмной модели используется соответственно информация обо всех возможных последовательностях из 3-х и 4-х кодов.
Для нахождения наиболее вероятного лексико-грамматического класса для каждого слова в предложении эта информация обрабатывается программой, использующей статистические алгоритмы, чаще всего основанные на скрытых цепях Маркова [2, 3]. Наибольшее распространение получил алгоритм Баума-Уэлша, также известны реверсивный алгоритм, алгоритм Витерби, алгоритм байесовских сетей и др.[3]
Алгоритмы, основанные на продукционных правилах, используют правила собранные автоматически с корпуса текстов [4], либо подготовленные квалифицированными лингвистами. Примером могут быть следующие правила:
“Если некоторая словоформа вне контекста может быть как глаголом, так и существительным, и перед ней в тексте стоит артикль, то эта словоформа в данном случае является существительным”,
“Если словоформа может быть как предлогом, так и подчинительным союзом, и если после нее в тексте до конца предложения нет глагола, эта словоформа в данном случае является предлогом”.
Оба подхода дают примерно одинаковый результат. При их использовании раздельно либо в различных комбинациях точность лексико-грамматического анализа улучшается до 96-98 %. Поскольку точность при анализе текста вручную также имеет определенную погрешность (0,5-2 %, согласно сведениям, предоставленным создателями Penn Treebank), можно считать, что точность лексико-грамматического анализа в автоматическом режиме практически достигла точности в ручном режиме.
3.2 Синтаксический анализ
При синтаксическом анализе текста на естественном языке основной проблемой является разрешение синтаксических неоднозначностей. К этой проблеме существуют два подхода: формально-грамматический и вероятностно-статистический. Первый направлен на создание сложных систем правил, которые позволяли бы в каждом конкретном случае принимать решение в пользу той или иной синтаксической структуры; второй - на сбор статистики встречаемости различных структур в похожем контексте, на основе которой и принимается решение о выборе варианта структуры. И хотя первый подход может обеспечить более высокую точность анализатора, второй нередко оказывается практичнее.
В современных зарубежных разработках большое внимание уделяется именно статистическим схемам анализа. Основу большинства статистических методов анализа составляют так называемые PCFG-грамматики (probabilistic context-free grammars), являющиеся, по сути, КС-грамматиками (контекстно-свободными), в которых каждое правило дополнено некоторой вероятностной оценкой. Хотя использование простой КС-грамматики не позволяет достигнуть требуемой степени точности анализа, различные схемы анализа, построенные на расширениях КС-грамматик, успешно используются в современных естественно-языковых системах.
Формально PCFG-грамматику можно представить как совокупность правил вида
P(Ni ® Tai | Tbi | ... |Tzi ) = qNi,
где N — нетерминал, i — номер варианта интерпретации нетерминала N (i Í1..M(N), где M(N) — число интерпретаций нетерминала N), Ta, ... Tz — термы, qNi — вероятность данной интерпретации нетерминала N.
Очевидным недостатком PCFG-грамматик (и вообще КС-грамматик, применяемых к анализу ЕЯ-текстов) является их слабая “лингвистичность”, т. е. невозможность учитывать разнообразные языковые конструкции, которые часто являются контекстно-зависимыми. Кроме этого, в основе PCFG-грамматики лежит допущение, что все вероятности qNi = const, иными словами, не зависят от контекста. Однако в [5] представлены данные, опровергающие это предположение. Анализ большого объема текстов показал, что частота встречаемости различных синтаксических конструкций Ni в ЕЯ-текстах сильно зависит от той роли, которую они играют в предложении.
ГЛАВА 2
МЕТОДИКА ИССЛЕДОВАНИЯ
По каждому аспекту выбранной научной темы, будь то лингвистика, психология или социология, предлагаются многочисленные труды для ознакомления. Этот список включает научные диссертации, рефераты, статьи, пособия, учебники, хрестоматии. Помимо этого в круг исследования входят и многочисленные речи политических лидеров. Следовательно, для того, чтобы из общей массы выбрать наиболее подходящий материал без значительной затраты времени, необходимо прибегнуть к помощи ИТ. При работе с текстами о воздействии на массовое сознание, в качестве наиболее доступного и приемлемого способа анализа, было выбрано автоматическое реферирование, а именно программа «Shvoong», которая доступна в Сети каждому. Для реферирования подходят тексты, как на русском, так и на английском языках, что еще более облегчило нашу работу. Кроме того, задается запланированный результат реферирования в процентах.
Таким образом, в наших исследованиях для наглядного примера реферирования выбрано выступление Б. Клинтона. Приблизительный процент обработанного текста на выходе – 30%(см. Приложение).
ГЛАВА 3
ОСНОВНЫЕ РЕЗУЛЬТАТЫ
Основным материалом для обработки послужили диссертации, научные статьи и речи политических лидеров. Все содержание выбранных текстов сводилось к 30% от основного. В результате автоматического реферирования было обработано 10 научных трудов. Из них после анализа 6 подошли для дальнейшего использования в работе. Реферирование выступлений также помогло выявить, какие из них наиболее подходят по содержанию для исследования, наиболее логически и выразительно выстроены
ГЛАВА 4
ОБСУЖДЕНИЕ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ
Целью методов оценки рефератов является определения адекватности (и достоверности) или пользы реферата по отношению к оригинальному тексту. Сейчас известны две методики оценки. Первая – оценка «изнутри» (или нормативная оценка). Пользователи судят о качестве реферата, анализируя сам реферат. Они оценивают гладкость текста, делают вывод о том, насколько хорошо реферат отражает основные идеи оригинала, либо сравнивают его с идеальным рефератом, написанным автором исходного текста или другим специалистом. Ни одна из этих оценок не может считаться полностью удовлетворительной. В частности, идеальный реферат составить исключительно сложно, и такие продукты очень редки. Подобно тому, как существует множество способов описать некое событие, пользователи могут признать приемлемыми несколько рефератов, будь то настроенные на пользователя (тематические рефераты) или общие краткие изложения или наборы выдержек. Как показывает практика, люди вообще редко приходят к согласию относительно того, какие положения или выражения следует включать в реферат [11].
Второй метод – оценка «извне». Пользователи оценивают качество реферата по тому, как он влияет на завершение той или иной работы, например, помогает ли он найти источники информации по данному вопросу или насколько хорошо он позволят ответить на определенные вопросы, относящиеся ко всему содержанию текста.
Автоматическое реферирование проводилось на ряде русскоязычных и англоязычных документов. При этом использовался метод оценки “изнутри”, т. е. оценивалась информативность и связность самого реферата. Несмотря на небольшое количество лингвистических правил первоначально заложенных в систему (шаблоны со словами-подсказками, информативные слова, связующие слова и др.), в целом результаты следует признать хорошими. Эти результаты могут быть улучшены при соответствующей настройке системы (а в первую очередь, настройке словарей) на какой-то определенный тип документа и/или предметную область (с помощью эксперта-лингвиста).
В приложении приведен исходный текст и машинный реферат, синтезированный системой, составляющий 30% от его объема.
ЗАКЛЮЧЕНИЕ
Сравнивая реферат и исходный текст, следует отметить, что несомненным достоинством системы реферирования, также относящейся к системам без опоры на знания, является выделение словосочетаний. Однако не реализован в полной мере механизм слов-подсказок и позиционный метод (нет анализа заголовка/подзаголовков), не учитывается также различная информативность частей речи. Все это, впрочем, частично компенсируется за счет оценок, учитывающих взаимное расположение смысловых структур (для этого строится ассоциативная семантическая сеть, основанная на частоте встречаемости понятий вблизи друг друга).
Работа с данной системой реферирования показала свою результативность, а значит, в будущем найдет широкое применение в нашей дальнейшей научной деятельности.
СПИСОК ЛИТЕРАТУРЫ
1. Басалыга, компьютерной грамотности. Производ. Практ. Пособие / , , . –– 3-е изд., перераб. И доп. –– Минск, НТЦ «АПИ», 2002. –– 332 с.
2. Совпель -лингвистические принципы, методы и алгоритмы автоматической переработки текста. Мн., 1991.
3.Тюрин, анализ данных на компьютере / , ; под ред. . –– Москва, Инфра-М, 1998. ––528 с.
4. Udo Hahn, Inderjeet Mani. The Challenges of Automatic Summarization // IEEE Computer, November 2000, pp. 29-36.
5.Ссылки на Интернет ресурсы, использованные в реферате:
· http://www. cs. brown. edu/research/ai/dynamics/tutorial/Documents/
HiddenMarkovModels. html
· http://citforum. *****/programming/digest/avtestlang. shtml
· http://ru. /summarizer/
ПРИЛОЖЕНИЕ А
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ
К
корпус текста, 7
Л
лингвистический процессор 5
лексический анализ, 11
лексико-грамматический анализ,11
“лингвистичность”,14
Н
новые информационные технологии, 15
П
программа математической статистики, 9
С
синтаксический анализ, 14
У
универсальные статистические пакеты, 12
ПРИЛОЖЕНИЕ Б
ИНТЕРНЕТ РЕСУРСЫ В ОБЛАСТИ ИССЛЕДОВАНИЯ
http://genhis. philol. *****/article_262.shtml
Сайт кафедры сравнительно-исторического языкознания МГУ. Очень часто размещаются любопытные научные статьи, с грамотной подачей и обоснованными предположениями.
http://psyfactor. org/lib/zelinski-01.htm
Психологический сайт, объясняет феномен манипуляции с точки зрения психологии. Считаю, очень полезной данную ссылку, т. к. информация представлена компактно и структурировано.
http://www. *****/info/bibliothek/ru/smi-po..
Практичный сайт с минимумом теории и конкретными примерами исследования воздействия СМИ на массовое сознание.
http://www. *****/it2b2.view3.page379.html
Любопытный сайт разведки, раскрывающий также многие секреты манипулирования людьми. Не смотря на то, что сайт занимается практической стороной воздействия, имеются подробные лингвистические описания явлений.
http://*****/sosh/Imidzh
Работа, посвященная роли имиджа в воздействии на массовое сознание. Приведены обоснованная теория и яркие примеры.
http://www. *****/library/s55/s64/d423.html...
Неплохой сайт с описанием воздействия на сознание при помощи различных техник и технологий.
http://www. *****/propaganda
Сайт научно-популярного исторического журнала, где можно найти подробную информацию о том, как все начиналось, откуда у воздействия на массовое сознание «ноги растут».
http://www. *****/columns/Professiya-propagand...
Полезный сайт для структурирования информации о воздействии на массовое сознании
ПРИЛОЕНИЕ В
ДЕЙСТВУЮЩИЙ ЛИЧНЫЙ САЙТ
http://zenkovanastya. *****/

ПРИЛОЖЕНИЕ Д
ТЕСТОВЫЕ ВОПРОСЫ ПО ИТ
<?xml version="1.0" encoding="windows-1251"?>
<questions>
<question type="close" id="0079">
<text>Чему равен 1 байт?</text>
<answers type="request">
<answer num="1" right="0">4</answer>
<answer num="2" right="0">6</answer>
<answer num="3" right="1">8</answer>
<answer num="4" right="0">10</answer>
</answers>
</question>
</questions>
<?xml version="1.0" encoding="windows-1251"?>
<questions>
<question type="close" id="79079">
<text>Какое устройство не является переферийным?<text>
<answers type="request">
<answer num="1" right="1">Сканер</answer>
<answer num="2" right="0">Модем</answer>
<answer num="3" right="0">Принтер</answer>
<answer num="4" right="0"> Жесткий диск</answer>
</answers>
</question>
</questions>
ПРИЛОЖЕНИЕ Г
ГРАФ НАУЧНЫХ ИНТЕРЕСОВ
Магистрантки , филологический факультет
Специальность «Германские языки»
Смежные специальности
| Основная специальность
| сопутствующие
|
ПРИЛОЖЕНИЕ Е
ПРЕЗЕНТАЦИЯ МАГИСТОРСКОЙ ДИССЕРТАЦИИ









