САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

ФИЛОЛОГИЧЕСКИЙ ФАКУЛЬТЕТ

образовательная программа магистратуры "Прикладная, экспериментальная и
математическая лингвистика"

РЕЦЕНЗИЯ

на выпускную квалификационную работу студента Екатерины Владимировны Протопоповой, выполненную на тему:

«ПАРАЛЛЕЛЬНЫЙ КОНКОРДАНС: ПОИСК И РАНЖИРОВАНИЕ ПЕРЕВОДНЫХ КОНТЕКСТОВ ДЛЯ ИЛЛЮСТРАЦИИ ПЕРЕВОДОВ В МАШИННОМ СЛОВАРЕ»

Актуальность ВКР, новизна.

В.Протопоповой является интегральным и находится на пересечении сразу нескольких областей лингвистических работ: традиционная и компьютерная одноязычная и многоязычная лексикография, машинный перевод, лингвистика конструкций и дистрибутивная семантика, статистические методы обработки наблюдений и машинное обучение.

Основная цель исследования, а именно разработка параллельного конкорданса для машинного переводного словаря, выводит диссертацию Е. В.Протопоповой на передовую современных научных работ в мировой компьютерной лингвистике. Проблема автоматического извлечения иллюстраций для переводного словаря до сих пор не нашла общепринятого решения. Поэтому проект Е. В.Протопоповой восполняет пробел, существующий в данной области.

Оценка содержания работы.

В диссертации Е. В.Протопоповой присутствуют и фундаментальная, и прикладная составляющие.

Автор провел колоссальную работу с лексикографическими источниками, чтобы подтвердить свое предположение о том, что на сегодняшний день лексикография не предлагает последовательного и убедительного ответа на вопрос о том, что такое по сути иллюстративные примеры, какими признаками они должны обладать и по каким принципам выбираться из корпусов текстов.

Обобщив данные об иллюстративных блоках более чем в двух десятках словарей, автор предлагает свои критерии отбора примеров, делая акцент на том, что по своей природе это конструкции, сочетания различной степени устойчивости. Поэтому на следующем своем шаге Е. В.Протопопова исследует словари сочетаемости и пытается вывести закономерности лексикографирования конструкций. Тем самым, автор подготовил надежный теоретический фундамент для практической реализации собственной разработки.

Особенностью экспериментальной части исследования является ее ориентация на ряд передовых лингвистических сервисов, а именно, на инструмент «Яндекс. Перевод». В качестве источника данных использовался выровненный параллельный корпус компании «Яндекс» с морфосинтаксической аннотацией. При работе с корпусом использовался ряд инструментов (GIZA++, SyntAutom и ряд других). В ходе экспериментов использовалось авторское программное обеспечение, основанное на библиотеках scikit-learn для языка Python.

На основе корпуса строится ранжирующий классификатор, позволяющий отбирать наиболее подходящие друг другу переводные пары конструкций. Для обучения классификатора была подготовлена эталонная выборка контекстов для переводных эквивалентов. Работа классификатора опирается на ряд факторов: оценка по языковой модели, относительная частота контекста, взаимная информация, векторные модели, семантическая близость. Классификация производилась с помощью двух алгоритмов – случайного леса и нейронной сети прямого распространения с одним скрытым слоем.

Автором произведена оценка значимости признаков классификации, которая показала важность взаимной информации и компонентов языковой модели (триграммная модель и частеречная разметка). Эти признаки как раз отражают формальные и содержательные характеристики иллюстративных примеров в исследованных словарях.

Результаты работы классификатора прошли лингвистический анализ, диссертантом предложено структурное описание ошибочных решений (ошибки в форме примера: грамматически неправильные фразы, слова в несловарной форме и т. д., ошибки в значении примера: несвязанные слова, пословный перевод и т. д.).

Результаты ранжирования переводных конструкций прошли оценку по параметрам точности и аккуратности (соответственно, 0,83 и 0,74). Думается, что при продолжении работы эти показатели могут возрасти.

Положительные стороны ВКР.

1)  Магистерская диссертация Е. В.Протопоповой представляет собой законченное исследование высокой научной значимости с практическим внедрением результатов. Однозначно, это солидный задел для работы более высокого уровня.

2)  Текст ВКР написан прекрасным научным языком, автор сумел и заинтересовать читателей, и убедить в важности и высоком качестве полученных данных.

3)  Теоретические разделы содержат практически исчерпывающий и объективный обзор существующей литературы по вопросу и рекомендуются к публикации в виде учебного пособия по курсам «Переводная лексикография» и «Компьютерная лексикография».

4)  Практические разделы содержат и ясное описание алгоритмов, и хода работы, и процедуры обработки результатов и их оценки.

5)  Высокую ценность имеют представительные приложения, в которых отражены материалы, полученные автором диссертации и вошедшие в иллюстративный блок сервиса Яндекс. Перевод.

Практическое значение работы.

Содержание проекта и основные результаты представляют серьезный интерес для специалистов, работающих в области компьютерной лингвистики и интеллектуальных технологий, особенно для тех ученых, которые разрабатывают современные системы машинного перевода. В.Протопоповой отличается многозадачностью, и данные, поставляемые на каждом из этапов, имеют большую значимость.

Недостатки и замечания по ВКР отсутствуют.

По ходу знакомства с ВКР у заинтересованного читателя возникли вопросы дискуссионного характера.

1) При работе со словарями рассматривались прежде всего источники, ориентированные либо на русский, либо на английский, либо на оба языка. Попадали ли в поле зрения автора словари для других языков и языковых пар, где принципы подбора иллюстративных примеров были бы четко продекларированы и обоснованы?

2) Хотелось бы узнать мнение автора диссертации об универсальности предложенного метода. Насколько возможно его использование в работе с другими языковыми парами, его перенесение в многоязычные словари? Допустима ли его модификация для работы не с бинарными, а с тернарными конструкциями?

3) Решение автора относительно экспериментов с мультиклассификацией представляется особенно любопытным. Почему было выбрано именно решение объединения бинарных классификаторов методом случайного леса? Есть ли альтернативные алгоритмы, производящие не бинарную, а n-арную классификацию?

Выпускная квалификационная работа Е. В.Протопоповой соответствует основным требованиям, предъявляемым к работам данного уровня, а автор заслуживает присвоения степени магистра филологии.

Рекомендуемая оценка ВКР: «отлично».

Научный руководитель: Митрофанова Ольга Александровна, кандидат филологических наук, доцент кафедры математической лингвистики

« 2 » июня 2016 г. _________________

(подпись)

Основные порталы (построено редакторами)

Домашний очаг

ДомДачаСадоводствоДетиАктивность ребенкаИгрыКрасотаЖенщины(Беременность)СемьяХобби
Здоровье: • АнатомияБолезниВредные привычкиДиагностикаНародная медицинаПервая помощьПитаниеФармацевтика
История: СССРИстория РоссииРоссийская Империя
Окружающий мир: Животный мирДомашние животныеНасекомыеРастенияПриродаКатаклизмыКосмосКлиматСтихийные бедствия

Справочная информация

ДокументыЗаконыИзвещенияУтверждения документовДоговораЗапросы предложенийТехнические заданияПланы развитияДокументоведениеАналитикаМероприятияКонкурсыИтогиАдминистрации городовПриказыКонтрактыВыполнение работПротоколы рассмотрения заявокАукционыПроектыПротоколыБюджетные организации
МуниципалитетыРайоныОбразованияПрограммы
Отчеты: • по упоминаниямДокументная базаЦенные бумаги
Положения: • Финансовые документы
Постановления: • Рубрикатор по темамФинансыгорода Российской Федерациирегионыпо точным датам
Регламенты
Термины: • Научная терминологияФинансоваяЭкономическая
Время: • Даты2015 год2016 год
Документы в финансовой сферев инвестиционнойФинансовые документы - программы

Техника

АвиацияАвтоВычислительная техникаОборудование(Электрооборудование)РадиоТехнологии(Аудио-видео)(Компьютеры)

Общество

БезопасностьГражданские права и свободыИскусство(Музыка)Культура(Этика)Мировые именаПолитика(Геополитика)(Идеологические конфликты)ВластьЗаговоры и переворотыГражданская позицияМиграцияРелигии и верования(Конфессии)ХристианствоМифологияРазвлеченияМасс МедиаСпорт (Боевые искусства)ТранспортТуризм
Войны и конфликты: АрмияВоенная техникаЗвания и награды

Образование и наука

Наука: Контрольные работыНаучно-технический прогрессПедагогикаРабочие программыФакультетыМетодические рекомендацииШколаПрофессиональное образованиеМотивация учащихся
Предметы: БиологияГеографияГеологияИсторияЛитератураЛитературные жанрыЛитературные героиМатематикаМедицинаМузыкаПравоЖилищное правоЗемельное правоУголовное правоКодексыПсихология (Логика) • Русский языкСоциологияФизикаФилологияФилософияХимияЮриспруденция

Мир

Регионы: АзияАмерикаАфрикаЕвропаПрибалтикаЕвропейская политикаОкеанияГорода мира
Россия: • МоскваКавказ
Регионы РоссииПрограммы регионовЭкономика

Бизнес и финансы

Бизнес: • БанкиБогатство и благосостояниеКоррупция(Преступность)МаркетингМенеджментИнвестицииЦенные бумаги: • УправлениеОткрытые акционерные обществаПроектыДокументыЦенные бумаги - контрольЦенные бумаги - оценкиОблигацииДолгиВалютаНедвижимость(Аренда)ПрофессииРаботаТорговляУслугиФинансыСтрахованиеБюджетФинансовые услугиКредитыКомпанииГосударственные предприятияЭкономикаМакроэкономикаМикроэкономикаНалогиАудит
Промышленность: • МеталлургияНефтьСельское хозяйствоЭнергетика
СтроительствоАрхитектураИнтерьерПолы и перекрытияПроцесс строительстваСтроительные материалыТеплоизоляцияЭкстерьерОрганизация и управление производством