Корпусная лингвистика. Разработка корпуса политических статей, Корпусная лингвистика и ее применение в области преподавания иностранного языка - Компьютерная лингвистика в образовательной среде
Корпусная лингвистика и ее применение в области преподавания иностранного языка
"Корпусная лингвистика - раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий". [Захаров В. П., 2005 :3] Под корпусом текстов обычно понимают "унифицированный, структурированный и размеченный массив языковых (речевых) данных в электронном виде, предназначенный для определенных филологических и, более широко, гуманитарных изысканий". [Захаров В. П., 2003 :4 ] Корпус текстов может также рассматриваться "как сложно организованная онтология речевой деятельности, отражающая в себе все жанровое разнообразие представленного в нем рода словесности".
[Рыков В. В., 2003 :12] Он содержит в себе некую систему, позволяющую управлять как текстовыми, так лингвистическими данными, последнее время она все чаще носит название "корпусный менеджер" (или корпус-менеджер); англ. corpusmanager - специализированная поисковая система, включающая некоторые программные средства, обеспечивающие поиск данных по корпусу, сбора статистической информации и предоставляющая результаты в удобном формате.
Корпусная лингвистика как наука, направленная на анализ и создание корпусов текстов, зародилась в конце 60-х гг. в Западной Европе и США. Первый масштабный корпус на электронном носителе BrownCorpus был создан в Брауновском университете США в 1963г. учеными У. Френсисом и Г. Кучера. В его состав входили пятьсот прозаических печатных текстов (примерно по две тысячи слов), отражающих американский вариант английского языка. В корпусе было представлено пятнадцать наиболее известных жанров печатной англоязычной прозы в Северной Америке, он содержал материалы первичной статистической обработки - словари (частотный и алфавитно-частотный), всевозможные статистические распределения. Данный корпус вызвал волну всеобщего интереса и дискуссий в вопросах отбора текстов и соответствующих исследовательских задач, возникающих при их анализе.
В середине 80-х гг. с ростом компьютерных технологий, корпусная лингвистика начинает бурно развиваться, предвещая появление корпусных проектов более внушительного масштаба, на разных языках и для разных исследовательских целей. О.В. Нагель "Корпусная лингвистика и ее использование в компьютеризированном языковом обучении" 2008 г. 53-54С. Что касается английского языка, в это время были созданы такие корпуса, как Ланкастерский корпус (Lancaster-Oslo-BergenCorpus, LOB), Международный корпус английского языка (InternationalCorpusofEnglish), Британский национальный корпус (BritishNationalCorpus), лингв. Банк английского языка (BankofEnglish) и др. В области русского языка создается Уппсальским корпус, планируется и постепенно начинается работа по созданию НКРЯ (Национального корпуса русского языка).
Окончательно корпусная лингвистика как отдельный раздел науки в области языка сформировалась только в первой половине 1990-х гг. Тесно взаимодействуя с компьютерной лингвистикой, она не только использует основные ее достижения, но и обогащает ее посредством всевозможных исследований на базе корпуса.
Основные причины создания корпусов:
- 1) Большой (репрезентативный) корпус обеспечивает типичность данных и позволяет представить весь спектр языковых явлений; 2) исследуемые данные в корпусе представлены в контексте, их естественное употребление позволяет сделать наиболее объективные выводы; 3) хорошо обработанные и размеченные массивы текстов могут неоднократно использоваться при проведении различных исследований.
Главная особенность корпуса состоит в возможности построить конкорданс - список всех употреблений исследуемого слова в контексте с ссылками на источник. Также, корпус используют для всевозможных статистических данных о речевых или языковых единицах. Он позволяет отследить их частотность, грамматические категории, лексемы, понаблюдать за сочетаемостью тех или иных лексических элементов и т. д. Полученный массив текстовых данных в определенный период времени предоставляет возможность изучить процессы, касающиеся изменения лексического состава языка, позволяет проанализировать лексико-грамматические характеристики у разных авторов и в разных жанрах. Корпусы также могут быть использованы при написании разнообразных словарей. Данные корпусов могут быть основой для построения и уточнения грамматик, а также быть использованы в образовательных целях. Захаров В. П. Корпусная лингвистика: Учебно-метод. пособие. - СПб., 2005. - 2, 5 с.
Относительно типологии корпусов текстов, в прикладной лингвистике их разделяют на 6 категорий:
- 1) Исследовательские-предназначены для поиска и анализа аспектов функционирования языковой системы; 2) Иллюстративные, или учебные (LearnerCorpus) - созданы для наглядного представления лингвистических фактов, позволяют объяснить те или иные процессы в языке; 3) Мониторные-используются для исследования динамики языка, позволяют сделать контент-анализ различных тематических или корпусов различных жанров (например: корпус публицистики); 4) Статические-предоставляют данные о стиле (например: авторский корпус или корпуса писателей); 5) Мультимедийные -содержат в себе не только текстовые данные, но и предоставляют аудио-, видеоматериалы, иллюстрирующие живые процессы в языке; 6) Корпусы параллельных текстов- осуществляют сопоставительный анализ текста "оригинал - перевод", иллюстрируют основные механизмы и методы перевода. Данные корпуса представлены в двух видах: "оригинал-перевод/ы" (Unidirectional), "оригинал - перевод - обратный перевод" (Bidirectionalorreciprocal), упорядоченные параллельно. Соснина Е. П. "Корпусная лингвистика в обучении языкам" 2003.
В данной работе показан пример создания постоянно обновляющегося учебного корпуса.
Достижения в корпусной лингвистике все чаще находят применение и в сфере преподавания языков. В вузах по всему миру входит в практику использование корпусных данных в качестве наглядного материала как в лекциях, так и для самостоятельного изучения. На базе корпуса строятся всевозможные задания, проверочные работы и даже экзамены. Это решает одну из важнейших проблем в области преподавания: нехватка достаточного количества актуального и обновляющего материала, иллюстрирующего все процессы, происходящие в языке в определенном промежутке времени.
Корпусный подход является оптимальным для наглядного отражения таких аспектов языка, как географический, исторический, социальный; он передает основные изменения в языковой системе, а также оттачивает навыки использования в исследованиях корпусных данных.
Начиная с 90-ых г. исследователи активно использовали различные корпуса текстов для оценки реалий языка в его непосредственном употреблении. Подобные методы внесли значительный вклад в повышении качества языковых учебных пособий. На смену традиционных примеров, диктующих основные правила использования языка, приходят действительно актуальные примеры, взятые из реальных речевых актов людей (пример: устный корпус языка). Студенты, обучающиеся посредствам консервативных учебников, содержащих общепринятое описание письменного синтаксиса нередко не готовы воспринимать и понимать естественную речь, содержащую в себе нестандартные словоупотребления и сложные предложения.
В основном, использование корпусов является частью компьютеризированного языкового обучения (КЯО) (computerassistedlanguagelearning (CALL)). Современные системы образования (как в языковой, так в компьютерной сферах) все чаще внедряют так называемые NLP (naturallanguageprocessing) технологии, использующие "умные" методики в области обработки естественного языка. Они позволяют не только ответить на большинство вопросов в процессе изучения, но и способны дать оценку проделанной работе студента (например: анализ свободно оформленных эссе).
Бесспорно, использование компьютерных технологий значительно отличается от традиционных методов преподавания. Подобная подача материала позволяет фокусироваться на отдельных частях, привносит в процесс изучения некий элемент творчества.
Стоит отметить, что корпусные методы преподавания не всегда ограничены работой с компьютером. Результаты, полученные в ходе анализа корпусов (составление конкордансов) могут быть перенесены на раздаточный материал, использованы при составлении методического пособия, являться частью традиционного способа преподавания (на уроках, лекциях и т. д.). Особенно полезны современные печатные словари, базирующиеся на основе методик корпусной лингвистики (Oxford, Longman, Collins); книги, отражающие переосмысленную грамматику английского языка (LongmanGrammarofSpokenandWrittenEnglish, 2000 г.).McEnery T., Wilson A. "Corpus linguistics: an introduction. ". Edinburgh, 2001.
"В настоящее время корпусные методы зарекомендовали себя в мировой практике лингвистических исследований и преподавании иностранных языков. Эти методы сочетают в себе такие аспекты, как междисциплинарность, эмпирическая адекватность, аутентичность, гибкость и адаптация к конкретным задачам и целевым группам, возможность самостоятельной работы студента, применение метода "открытия" в обучении". [Нагель О. В, 2008: 10]
Похожие статьи
-
Автоматизированное извлечение текстов для корпуса политических статей сайта Lenta. ru Для создания полезного обучающего корпуса требуется постоянное...
-
Введение - Компьютерная лингвистика в образовательной среде
Современная система образования все чаще приветствует внедрение информационных технологий, особенно это касается сферы преподавания языка - постоянно...
-
При извлечении текста из Интернета, он не имеет никой разметки и представлен в виде сплошного набора предложений. Для дальнейшего использования...
-
Проектирование упражнения. Создание списка основных политических терминов. Поиск и разметка терминов в полученном корпусе После создания корпуса статей...
-
Для того, чтобы на сервере можно было запустить файлы с расширением. py, необходимо выполнить несколько операций: 1) Для работы с виртуальным окружением...
-
Заключение - Компьютерная лингвистика в образовательной среде
Целью написания данной выпускной квалификационной работы являлось создание и введение в эксплуатацию упражнения, основанного на размеченном корпусе...
-
Проектирование и разработка сайта Средства разработки Язык гипертекстовой разметки HTML В Интернете сосредотачивается и передается достаточно большое...
-
При проектировании упражнения встал вопрос о его реализации. Было необходимо найти такой метод, который не только соответствовал основным требованиям...
-
Шаблоны сайта Bootstrap3 Веб-дизайн является одним из основных элементов в процессе создания сайта. Именно от него зависит, насколько удобно и комфортно...
-
Язык разметки XML - Компьютерная лингвистика в образовательной среде
XML - это расширяемый язык разметки (ExtensibleMarkupLanguage). Был разработан в соответствии с основными требованиями сервера WWW. Является достаточно...
-
Введение - Разработка веб-редактора для описания лексико-семантических шаблонов на визуальном языке
Объем неупорядоченной и неструктурированной текстовой информации неуклонно растет, поэтому задача ее быстрой и качественной обработки актуальна сегодня...
-
Создание веб-сервера - Компьютерная лингвистика в образовательной среде
Завершающий шаг в создании и введении в эксплуатацию сайта - выбор и настройка веб-сервера, принимающего HTTP-запросы от клиентов (веб-браузеров), и...
-
Каскадные таблицы стилей CSS - Компьютерная лингвистика в образовательной среде
Язык CSS отвечает за стиль в том или ином документе. Он используется для того, чтобы придать страницам на HTML -- фундаментальном языке WWW --...
-
Завершив выбор схемы работы системы и общего принципа работы ее частей и выбрав тип базы данных, следует перейти к выбору языка программирования....
-
Разработка сайта, Среда разработки web-сайта - Разработка сайта для компании
Среда разработки web-сайта При разработке web-сайта используются: - HTML - язык разметки web-страниц; - CSS - формальный язык описания внешнего...
-
Прогноз погоды - научно обоснованное предположение о будущем состоянии погоды в определенном пункте или регионе на определенный период. Составляется...
-
Лингвистический процессор GATE GATE представляет собой инфраструктуру для разработки и развертывания компонентов программного обеспечения, которые...
-
Корпуса и маркировка, Логическая организация памяти - Аппаратные средства IBM PC
Элементы динамической памяти для персональных компьютеров бывают конструктивно выполнены либо в виде отдельных микросхем в корпусах типа DIP (Dual In...
-
Языки программирования для Интернета - Теоретические основы информационных технологий
С активным развитием глобальной сети было создано немало популярных языков программирования, адаптированных специально для Интернета. Все они отличаются...
-
Домашнее использование чаще всего представляет из себя набор сенсоров, собирающих информацию об индивидах, которые напрямую владеют этой сетью. Это могут...
-
Ввиду того, что для языка JAPE не предусмотрен специализированный редактор, разработчики рекомендуют использовать Vim[10] или Eclipse[11], ассоциировав...
-
Резюме - Язык программирования PERL. Сфера применения
В этой главе рассмотрено введение в программирование на языке Perl. Используя рассмотренные здесь концепции, можно писать сложные скрипты CGI на языке...
-
ВВЕДЕНИЕ - Разработка программы на языке C++, реализующей игру "Морской бой"
Данная курсовая работа направлена на изучение принципов объектно-ориентированного программирования. Разработать программу на языке C++, реализующую игру...
-
Подпрограммы - Язык программирования PERL. Сфера применения
Как и все структурированные языки программирования, Perl поддерживает подпрограммы. Подпрограмма может быть определена с помощью ключевого слова sub, как...
-
Для построения эффективной системы мониторинга необходимо определить объекты наблюдения, отслеживаемые показатели и сроки их представления, программные...
-
Разработать и создать аналог системной утилиты "Диспетчер задач" по дисциплине "Системное программирование". "Диспетчер задач" должен содержать следующие...
-
"WWWSQLDesigner" позиционируется как абсолютно бесплатный, доступный для пользователей, универсальный веб-редактор, значительно упрощающий процесс...
-
Структура сайта - Компьютерная лингвистика в образовательной среде
Структура сайта разработана в соответствии с основными требованиями к веб-приложению. (Рис.3) Содержит в себе 3 основные страницы (одна из которых...
-
Программный продукт "1С:Предприятие 8. PDM Управление инженерными данными" - совместное решение фирмы "1С" и компании АППИУС предназначенное для...
-
В нашей курсовой работе была поставлена задача создания обучающей программы по информатике, с помощью которой студенты смогут проверить свои знания в...
-
Тестируемый программный продукт является высокопроизводительным приложением, которое предоставляет возможность создания и настройки сетей беспроводного...
-
Учебный процесс в ННГАСУ сопровождается значительной информационной базой, развитием компьютерного парка и внедрением в образовательный процесс...
-
Основные этапы разработки сайта - Разработка Web-сайта предприятия (ООО "Полтава")
При разработки сайта, выделены следующие этапы: - определение целей сайта; - создание структуры сайта; - создание дизайна сайта; - сбор и...
-
Основные понятия баз данных. Цели использования баз данных - Разработка базы данных
В широком смысле слова база данных (БД) - это совокупность сведений о конкретных объектах реального мира в какой-либо предметной области. Для удобной...
-
Введение - Разработка аналитического приложения
Тема данной работы - разработка веб-приложения для анализа макроэкономических показателей стран мира. В ней будет описан процесс, предшествующий...
-
Выбор средств реализации информационной системы Названные в параграфе 1.4. настоящей работы задачи могут быть решены тремя типами средств автоматизации:...
-
Предложенный подход к решению задач исследования Используя в качестве основы присутствующее в наличии программное обеспечение, которое применимо к...
-
Назначение и краткая характеристика встроенного языка Встроенный язык системы 1С: Предприятие предназначен для описания (на стадии разработки...
-
Для перехода к описанию выбора средств разработки, необходимо выделить этапы работы программы. Алгоритм работы программы представлен ниже: Пользователь...
-
ВВЕДЕНИЕ - Методы доступа к передающей среде в ЛВС
На сегодняшний день более 80 % всех компьютеров мира объединено в различные информационно-вычислительные сети. Появление компьютерных сетей было вызвано...
Корпусная лингвистика. Разработка корпуса политических статей, Корпусная лингвистика и ее применение в области преподавания иностранного языка - Компьютерная лингвистика в образовательной среде