Выявление динамики частоты употребления лексики, свойственной публицистическим текстам о бизнесе - Освещение космической индустрии в американских медиа

Для проверки гипотезы исследования, согласно которой тексты о космических достижениях стали больше похожи на тексты о бизнесе на уровне лексики необходимо было выбрать метод количественного анализа текста. Первое очевидное -- выделить ключевые слова в журналистских текстах о бизнесе и проверить, как часто они встречаются в текстах о космосе. Ключевые слова этой темы можно обнаружить в корпусе современного английского языка -- Corpus of Contemporary American English (COCA) . В нем содержится 520 миллионов слов, которые присутствуют в американском варианте языка. Тексты, включенные в корпус, были опубликованы с 1990 по 2015 год.

Для поиска ключевых слов, соответствующих теме "бизнес", я использовала функцию "virtual corpus". Она позволяет составить виртуальный набор текстов, соответствующих определенной теме, заданной разметкой COCA. Для создания корпуса я искала тексты, в который есть слово "business" (значение поля Words in text). Также набор можно ограничить типом источника. Для своего анализа я использовала жанр (Genre/domain) "NEWSPAPERS" и задала временные рамки с 2003 по 2015 год. Этот период почти совпадает с периодом моего исследования, но верхняя граница не может выйти за пределы COCA, в котором, как уже сказано, нет размеченных текстов, опубликованных после 2015 года.

Система COCA составила корпус из тысячи текстов и автоматически выделила ключевые слова, сопровождающие тексты со словом "business", и ранжировала их по частоте употребления. Также программа корпуса разделила их по частям речи: существительные, глаголы, прилагательные, наречия, а также сочетания слов "существительное плюс существительное" и "прилагательное плюс существительное". Чаще всего первые 10-15% рейтинга (зависит от части речи) -- это слова, которые напрямую относятся к сфере экономики или бизнеса (investor, firm, customer, sell, hire и т. д.). Ближе к концу рейтинга обычно встречались общеупотребительные слова (eye, body, know, look и т. д.).

Написанная программа для каждого слова из списка COCA считала частоту употребления в каждом тексте из The New York Times -- TF. Формула вычисления:

Где i -- это порядковый номер слова из списка COCA, j -- это порядковый номер слова в статье, N -- это количество раз, которое слово встречается в статье. Максимальное значение j -- количество словоформ в тексте. Таким образом, суммирование по j в знаменателе дает количество слов в тексте.

Честнее было бы считать величину TF-IDF (term frequency inverse document frequency) , так как она уменьшает вес слов общего употребления. Но в анализе заведомо исключены эти слова, поэтому показатель не должен быть таким подробным.

Следующим шагом программа суммировала внутри подкорпуса текстов, соответствующих каждому году исследуемого периода, значения TF каждого слова из рейтинга COCA. А затем и сумму по всем словам. Этот показатель демонстрирует общее значение слов, соответствующих теме "бизнес", в текстах, вышедших за год. Формульное выражение:

Где n -- это количество текстов The New York Times, вышедших за год, а i -- по-прежнему порядковый номер слова из списка COCA. Максимальное значение i -- это количество слов, соответствующих теме "бизнес", выбранных из списка ключевых слов, предложенных американским корпусом. Как указано выше, для анализа было выбрано 10-20% всех ключевых слов.

изменение частоты употребления существительных о бизнесе статьях nyt о космических исследованиях

Рис. 1. Изменение частоты употребления существительных о бизнесе статьях NYT о космических исследованиях.

Из графика видно, что частота употребления существительных, относящихся к бизнес-тематике в целом увеличивается. Показатель TFсумм года нестабильно рос до 2012 года, но после этого слабо изменялся в 2013-2016 годах. В представленном графике важно именно изменение частотности выбранных слов (относительность показателя TF), а не абсолютные значения частотности употребления.

Такие же графики, построенные для глаголов и прилагательных, не выявляют учащение употребления слов, соответствующих теме "бизнес":

изменение частоты употребления глаголов о бизнесе в статьях nyt о космических исследованиях

Рис. 2. Изменение частоты употребления глаголов о бизнесе в статьях NYT о космических исследованиях.

изменение частоты употребления прилагательных о бизнесе в статьях nyt о космических исследованиях

Рис. 3 Изменение частоты употребления прилагательных о бизнесе в статьях NYT о космических исследованиях.

Я привожу формулы вычислений каждого показателя, так как именно они определили механизмы написания расчетной программы и итоговый код. Например, знак суммирования в формуле задает цикл в программе, а обозначение суммы сумм -- вложенный цикл.

Для анализа существительных было выбрано первые 50 слов из 442, предложенных COCA. Это соответствует количеству 11,3% выделенных корпусом ключевых слов.

Частота употребления существительных, относящихся к бизнес-тематике в целом увеличивается. Показатель TFСумм года Нестабильно рос до 2012 года, но после этого слабо изменялся в 2013-2016 годах. В представленном графике важно именно изменение частотности выбранных слов (относительность показателя TF), а не абсолютные значения частотности употребления.

Для анализа глаголов были выбраны первые 35 ключевых слов из 270, предложенных COCA. Это соответствует 12,96% выделенных корпусом ключевых слов. Для прилагательных было выбрано 15 из 124 слов, что составило 12% списка.

Разная направленность трендов при анализе частей речи может означать, что несмотря на артикуляцию понятий из бизнеса (каких именно мы не можем выявить на основе количественного анализа), которую показывает употребление существительных, описание действий (показывают глаголы) или их характеристика (показывают прилагательные) в бизнес-ключе отсутствует в выбранных статьях.

Похожие статьи




Выявление динамики частоты употребления лексики, свойственной публицистическим текстам о бизнесе - Освещение космической индустрии в американских медиа

Предыдущая | Следующая