Вычисление сходства между текстами о космических достижениях и о бизнесе - Освещение космической индустрии в американских медиа

Второй метод проверки метод, который сравнивает тексты как также, как поисковые машины. Согласно такому способу можно вычислить условное расстояние между текстами. Для того, чтобы определить тренд схожести между статьями о космосе и бизнесе, все тексты о космосе последовательно сравнивались с одним текстом о бизнесе. Подробнее о способе формирования всех анализируемых текстов написано далее

Метод поиска "схожести" (similarity) между текстами описан в совместной работе Салтона, Вонга и Янга. В рамках этой модели текст представляет собой вектор в многомерном пространстве. Размерность этого пространства задает количество слов в словаре языка. Координаты вектора в таком пространстве -- это частоты употребления каждого слова текста.

Для простоты рассмотрим два текста -- "the dog" и "the cat". Для того, чтобы определить расстояние между ними не обязательно рассматривать пространство всего англоязычного словаря. Достаточно рассмотреть трехмерное пространство с координатами the, dog и cat. В таком пространстве у наших текстов будут координаты:

The

Dog

Cat

The dog

1

1

0

The cat

1

0

1

Математическая запись с общем виде будет иметь вид: (), (). В нашем случае вектор "the dog" -- это (1,1,0), а вектор "the cat" (1,0,1). Сходство между векторами определяет косинус угла между ними -- . Чем больше косинус, тем больше сходство. Косинус изменяется в границах от -1 до 1. Формула вычисления косинуса:

В нашем случае:

Если бы векторы (тексты) полностью совпадали, то косинус между ними был бы равен единице. Такой принцип поиска сходства между векторами распространяется на многомерное пространство любой размерности.

Стоит отметить, что несмотря на то, что технически функция косинуса может изменяться от -1 до 1, в случае с анализом текстов она будет изменяться в диапазоне от 0 до 1. Чтобы увидеть это рассмотрим два предельных случая. Пример полностью совпадающий текстов:

The

Dog

The dog

1

1

The dog

1

1

Пример полностью несовпадающих текстов:

The

Dog

A

Cat

The dog

1

1

0

0

A cat

0

0

1

1

Важно понимать, что такая модель не учитывает порядок слов в тексте и синтаксическую связь между ними. Как следствие, в рамках этого подхода омонимы будут считаться одним и тем же словом. Пример разных текстов, которые будут считаться идентичными: "the dog and the cat", "the cat and the dog".

Чем больше текст и чем больше в нем слов, тем сложнее посчитать размерность нашего пространства и координаты каждого слова вручную. Для вычисления этих значений, как и в случае с анализом слов из COCA, я воспользовалась программой, написанной специально для исследования.

Как и в рассмотренном примере, не было смысла рассматривать тексты в пространстве, размерность которого задает количество слов в словаре английского языка. Это усложнило бы вычисление и скорость получения результатов несмотря на то, что они обрабатываются с помощью программы.

Первый шаг обработки текстов для поиска схожести текстов о космосе с текстами из бизнеса -- выгрузка еще одного массива текстов, соответствующих бизнес-тематике. Для этого я снова обратилась к базе Factiva. Аналогично с выгрузкой текстов о космосе, я использовала только настройки источника (The New York Times) и объекта текстов. В отличие от случая со статьями о космосе, когда выбор из тегов был небольшой, тегов, соответствующих бизнес-тематике, в системе было субъективно много. Для формирования корпуса я выбрала следующие метки в поле Subject: Business/Economic/Investor Sentiment (обзор исследований в области бизнеса, экономики и инвестиций), Business-to-Employee (B2E) (управление сотрудниками компании через Интернет и другие технологии управления), Small Business Lending (кредитование малого и среднего бизнеса), Small Business Start-up Capital (финансирование малого и среднего бизнеса, поиск инвестиций, бизнес-инкубаторы) и Small/Medium Businesses (новости корпораций). Некоторые слишком узкие (например, Outsourcing) или наоборот слишком широкие темы (Plans/Strategy) пришлось отбросить, чтобы корпус не был слишком большим и это не затрудняло анализ.

Второй шаг анализа сходства -- это создание "мега текстов". Программа не анализирует по вышеизложенному алгоритму каждый текст The New York Times с каждым, иначе анализ был бы слишком объемным и сложным для интерпретации. Вместо этого предварительно я составляю "мега тексты" -- сшитые один за одним в единый текст анализируемые статьи космический и бизнес-тематики. Длину "мега текста" определяет хронология. Каждый текст соответствует году публикации включенных в него частей. Таким образом у меня получилось 14 массивов текстов о космосе и еще 14 -- о бизнесе (по одному на каждый год периода 2003-2016).

Еще один вариант "мега текста", который я использую в анализе, -- это объединенные в один массив материалы о бизнесе. Такой текст нужен для фиксации темы: таким образом получилась постоянная сущность, с которой я сравниваю другие тексты.

После объединения текстов начинается стадия анализа. Изложенная методика применялась в четырех вариациях:

    1) Сравнение каждого мега текста о космосе с единым текстом о бизнесе. Размерность пространства определяют все слова этих текстов. 2) Сравнение каждого мега текста о космосе с единым текстом о бизнесе. Размерность пространства определяют только те слова, которые встречаются в обоих текстах (размерность для каждого года разная, всего 14). 3) Сравнение каждого мега текста о космосе с мега текстом о бизнесе, соответствующем ему по году. Размерность пространства определяют все слова этих текстов (размерность для каждого года разная, всего 14). 4) Сравнение каждого мега текста о космосе с мега текстом о бизнесе, соответствующем ему по году. Размерность пространства определяют только те слова, которые встречаются в обоих текстах (размерность для каждого года разная, всего 14).

В вариантах 2 и 4 сходство между текстами заведомо больше по сравнению с вариантами 1 и 3 соответственно. Несмотря на это такой вариант исключал из выборки "аномальные" статьи, которые мало характерны для каждой из групп текстов.

Анализы 1 и 2 позволяют показать, что тексты о космосе и бизнесе не просто становятся более похожими, но что изменяются именно тексты о космосе, так как в этих случаях "мега тексты" мы сравниваем с одной и той же величиной. По этим причинам проводить только один вид анализа несообразно. Для уточнения некоторый результатов и их подтверждения нужны все четыре вида анализа.

Во всех четырех случаях сходство между текстами увеличивалось:

значение cost в анализах 1-4. синий -- анализ 1, черный -- анализ 2, красный -- анализ 3, зеленый -- анализ 4

Рис. 4. Значение cost в анализах 1-4. Синий -- анализ 1, черный -- анализ 2, красный -- анализ 3, зеленый -- анализ 4.

Это подтверждает гипотезу о том, что на уровне лексики тексты о космосе в The New York Times становятся более похожими на тексты о бизнесе в этом же издании. Анализ на основе ключевых слов COCA не мог показать это, так как ключевые слова выделялись из текстов разных газет.

Интересные результаты также дает анализ размерностей пространства, в котором вычислялось сходство мега текстов. Скачок размерности между 2005 и 2006 годом. Исходя из методов 2 и 4 видно, что увеличилось количество общих слов в текстах о бизнесе и текстах о космических исследованиях. Во втором методе мы использовали постоянный текст о бизнесе, поэтому скачок там может быть обоснован только расширением лексики в текстах о космосе в 2006 году. Причем пополнение обосновано в том числе добавлением слов, которые чаще употребляются в статьях о бизнесе. Также видно, что в 2012 году размерность пространств анализа сократилась на один год. Но так как общее отклонение от среднего значения не такое сильное, как в 2006 году, эта аномалия представляет меньший интерес.

Таблицы 4-7. Размерность пространства в анализах 1-4.

На всех графиках виден скачок размерности между 2005 и 2006 годом. Исходя из методов 2 и 4 видно, что увеличилось количество общих слов в текстах о бизнесе и текстах о космических исследованиях. Во втором методе мы использовали постоянный текст о бизнесе, поэтому скачок там может быть обоснован только расширением лексики в текстах о космосе в 2006 году. Причем пополнение обосновано в том числе добавлением слов, которые чаще употребляются в статьях о бизнесе.

Также видно, что в 2012 году размерность пространств анализа сократилась на один год. Но так как общее отклонение от среднего значения не такое сильное, как в 2006 году, эта аномалия представляет меньший интерес.

Для объяснения "аномалии" 2006 года я обратилась к анализу распределение материалов The New York Times по рубрикам.

распределение текстов nyt о космических достижениях по рубрикам в процентном соотношении

Рис. 5. Распределение текстов NYT о космических достижениях по рубрикам в процентном соотношении.

В 2003 и 2004 годах в базе содержались тексты только под рубрикой Editorial. Это раздел The New York Times, в котором выходят авторские колонки журналистов издания. Такой формат написания текстов подразумевает менее формальное изложение материала. Более того, в колонке автор обычно излагает свое мнение о событии. Это тоже отражается в языке. Таким образом, скачкообразное изменение лексики материалов о космосе связано не столько с коммерциализацией космических исследований, сколько с использованием новых жанров. В моем случае "новыми" стали информационные жанры, свойственные рубрике National.

Начиная с 2006 года колонки перестали быть достаточно представительными. Рубрика Editorial отошла на второй план и по количеству материалов о космосе сопоставима с разделами Week in Review, Foreign и Business/Financial.

В другой вариации графика видно не только распределение по рубрикам, но и изменение количества материалов, отмеченных тегом Space Exploration/Travel в базе Factiva.

распределение текстов nyt о космических достижениях по рубрикам. абсолютные показатели

Рис. 6. Распределение текстов NYT о космических достижениях по рубрикам. Абсолютные показатели.

Представление данных в таком разрезе вызывает вопросы к качеству разметки текстов в базе Factiva в 2003-2005 годах. Вероятно, что она неверна, так как в 2003 году в The New York Times должны были появиться тексты с новостями и взрыве шаттла "Колумбия", а такие тексты выходят в рубрике National Desk. В выборке не представлены тексты из этой рубрики в 2003 и 2004 году. Это значит, что результаты количественного исследования относительно этих годов надо интерпретировать с некоторыми оговорками.

Если судить по количеству материалов о космических достижениях, то можно сказать, что интерес к теме падал с 2006 по 2012 год. С 2013 года интерес немного вырос и оставался стабильным.

Примечательно также то, что увеличивается количество рубрик, в которых затронута космическая тема. Она начинает фигурировать не только в новостном блоке National и научной рубрике Science, но и в разделах, традиционно описывающих культуру: Book Review, Leisure/Weekend, Travel, Style. C 2010 года в наборе рубрик появилась The Arts/Cultural Desk.

Следующий вопрос возникает после исторического обзора освещения космических достижений. Все время вплоть до 2000 года NASA было почти единственным источником американского медиапространства, который предоставляет информацию об исследованиях внеземного. Вопрос заключается в том, сохраняет ли агентство информационную гегемонию на космос. Для того, чтобы оценить это в общем случае, я рассмотрела процент статей, в которых упоминается NASA. Получился следующий результат:

процент статей, содержащих упоминание слова

Рис. 7. Процент статей, содержащих упоминание слова "NASA"

Четко выраженный убывающий тренд упоминаемости NASA в текстах наблюдается только в период с 2005 по 2013 год. Самым кризисным с точки зрения коммуникации агентства оказался 2013 год. Тогда NASA было упомянуто только в 60% статей о космосе. После этого частота упоминания агентства снова начала расти. Это показывает, что NASA остается одним из главных источников новостей о космических достижениях, несмотря на коммерциализацию отрасли.

Одно из предположений исследования состояло в том, что активность частных космических исследовательских компаний потеснит NASA в медиапространстве. Для проверки этой гипотезы я рассмотрела процент статей, в который упоминаются наиболее крупные коммерческие организации, занимающиеся космическими полетами -- SpaceX и Virgin Galactic.

процент статей, в которых упоминаются ричард брэнсон, илон маск, а также компании virgin galactic и spacex

Рис. 8. Процент статей, в которых упоминаются Ричард Брэнсон, Илон Маск, а также компании Virgin Galactic и SpaceX.

Частота упоминания этих компаний действительно возросла. Примечательно, что, хотя компания Илона Маска основана в 2002 году, но впервые на страницах The New York Times она появляется только в 2007 году. Это можно интерпретировать двояко: с одной стороны, в первые годы существования компания не демонстрировала значимых результатов в области космических разработок и поэтому не удостаивалась внимания прессы. С другой стороны, такая задержка может свидетельствовать о "слепоте" непрофильных изданий.

В отличие от SpaceX, о Virgin Galactic в The New York Times начинают писать уже на следующий год после основания. Вероятно, внимание к компании привлек ее владелец Ричард Брэнсон, которого пресса знала по другим проектам. Несмотря на это о компании миллионера почти перестают писать к 2016 году.

Несмотря на рост упоминаемости, значимость SpaceX в медиапространстве значительно меньше, чем у NASA (20% против 70%). Но резкий рост заинтересованности в компании Маска, вероятно, продолжится. Тогда можно будет говорить о конкуренции между NASA и SpaceX за внимание медиа.

Похожие статьи




Вычисление сходства между текстами о космических достижениях и о бизнесе - Освещение космической индустрии в американских медиа

Предыдущая | Следующая