Эпоха Больших данных: начало перехода к новому понимаю данных - Распространение новостной информации
Современные технологии позволили перейти к качественно новому пониманию данных, информации и возможностей ее анализа. В виртуальном мире ежесекундно происходит огромный прирост новой информации: делаются записи в социальных сетях, регистрируются новые сайты, более того, привычная бумажная бюрократия также принимает электронный формат, превращаясь в огромные базы данных. Это ценнейшая информация, которая может быть использована практически в любой сфере общественной жизни.
Многие ученые из различных областей науки, таких как, биология, математика, информатика, психология, социология, политология, маркетинг видят огромный потенциал использования Больших данных. Более того, огромная мощность современных компьютеров (по сравнению с вычислительными машинами прошлых десятилетий) делает возможным быструю обработку, хранение и накопления таких больших баз данных. На сегодняшний день важной задачей становится понимание того как анализировать эти данные, как защитить персональную информацию пользователей и какие специалисты необходимы для данной работы.
Особенно актуальна эта дискуссия для гуманитарных наук, где исследователи "разделились" на две стороны. Одни считают, что в эпоху Больших данных традиционный подход не эффективен и следует "позволить данным говорить за себя", а не пытаться объяснить данное социальное явление с помощью различных теорий. Другие же исследователи наоборот призывают к еще более ответственному подходу к социологическим теориям и необходимости применять их в контексте Больших данных.
Рассмотрим оба подхода более подробно.
Согласно первому из них анализ Большие данные перевернут традиционный подход к социологическим исследованиям и самому объекту познания. В книге Виктора Майера-Шенберга "Большие данные: революция, которая изменит то, как мы живем, работаем и мыслим" предлагается новый подход к имеющимся данным: не искать причинно-следственную связь, а находить корреляции. Это обусловлено характером данных, которые исследователь получает для дальнейшего анализа, а именно, их неструктурированность и неорганизованность. Нужно "позволить данным говорить" - это означает, что не нужно заранее продумывать гипотезы и составлять вопросы, это было необходимо в традиционных исследованиях. В ситуации с Большими данными, где очень сложно упорядочить входящие потоки информации, а зачастую и просто невозможно (из-а огромных денежных, трудовых и временных потерь), необходимо "погрузиться" в эти данные, пытаться найти там какие-либо закономерности, "выбросы", что-то новое, что дает новую информацию и решения.
В традиционных исследованиях, при невозможности охватить все случаи, используются выборки, которые позволяют масштабировать небольшое количество данных (относительно общего объема) на всю совокупность. При этом, полученные данные строго структурированы и формализованы, вопросы анкеты четко продуманы и отражают исходные цели и задачи исследования. Сами же результаты, в большинстве случаев, представляются как средние значения и вероятности.
В эпоху Больших данных мы можем исследовать все интересующее нас пространство: "N = все" . Современное технологическое оборудование позволяет обрабатывать огромные базы данных, и более того, собирать их в режиме реального времени. Исследователь в кратчайшие сроки получает массив данных, который он может рассматривать с различных сторон, искать какие-либо связи между объектами. Он получает всю совокупность за интересующий его период, при этом, заранее не зная, что может там обнаружить. С одной стороны, это может показаться проблемой, ведь как анализировать данные, не понимая, какие выводы необходимо получить. Но с другой стороны, это дает исследователю огромную свободу для поиска новых решений и связей, сами данные "расскажут" ему о своей специфике и характере.
Наиболее радикальный аргумент о "конце теории" рассмотрен в статье Криса Андерсона "The End of Theory: The Data Deluge Makes the Scientific Method Obsolete" , 2008 год. Автор утверждает, что в эпоху Больших данных, когда исследователи получили возможность с высокой точностью отслеживать потоки информации, нет необходимости строить абстрактные теоретические модели. "This is a world where massive amounts of data and applied mathematics replace every other tool that might be brought to bear. With enough data, the numbers speak for themselves" .
Альтернативный подход призывает исследователей не думать о Больших данных как о панацее и тем более не отказываться от теоретических рамок. В данном случае, ученые говорят о Больших данных как инструменте для познания реальности, а не как о уже существующем знании. Более того, процесс анализа и интерпретации данных очень субъективен, особенно в ситуации исследования социальных медиа, что приводит к необходимости комплексного анализа: "Big Data is at its most effective when researchers take account of the complex methodological processes that underlie the analysis of social data" .
В статье Social Science in the Era of Big Data Sandra Gonzбlez-Bailуn доказывает, что "старые" теории помогают понять организацию и функционирование социальных отношений в виртуальном пространстве, более того, на основе новых данных дополнить уже существующую теорию. В частности это, в первую очередь, относится к сетевому анализу, где возможности Больших данных позволяют проследить за формированием социальных сетей, их функционированием, формирует представление о структуре связей в виртуальном пространстве, также можно следить за динамикой изменений этих социальных сетей во времени и пространстве.
Автор также предлагает рассмотреть, как Большие данные могут развить существующие теории о поведении масс и социальном влиянии. В частности, речь идет о взаимодействии массы (публики) и медиа. Известный французский социолог Габриель Тард в своих работах подчеркивал, что СМИ формирует общественное мнение, которое зарождается в процессе коммуникации между людьми. В век информационных технологий становится особенно актуально исследовать данную теорию, особенно при учете "раздробленности" современных СМИ. Так, в работе Twilight of the Gods?: How the Internet Challenged Russian Television News Frames in the Winter Protests of 2011-12 рассматривается ситуация современных российских медиа. Так, исследователи выяснили, что официальные телевизионные каналы и интернет-газеты сообщают одну и ту же информацию различными способами, что, как следствие, ведет к различному понимаю одного и того же события. Более того, виртуальные СМИ на сегодняшний день имеют ряд значительных преимуществ: возможность быстрого реагирования, распространение "гражданских" журналистов (аналитические статьи пользователей, не принадлежащие каким-либо газетным изданиям), взаимодействие газеты и публики (пользователи могут сами присылать фотографии с места событий, оставлять комментарии) - все это значительно повышает доверие масс к виртуальному изданию.
С другой стороны, в западных странах актуальна дискуссия о правомерности использования Больших данных. В частности, выдвигается тезис о том, что использование пользовательских данных нарушает их частные права и даже при гарантии анонимности и попытке "обезличить" данные остается возможность вычислить конкретного человека. Все это может стать угрозой для репутации человека, а иногда даже его жизни. Главный вопрос заключается в определении границы между частным и публичным: можно ли оперировать публичными данными и сообщениями пользователей? Ведь существуют различные настройки приватности и, если человек хочет ограничить круг лиц, имеющих право просматривать содержание его контента, то он легко может это сделать. С другой стороны, правомерно ли использование каких-либо публичных данных без оповещения и информирования пользователя?
Похожие статьи
-
Онлайн исследования в социологии: новые методы анализа данных - Распространение новостной информации
На сегодняшний день анализ социальных сетей и медиа, Интернет-сообществ, пользователей в целом используется в основном в маркетинге. Компания может...
-
Sysomos MAP (Media Analysis Platform) - Распространение новостной информации
- Web-аналитика - предоставление количественной информации об особенностях различных сайтов, исходя из активности их пользователей - Сбор контента -...
-
Система мониторинга социальных сетей предоставляет исследователю возможность собрать интересующие его упоминания в социальных сетях по какой-либо...
-
Неавтоматизированные методы - Распространение новостной информации
Нетнография Интернет - это глобальная сеть данных, которые используются, создаются, обмениваются миллионами людьми ежедневно. Люди общаются в социальных...
-
Социальные сети: структура коммуникации online vs. offline - Распространение новостной информации
Одна из простейших форм передачи информации - это коммуникация. В то же время это многогранное понятие, включающее в себя различные особенности и...
-
Автоматизированные методы - Распространение новостной информации
Мониторинг социальных сетей На данный момент используется преимущественно в сфере маркетинга и PR, однако, по прогнозам специалистов, этот метод в скором...
-
Сетевой анализ как метод изучения виртуального пространства - Распространение новостной информации
Анализ социальных сетей как отдельное направление появилось в конце 20 века, основоположниками которого считаются такие ученые как Милгрэм ("феномен...
-
Они во многом объединяют или дополняют два вышеперечисленных метода :автоматический и неавтоматический. Это контент-анализ, Интернет-опросы и...
-
В зависимости от целей исследования уже на этапе очищения базы от нерелевантных сообщений исследователь может провести процедуру тегирования...
-
Введение - Распространение новостной информации
На сегодняшний день внимание многих ученых, работающих в различных научных сферах, сосредоточено вокруг Интернет исследований. Особенно актуальными...
-
Современные технологии обработки Больших данных Большой проект бюджетирование автоматизация С приходом новых технологий, инструментов и средств...
-
Построение выборки и сбор данных - Распространение новостной информации
Выборка состоит из корпуса текстов, размещенных в социальной сети Twitter с апреля по май 2014 года, относительно исследуемых информационных поводов....
-
В основе данной работы лежит концепция американского социолога Пола Лазарсфельда о "двухступенчатой коммуникации и лидерах мнений" . Согласно данной...
-
Типология социальных сетей виртуального пространства - Распространение новостной информации
Интернет-платформы можно разделить по особенностям строения и целей сайта и предоставляемых (сайтом) возможностей: 1. Социальные сети (Facebook,...
-
Для осуществления первой задачи данной работы был проведен проведение подробный анализ семи наиболее распространенных технологий работы с Большими...
-
ЗАКЛЮЧЕНИЕ - Распространение новостной информации
Проведенное исследование позволило составить представление об особенностях распространения новостной информации в социальной сети Twitter. Была проведена...
-
Кейс 1. Реальная новость: "Министр обороны: Италия может направить миротворцев на Украину" Описательная статистика Общее количество упоминаний по всем...
-
Современная Россия в Интернете: стремительное увеличение пользователей Сети Охват Интернета в России сравнительно маленький: лишь 49% всей территории...
-
Введение - Технологии больших данных: анализ и выбор решения для реализации проекта
В конце 2000х годов были уже сформированы решения класса Business Intelligence, которые являются альтернативой традиционным методам управления базами...
-
Выше приведена таблица макропоказателей для каждой сети. В данном случае нельзя говорить об отношении направленности существующих различий...
-
В каждом из разобранных кейсов одну из главных ролей в распространении информации играли искусственно созданные аккаунты, имитирующие деятельность...
-
ОБОСНОВАНИЕ ПОНЯТИЯ "ЛОЖНАЯ НОВОСТЬ" - Распространение новостной информации
В рамках данного исследования такая задача необходима в силу нескольких причин. Во-первых, для теоретического обоснования использования термина, а,...
-
Решения компании IBM - Технологии больших данных: анализ и выбор решения для реализации проекта
Технологии анализа больших данных являются прекрасным дополнением к средам хранения больших данных. Множество применений включает в себя, например,...
-
Основные метрики, используемые в сетевом анализе - Распространение новостной информации
Сетевой анализ позволяет изучать социальные взаимодействия путем выделения структур отношений между индивидом и группой, а также и взаимодействий групп...
-
На сегодняшний день не существует единой классификации методов Интернет-исследований. Во многом это связано с тем, что данная сфера только начинает...
-
Язык программирования R - Технологии больших данных: анализ и выбор решения для реализации проекта
Язык программирования R является универсальным и разработан для применения в следующих областях: разведочный анализ данных, классические статистические...
-
Технологии Hadoop - Технологии больших данных: анализ и выбор решения для реализации проекта
Продукт Apache Hadoop является свободной Java-платформой на обычном оборудовании. Проект был рожден посредством обработки материалов Google File System и...
-
Наиболее распространенная форма - ЭВМ. Раньше чаще использовались вычислительные центры (ВЦ). Вычислительный центр - организуется и специализируется на...
-
Программная модель данных, получившая название "MapReduce", была создана несколько лет назад в компании Google, и там же была осуществлена первая...
-
ЕДИНИЦЫ, - Интеpпpетация данных - Единицы измерения информации в памяти ПК
ИЗМЕРЕНИЯ ИНФОРМАЦИИ В ПАМЯТИ ПЕРСОНАЛЬНОГО КОМПЬЮТЕРА - Интеpпpетация данных Зададимся вопросом, что такое данные и как мы к ним относимся? Интуитивно...
-
Защита информации в БД - Банки и базы данных. Системы управления базами данных
Целью защиты информации является обеспечение безопасности ее хранения и обрабатывания. Процесс построения эффективной защиты начинается на начальных...
-
Актуальность Сегодня всемирная популярность социальных информационных сетей продолжает набирать обороты, все большее пользователей не может отказать себе...
-
Для того, чтобы разработать оптимальный метод интеграции сторонних систем в существующую ИТ-инфраструктуру систем компании, требуется точно поставить...
-
Уровни и типы моделей БД - Банки и базы данных. Системы управления базами данных
Любая БД отражает информацию об определенной предметной области. В зависимости от уровня абстракции, на котором представляется предметная область,...
-
Необходимо исследовать зависимость влияния различных факторов на параметр, характеризующий производство. В качестве такого параметра было выбрано...
-
Комплекс инструментов Oracle Exalytics Комплексное решение Oracle Exalytics создано для обеспечения высокой производительности аналитических систем и...
-
Хранение, кодирование и пpеобpазование данных - Единицы измерения информации в памяти ПК
Хранение информации в памяти ЭВМ - одна из основных функций компьютера. Любая информация хранится с использованием особой символьной формы, которая...
-
База данных представляет собой информационную модель того объекта (организации или предприятия), информация о котором требуется пользователю для...
-
СУБД MS Access - База данных, хранящая в себе информацию о командах NBA
Системы управления базами данных (СУБД) - это программные средства, с помощью которых можно создавать базы данных, наполнять их и работать с ними. В мире...
-
Способы обработки данных - Автоматизированные системы обработки экономической информации
Различаются следующие способы обработки данных: централизованная, децентрализованная, распределенная и интегрированная. Централизованная предполагает...
Эпоха Больших данных: начало перехода к новому понимаю данных - Распространение новостной информации