ЕДИНИЦЫ КОЛИЧЕСТВА ИНФОРМАЦИИ: ВЕРОЯТНОСТНЫЙ И ОБЪЕМНЫЙ ПОДХОДЫ - Информация, ее виды и свойства
Определить понятие "количество информации" довольно сложно. В решении этой проблемы существуют два основных подхода. Исторически они возникли почти одновременно. В конце 40-х годов XX века один из основоположников кибернетики американский математик Клод Шеннон развил вероятностный подход к измерению количества информации, а работы по созданию ЭВМ привели к "объемному" подходу.
Вероятностный подход
Рассмотрим в качестве примера опыт, связанный с бросанием правильной игральной кости, имеющей N граней (наиболее распространенным является случай шестигранной кости: N = 6). Результаты данного опыта могут быть следующие: выпадение грани с одним из следующих знаков: 1,2,... N.
Введем в рассмотрение численную величину, измеряющую неопределенность - Энтропию (обозначим ее Н). Величины N и Н связаны между собой некоторой функциональной зависимостью:
H = f (N), (1.1)
А сама функция F является возрастающей, неотрицательной и определенной (в рассматриваемом нами примере) для N = 1, 2,... 6.
Рассмотрим процедуру бросания кости более подробно:
- 1) готовимся бросить кость; исход опыта неизвестен, т. е. имеется некоторая неопределенность; обозначим ее H1; 2) кость брошена; информация об исходе данного опыта получена; обозначим количество этой информации через I; 3) обозначим неопределенность данного опыта после его осуществления через H2. За количество информации, которое получено в ходе осуществления опыта, примем разность неопределенностей "до" и "после" опыта:
I = H1 - H2 (1.2)
Очевидно, что в случае, когда получен конкретный результат, имевшаяся неопределенность снята (Н2 = 0), и, таким образом, количество полученной информации совпадает с первоначальной энтропией. Иначе говоря, неопределенность, заключенная в опыте, совпадает с информацией об исходе этого опыта. Заметим, что значение Н2 могло быть и не равным нулю, например, в случае, когда в ходе опыта следующей выпала грань со значением, большим "З".
Следующим важным моментом является определение вида функции F в формуле (1.1). Если варьировать число граней N и число бросаний кости (обозначим эту величину через М), общее число исходов (векторов длины М, состоящих из знаков 1,2,.... N) будет равно N в степени М:
X=NM. (1.3)
Так, в случае двух бросаний кости с шестью гранями имеем: Х = 62 = 36. Фактически каждый исход Х есть некоторая пара (X1, X2), где X1 и X2 - соответственно исходы первого и второго бросаний (общее число таких пар - X).
Ситуацию с бросанием М раз кости можно рассматривать как некую сложную систему, состоящую из независимых друг от друга подсистем - "однократных бросаний кости". Энтропия такой системы в М раз больше, чем энтропия одной системы (так называемый "принцип аддитивности энтропии"):
F(6M) = M - f(6)
Данную формулу можно распространить и на случай любого N:
F(NM) = M - f(N) (1.4)
Прологарифмируем левую и правую части формулы (1.3): ln X = M - Ln N, М = ln X/1n M. Подставляем полученное для M значение в формулу (1.4):
Обозначив через К положительную константу, получим: F(X) = К - lп Х, или, с учетом (1.1), H=K - Ln N. Обычно принимают К = 1 / ln 2. Таким образом
H = Log2 N. (1.5)
Это - Формула Хартли.
Важным при введение какой-либо величины является вопрос о том, что принимать за единицу ее измерения. Очевидно, Н будет равно единице при N = 2. Иначе говоря, в качестве единицы принимается количество информации, связанное с проведением опыта, состоящего в получении одного из двух равновероятных исходов (примером такого опыта может служить бросание монеты при котором возможны два исхода: "орел", "решка"). Такая единица количества информации называется "бит".
Все N исходов рассмотренного выше опыта являются равновероятными и поэтому можно считать, что на "долю" каждого исхода приходится одна N-я часть общей неопределенности опыта: (log2 N)1N. При этом вероятность I-го исхода РI равняется, очевидно, 1/N.
Таким образом,
Та же формула (1.6) принимается за меру энтропии в случае, когда вероятности различных исходов опыта неравновероятны (т. е. РI могут быть различны). Формула (1.6) называется формулой Шеннона.
В качестве примера определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит из 33 букв и знака "пробел" для разделения слов. По формуле (1.5)
Н = log2 34 ? 5 бит.
Однако, в словах русского языка (равно как и в словах других языков) различные буквы встречаются неодинаково часто. Ниже приведена табл. 1.3 вероятностей частоты употребления различных знаков русского алфавита, полученная на основе анализа очень больших по объему текстов.
Воспользуемся для подсчета Н формулой (1.6); Н ? 4,72 бит. Полученное значение Н, как и можно было предположить, меньше вычисленного ранее. Величина Н, Вычисляемая по формуле (1.5), является максимальным количеством информации, которое могло бы приходиться на один знак.
Таблица 1.3.
Частотность букв русского языка
I |
Символ |
Р(I) |
I |
Символ |
P(I) |
I |
Символ |
Р(I) |
1 |
Пробел |
0,175 |
13 |
0,028 |
24 |
Г |
0.012 | |
2 |
0 |
0,090 |
14 |
М |
0,026 |
25 |
Ч |
0,012 |
3 |
Е |
0,072 |
15 |
Д |
0,025 |
26 |
И |
0,010 |
4 |
Е |
0,072 |
16 |
П |
0,023 |
27 |
X |
0,009 |
5 |
А |
0,062 |
17 |
У |
0,021 |
28 |
Ж |
0,007 |
6 |
И |
0,062 |
18 |
Я |
0,018 |
29 |
Ю |
0,006 |
7 |
Т |
0,053 |
19 |
Ы |
0,016 |
30 |
Ш |
0.006 |
8 |
Н |
0,053 |
20 |
З |
0.016 |
31 |
Ц |
0,004 |
9 |
С |
0,045 |
21 |
Ь |
0,014 |
32 |
Щ |
0,003 |
10 |
Р |
0,040 |
22 |
Ъ |
0,014 |
33 |
Э |
0,003 |
11 |
В |
0,038 |
23 |
Б |
0,014 |
34 |
Ф |
0,002 |
12 |
Л |
0,035 |
Аналогичные подсчеты Н можно провести и для других языков, например, использующих латинский алфавит - английского, немецкого, французского и др. (26 различных букв и "пробел"). По формуле (1.5) получим
H = log2 27 ? 4,76 бит.
Как и в случае русского языка, частота появления тех или иных знаков не одинакова.
Если расположить все буквы данных языков в порядке убывания вероятностей, то получим следующие последовательности:
АНГЛИЙСКИЙ ЯЗЫК: "пробел", E, T, A, O, N, R, ...
НЕМЕЦКИЙ ЯЗЫК: "пробел", Е, N, I, S, Т, R, ...
ФРАНЦУЗСКИЙ ЯЗЫК: "пробел", Е, S, А, N, I, Т, ...
Рассмотрим алфавит, состоящий из двух знаков 0 и 1. Если считать, что со знаками 0 и 1 в двоичном алфавите связаны одинаковые вероятности их появления (Р(0) = Р(1) = 0,5), то количество информации на один знак при двоичном кодировании будет равно
H = 1оg2 2 = 1 бит.
Таким образом, количество информации (в битах), заключенное в двоичном слове, равно числу двоичных знаков в нем.
Объемный подход
В двоичной системе счисления знаки 0 и 1 будем называть Битами (от английского выражения Binary digiTs - двоичные цифры). Отметим, что создатели компьютеров отдают предпочтение именно двоичной системе счисления потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния: некоторый физический элемент, имеющий два различных состояния: намагниченность в двух противоположных направлениях; прибор, пропускающий или нет электрический ток; конденсатор, заряженный или незаряженный и т. п. В компьютере бит является наименьшей возможной единицей информации. Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом, в частности, невозможно нецелое число битов (в отличие от вероятностного подхода).
Для удобства использования введены и более крупные, чем бит, единицы количества информации. Так, двоичное слово из восьми знаков содержит один, Байт Информации, 1024 байта образуют Килобайт (кбайт), 1024 килобайта - Мегабайт (Мбайт), а 1024 мегабайта - Гигабайт (Гбайт).
Между вероятностным и объемным количеством информации соотношение неоднозначное. Далеко не всякий текст, записанный двоичными символами, допускает измерение объема информации в кибернетическом смысле, но заведомо допускает его в объемном. Далее, если некоторое сообщение допускает измеримость количества информации в обоих смыслах, то они не обязательно совпадают, при этом кибернетическое количество информации не может быть больше объемного.
В дальнейшем тексте данного учебника практически всегда количество информации понимается в объемном смысле.
Похожие статьи
-
Фундаментальные свойства информации - Системная революция и принцип дуального управления
Знания, информация - одни из важнейших проявлений ценности, обладающие совершенно удивительным свойством тиражируемости, допускающим многократное...
-
РАЗЛИЧНЫЕ УРОВНИ ПРЕДСТАВЛЕНИЙ ОБ ИНФОРМАЦИИ - Информация, ее виды и свойства
Ранее мы неоднократно употребляли термин "информация", никак его при этом не раскрывая. Понятие информация является одним из фундаментальных в...
-
НЕПРЕРЫВНАЯ И ДИСКРЕТНАЯ ИНФОРМАЦИЯ - Информация, ее виды и свойства
Чтобы сообщение было передано от источника к получателю, необходима некоторая материальная субстанция - носитель информации. Сообщение, передаваемое с...
-
Прагматические свойства информации - Системная революция и принцип дуального управления
Если семантические свойства информации отражают ситуационный аспект существования системы (осмысленность, оформленность ее бытия), то прагматические...
-
Семантические свойства информации - Системная революция и принцип дуального управления
Cемантика устанавливает смысловую связь между внутренним языком системы и языком внешней среды. И в отношении этой взаимосвязи информация обладает...
-
ИНФОРМАЦИЯ: БОЛЕЕ ШИРОКИЙ ВЗГЛЯД - Информация, ее виды и свойства
Как ни важно измерение информации, нельзя сводить к нему все связанные с этим понятием проблемы. При анализе информации социального (в широким смысле)...
-
Элементы корреляционного анализа Зависимость между случайными величинами (СВ) X и Y в теории вероятностей и математической статистике описывается, в...
-
Способы получения - Свойства графена
Кусочки графена получают при механическом воздействии на высокоориентированный пиролитический графит или киш-графит. Сначала плоские куски графита...
-
Влияние семейного дохода на количество автомобилей, приходящееся на одного человека
Как показывает опыт изучения вопроса закономерностей формирования уровня автомобилизации, зарубежные ученые большое внимание уделяют зависимости...
-
Химические свойства кремнийорганических полимеров - Кремнийорганические полимеры
Силоксаны содержат два или более атомов кремния, связанных посредством одного или нескольких атомов кислорода: Два атома кремния, связанные таким...
-
Отдельные представители насыщенных углеводородов - Химические свойства насыщенных углеводородов
Метан - бесцветный газ, не имеющий запаха. В природе образуется в результате различных процессов брожения. Так, он получается при гниении клетчатки...
-
ФИЗИЧЕСКИЕ СВОЙСТВА, ХИМИЧЕСКИЕ СВОЙСТВА - Никель глазами химика
Металлический никель имеет серебристый цвет с желтоватым оттенком, очень тверд, вязкий и ковкий, хорошо полируется, притягивается магнитом, проявляя...
-
Неперекристаллизованный препарат, полученный по методике, описанной выше, содержал примесь калий йодида. Это легко обнаруживалось при слабом подкислении...
-
Принципы получения гибридных соединений на основе квантовых точек и органических хромофоров В литературе для получения соединений, обладающих...
-
Для получения модифицированной квантовой точки (гибридного соединения) были использованы квантовые точки CdS (КТ, QD) с диаметром 2,5 нм и...
-
Автоматизированная обработка на ЭВМ позволяет составлять различные сводки, таблицы, ведомости, где информация сгруппирована по каким-либо...
-
Целью расчета насадочных абсорберов является определение диаметра (сечения) аппарата; определение высоты насадки (а также нахождение высоты аппарата);...
-
Основные понятия теории экономико-математического моделирования Кибернетический подход к исследованию экономико-математических систем Обычно...
-
Химические свойства - Благородные газы и их свойства
В 1962 году Бартлетт, изучая свойства гексафторида платины, соединения более активного, чем сам фтор, установил, что потенциал ионизации у ксенона ниже,...
-
Физико-химические свойства кремния - Физические и химические свойства кремния
Кремний - это мелкий бурый порошок или серые, твердые, но довольно хрупкие кристаллы (пл. 2,4). В кристаллическом состоянии кремний хорошо проводит...
-
Комплексообразующие свойства тиосульфатов - Тиосульфат натрия
Тиосульфат-ион - сильный комплексообразователь, использующийся в фотографии для удаления из фотопленки невосстановленного бромида серебра: Отметим, что...
-
Закалочно-испарительный аппарат (Х-1) представляет собой теплообменник смешения. Поток пирогаза охлаждается водой, которая, испаряясь, забирает часть...
-
Графен по своим свойствам является полуметаллом с малым перекрытием зоны проводимости и валентной зоны. Носители заряда обладают высокой подвижностью,...
-
ПРОИЗВОДНАЯ, ЕЕ СВОЙСТВА И ГЕОМЕТРИЧЕСКИЙ СМЫСЛ. ДИФФЕРЕНЦИАЛ. ПРОИЗВОДНАЯ ВЫСШИХ ПОРЯДКОВ Если отношение имеет предел при этот предел называют...
-
Попадание в окружающую среду, Ртуть и природная среда - Ртуть: свойства и токсичность
Ртуть и природная среда В соединениях ртути основным действующим компонентом является сама ртуть. При попадании в окружающую среду, ртуть может за счет...
-
Прогнозирование курса Ukb/Usd, Общий подход к прогнозированию курса UKB/USD - Прогнозирующие системы
В данной главе описаны эксперименты по прогнозированию курса американского доллара по отношению к украинскому карбованцу (UKB/USD). Сначала описаны...
-
УМЯГЧЕНИЕ И ОБЕССОЛИВАНИЕ ВОДЫ - Химические свойства и строение воды
Под умягчением воды подразумевается процесс удаления из нее катионов жесткости, т. е. кальция и магния. В соответствии с ГОСТ 2874-82 "Вода питьевая"...
-
Динамическая модель кассовых сборов неплохо описывает динамику кассовых сборов фильмов. Но она еще не приспособлена для прогнозирования, значения части...
-
Спецификация модели Почти каждая компонента динамической части модели потребует комментариев, поэтому для каждой компоненты модели будет отведен...
-
КОЛЛОИДНЫЕ ВЕЩЕСТВА ПРИРОДНЫХ ВОД И ИХ УДАЛЕНИЕ - Химические свойства и строение воды
Очистка сточных вод -- лишь одно из направлений защиты гидросферы, прежде всего, поверхностных вод от антропогенных загрязнений. Главный путь защиты...
-
Ответ: 2) 3) 4) Знаки значений тригонометрических функций Ответ: Sin cos tg*ctg Таблица значений Ответ: Формулы сложения Ответ1 Формулы двойного...
-
Порфиразины с аннелированными шестичленными N - гетероциклами - пиридиновыми и пиразиновыми кольцами, среди которых первыми были синтезированы...
-
Химические свойства меди - Медь
В виде простого вещества медь обладает характерной красноватой окраской. Медь металл мягкий и пластичный. По электро - и теплопроводности медь уступает...
-
Свойства полимера, полученного различными методами - Важнейшие представители полимеров
Молекулярная цепь полистирола имеет преимущественно линейное строение с небольшим количеством разветвлений, возникающих в результате реакций передачи...
-
Бесконечный предел, Замечательные пределы - Свойства функций
Наряду с бесконечно малыми существуют и бесконечно большие величины, являющиеся обратными по отношению к бесконечно малым. Поэтому является бесконечно...
-
Синтез фуллеренов - История открытия фуллеренов, их свойства
Первые фуллерены выделяли из конденсированных паров графита, получаемых при лазерном облучении твердых графитовых образцов. Фактически, это были следы...
-
ОСОБЫЕ СВОЙСТВА ЭЛЕМЕНТА И ЕГО СОЕДИНЕНИЙ, ИХ ПРИМЕНЕНИЕ. - Галлий
Не стоит брать этот элемент в руки - тепла человеческого тела достаточно, чтобы этот серебристый мягкий (его можно резать ножом) металл превратился в...
-
Оптимизационная модель экономической коррупции имеет вид (1) Где b - величина взятки, r(b) - функция экономической коррупции (например, фактическое...
-
Мы обнаружили интересный факт в опытах с соляной кислотой (опыты 6,7, таблица 4). Оказалось, что в солянокислой восстановительной среде йод, выделившийся...
-
Для проверки фотоактивности и возможности управления люминесценцией гибридного соединения за счет изменения изомерного состояния органического лиганда,...
ЕДИНИЦЫ КОЛИЧЕСТВА ИНФОРМАЦИИ: ВЕРОЯТНОСТНЫЙ И ОБЪЕМНЫЙ ПОДХОДЫ - Информация, ее виды и свойства