Кодирование, Кодирование текстовой информации - Экономическая информатика

Кодирование текстовой информации

Кодирование информации - процесс преобразования сигнала из формы, удобной для непосредственного использования информации, в форму, удобную для передачи, хранения или автоматической переработки.

Одна и та же информация может быть представлена разными кодами, иначе говоря, в разных формах. Человек кодирует информацию с помощью языка. Язык - это знаковая форма представления информации.

Языки бывают естественные (русский, английский и т. д.) и формальные (язык математики, химии, программирования и т. д.) Любой язык имеет свой алфавит - набор основных символов, различимых по их начертанию. Алфавит обычно бывает жестко зафиксирован и имеет свой синтаксис и грамматику.

Одну и туже информацию можно кодировать разными способами. Например, объект компьютер: можно представить в виде текстовой информации - написать на русском языке, на английском. Можно представить в виде графической информации - фото и видео. Можно в виде звука - произнести это слово. И т. д. Это разные способы кодирования одного и того же объекта.

Огромное количество различной информации неизбежно привело человека к попыткам создать универсальный язык или азбуку для кодирования. В вычислительной технике применяется двоичное кодирование. Основой этой системы кодирования является представление данных через последовательность двух знаков: 0 и 1. Данные знаки называются двоичными цифрами (binary digit), или сокращенно bit (бит). Одним битом могут быть закодированы два понятия: 0 или 1 (да или нет, истина или ложь и т. п.). Двумя битами, возможно выразить четыре различных понятия, а тремя - закодировать восемь различных значений.

Наименьшая единица кодирования информации в вычислительной технике после бита - байт. Его связь с битом отражает следующее отношение: 1 байт = 8 бит = 1 символ.

Обычно одним байтом кодируется один символ текстовой информации. Исходя из этого для текстовых документов размер в байтах соответствует лексическому объему в символах.

Способ кодирования (форма представления) информации зависит от цели, ради которой осуществляется кодирование. Такими целями могут быть сокращение записи, засекречивание (шифровка) информации, удобство обработки и т. п.

Чаще всего применяют следующие способы кодирования информации:

    1) графический - с помощью рисунков или значков; 2) числовой - с помощью чисел: 3) символьный с помощью символов того же алфавита, что и исходный текст.

Переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки, также называют кодированием.

Действия по восстановлению первоначальной формы представления информации принято называть декодированием. Для декодирования надо знать код.

Выбор способа кодирования зависит от цели, ради которой оно осуществляется.

C появлением компьютеров возникла необходимость кодирования всех видов информации, с которыми имеет дело и отдельный человек, и человечество в целом. Письменность и арифметика - есть не что иное, как система кодирования речи и числовой информации. Информация никогда не появляется в чистом виде, она всегда как-то представлена, как-то закодирована.

Основными атрибутами кодирования являются:

Код - это набор знаков, упорядоченных в соответствии с определенными правилами того или иного языка, для передачи информации.

Знак - это метка, предмет, которым обозначается что-нибудь (буква, цифра, отверстие). Знак вместе с его значением называют символом. Существует множество классификаций знаков Язык - это сложная система символов, каждый из которых имеет определенное значение. Языковые символы, будучи общепринятыми и соответственно общепонятными в пределах данного сообщества, в процессе речи комбинируются друг с другом, порождая разнообразные по своему содержанию сообщения.

Код, знак и язык позволяют передавать информацию в символическом виде, удобном для ее кодирования.

Компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (например, звуки, изображения, показания приборов и т. д.) для обработки на компьютере должна быть преобразована в числовую форму.

Текстовая информация представляет собой набор символов некоторого языка.

Язык - знаковая система представления информации. Множество символов языка образуют алфавит. Каждому символу алфавита сопоставили определенное количество и последовательность нулей и единиц. Алфавит компьютерного языка состоит из 256 символов, причем под каждый символ отводится 8 ячеек памяти, другими словами, информационный вес каждого символа равен 8 бит=1 байт. Эти 256 символов включают заглавные и прописные буквы двух алфавитов, математические символы, специальные символы. Все символы упорядочены, каждому символу соответствует некоторое число от 0 до 255.

Текстовую информацию кодируют двоичным кодом через обозначение каждого символа алфавита определенным целым числом. С помощью восьми двоичных разрядов, возможно, закодировать 256 различных символов. Данного количества символов достаточно для выражения всех символов английского и русского алфавитов.

В первые годы развития компьютерной техники трудности кодирования текстовой информации были вызваны отсутствием необходимых стандартов кодирования. В настоящее время, напротив, существующие трудности связаны с множеством одновременно действующих и зачастую противоречивых стандартов.

Для английского языка, который является неофициальным международным средством общения, эти трудности были решены. Институт стандартизации США выработал и ввел в обращение систему кодирования ASCII (American Standard Code for Information Interchange - стандартный код информационного обмена США). В ней для кодирования одного символа используется количество информации, равное 1 байту (8 битов). Всего с помощью одного байта можно закодировать: N = 28 = 256 символов. Этого вполне достаточно для представления текстовой информации на компьютере. Таблица разделена на две части по 128 символов. Первая (основная) часть содержит буквы латинского алфавита, десятичные цифры, знаки пунктуации, арифметических действий и др. Вторая часть (расширение) предназначена, в основном, для кодирования национальных алфавитов. Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Присвоение символу конкретного кода - это вопрос соглашения, которое фиксируется в кодовой таблице. Первые 33 кода (с 0 по 32) обозначают не символы, а операции (новая строка, ввод пробела, и т. д.).

Для кодировки русского алфавита были разработаны несколько вариантов кодировок:

    1) Windows-1251 - введена компанией Microsoft; с учетом широкого распространения операционных систем (ОС) и других программных продуктов этой компании в Российской Федерации она нашла широкое распространение; 2) КОИ-8 (Код Обмена Информацией, восьмизначный) - другая популярная кодировка российского алфавита, распространенная в компьютерных сетях на территории Российской Федерации и в российском секторе Интернет; 3) ISO (International Standard Organization - Международный институт стандартизации) - международный стандарт кодирования символов русского языка. На практике эта кодировка используется редко.

Ограниченный набор кодов (256) создает трудности для разработчиков единой системы кодирования текстовой информации. Вследствие этого было предложено кодировать символы не 8-разрядными двоичными числами, а числами с большим разрядом, что вызвало расширение диапазона возможных значений кодов. Система 16-разрядного кодирования символов называется универсальной - UNICODE. Шестнадцать разрядов позволяет обеспечить уникальные коды для 65 536 символов, что вполне достаточно для размещения в одной таблице символов большинства языков.

Несмотря на простоту предложенного подхода, практический переход на данную систему кодировки очень долго не мог осуществиться из-за недостатков ресурсов средств вычислительной техники, так как в системе кодирования UNICODE все текстовые документы становятся автоматически вдвое больше. В конце 1990-х гг. технические средства достигли необходимого уровня, начался постепенный перевод документов и программных средств на систему кодирования UNICODE.

Похожие статьи




Кодирование, Кодирование текстовой информации - Экономическая информатика

Предыдущая | Следующая