Оценка неопределенности информации - Оценка качества природной среды и здоровья населения

Серьезное внимание при подготовке информации должно уделяться ее качеству. С этой целью проводится оценка степени неопределенности собранных данных, под которой понимаются:

    А) пропуски информации, Б) обоснованные сомнения экспертов в достоверности данных, В) неудовлетворительные результаты оценки достоверности данных с помощью средств автоматического контроля

При сборе больших объемов информации на ряде территорий возможны пропуски данных. В случае невозможности их корректного заполнения и при небольшом их числе пропуски могут быть устранены с помощью алгоритма восстановления отсутствующих данных в таблицах наблюдений (SPACE), реализованного в пакете прикладных программ КВАЗАР [1,2].

Недопустимо заполнение пропущенных значений нулями, поскольку в этом случае при анализе становится невозможным отличить пропуски от истинных нулей. Как правило, пропущенные значения отмечаются заранее обусловленным числом, которое не может быть значением ни одного из полей данной таблицы, например, "-1" или "-999".

В основу алгоритма SPACE положены следующие принципы. Как правило, массивы числовой информации, организованные в виде таблицы, обладают в той или иной мере информационной избыточностью. Наличие такой избыточности во многих случаях позволяет достаточно успешно предсказывать значения отдельных отсутствующих элементов таблицы. Один из возможных подходов к решению задачи был предложен в работе Н. Г.Загоруйко [5]. Алгоритм SPACE является модифицированным вариантом изложенного там метода. Идея его достаточно проста и состоит в следующем. Пусть на пересечении i-й строки и j-го столбца таблицы имеется пропуск (отсутствие значения) и ставится задача по возможности более точно восстановить отсутствующее значение на основе анализа имеющихся в таблице данных. Для решения задачи формируется предсказывающая подматрица, содержащая элементы строк и столбцов, наиболее близких соответственно к i-й строке и j-му столбцу. Далее предпринимаются попытки построения регрессионных зависимостей, связывающих известные элементы строки и (или) столбца подматрицы, содержащих пропущенное значение, соответственно с другими строками и(или) столбцами подматрицы. В случае построения регрессионных зависимостей, обеспечивающих заданную точность предсказания известных элементов подматрицы, эти зависимости могут быть использованы для предсказания пропущенного значения.

Экспертная оценка качества информации может быть дополнена оценкой достоверности данных с помощью средств автоматического контроля. Вышеупомянутый алгоритм SPACE может работать как в режиме предсказания отсутствующих значений, так и в режиме контроля достоверности (правдоподобности) присутствующих в таблице данных. При этом могут контролироваться или отдельные значения, или указанные столбцы (строки) таблицы, или вся таблица. Результатом работы алгоритма в режиме контроля данных является информация об ошибках предсказания отдельных элементов, а также средних ошибках по столбцам и строкам. Анализируя результаты, следует иметь в виду, что более определенные выводы относительно достоверности данных можно делать лишь в случае, если значения ошибок невелики (до 20%). В этом случае можно говорить о высокой достоверности контролируемых данных. В случае, если ошибки значительны, категорически утверждать, что достоверность данных является низкой, нельзя, так как возможно, что таблица просто не обладает информационной избыточностью. Хорошо интерпретируемой можно считать ситуацию, когда при невысоком среднем значении ошибки по столбцу (строке) один или несколько элементов этого столбца (строки) имеют большие значения ошибки предсказания. В этом случае есть серьезные основания говорить о недостоверности представления этих элементов в таблице.

Подобный контроль качества исходной информации позволяет существенно снизить ее неопределенность. В случае обоснованных сомнений в достоверности тех или иных показателей и невозможности их уточнения эти показатели не рекомендуется использовать при последующем анализе.

Похожие статьи




Оценка неопределенности информации - Оценка качества природной среды и здоровья населения

Предыдущая | Следующая