Data quality: новые правила

Базовые стандарты

Для исключения разночтений, при сборе простых характеристик нужной оценки качества данных применяются стандарты (начиная с ГОСТ 56215), регламентирующие понимание и применение терминов.

Стандарты группы ISO/TS 8000  и перевод (ГОСТ Р 56214-2014/ISO/TS 8000-1:2011 «Качество данных. Часть 1. Обзор» (docs.cntd.ru/document/1200114769)) — более 20 спецификаций, к которым сейчас активно добавляются новые:

a. части 1–99: «Качество общих данных»;

b. части 100–199: «Качество основных данных»;

c. части 200–299: «Качество данных в транзакциях»;

d. части 300–399: «Качество данных о продукции».

Принципы стандартов 8000:

качество применимо к данным, имеющим определенное назначение, учитывающимся при принятии какого-либо решения;

качество данных затрагивает нужные и подходящие данные, уместные в подходящем месте в подходящее время;

качество данных отвечает требованиям потребителя;

качество данных предотвращает повторение дефектов данных и сокращает избыточные расходы.

Международные стандарты группы ISO 25000 (iso25000.com) — это три главных стандарта: 25010, 25012 и 25040. Они определяют качество программного продукта с акцентом на общей модели качества данных, представленных в структурированном виде для информационной системы, а также критерии качества «продукта данных» как специального вида программного продукта.

Классификация данных

С точки зрения управления первичные данные обычно делят на четыре класса:

  • Мастер-данные (master-data) определяют ключевые, представляющие особую ценность для организации или бизнеса и относительно редко изменяемые сущности.
  • Разделяемые справочники (reference data) систематизируют и классифицируют другие данные, а также связывают между собой данные различных организаций. Сегодня на эту роль претендуют открытые данные (open data) любых уровней — от федеральных до местных.
  • Оперативные (транзакционные) данные (transactional data) отражают информацию о ходе исполнения бизнес-процессов.
  • Исторические данные (historical data) образованы из прошлых версий мастер-данных, разделяемых справочников и транзакционных данных, возникших после завершения соответствующих бизнес-процессов. Такие данные явно привязаны ко времени свершения с указанием периода актуальности для записей справочников и реестров, конкретной исторической глубины. По сути, исторические данные — это один из важнейших ресурсов компании или организации, такие данные купить нельзя.

Все качественные данные в конечном итоге должны становиться частью знаний (knowledge) с формально описанной семантикой (рис. 1), что и позволяет наиболее эффективно строить интеллектуальные системы, а не просто автоматизировать бизнес-процессы. Именно качество данных определяет качество интеллектуальных методов анализа данных.

Термины

Основные термины определяются, в частности, в ГОСТ Р ИСО 8000-2-2019 «Качество данных. Часть 2. Словарь».

Совокупность (набор данных, data set) — логически значимая группа данных.

Метаданные (metadata) — данные, определяющие и описывающие другие данные.

Качество данных (data quality) — степень, с которой набор характеристик, присущих данным, отвечает конкретным требованиям с точки зрения их применения. Неправильно выстроенные уровни качества данных непосредственно влияют на успех проекта: можно либо задать слишком высокий уровень и не достигнуть его, либо установить слишком низкий уровень и тогда будет потерян смысл системы аналитики.

Управление качеством данных (data quality management, DQM) — согласованная деятельность по контролю и управлению структурой, имеющей непосредственное отношение к качеству данных, обеспечение соответствия данных целям их использования с поддержанием полноты, точности, корректности и своевременности.

Верификация (verification) — подтверждение посредством представления объективных свидетельств того, что установленные требования выполнены.

Полнота и завершенность данных (data completeness) — качество всех имеющихся у пользователя данных, которыми он владеет на определенный момент. Полнота характеризует подтвержденную достаточность данных для достижения конкретной цели.

Авторитетный источник данных (authoritative data source) — владелец процесса, производящего данные.

Утвержденное эталонное значение (accepted reference value) — значение, применяемое в качестве согласованной ссылки при сравнении данных (реестр).

Истинное значение (true value) — значение параметров характеристики какого-либо объекта в определенных условиях.

Качество данных — комплексная характеристика, которую присваивают источникам или наборам данных для их сравнения и использования в конкретных целях. Нельзя говорить о качестве данных в отрыве от цели их использования — эта характеристика строится с учетом множества параметров, начиная от таких простых, как объем данных, и заканчивая такими сложными, как стилистика текста на естественном языке. При оценке качества важны следующие параметры: непротиворечивость — отсутствие ошибок, корректность и пригодность для достижения цели (процент ошибочно введенных данных, процент доказанных ошибок и пр.); актуальность — связанность данных с конкретным моментом времени (дата последнего обновления, средняя дата набора и пр.).

Для большинства типичных применений имеются готовые метрики — всевозможные сборки в одну оценку отдельных характеристик данных, а также популярные приложения для работы с конкретными наборами и источниками данных. Однако, когда итоговый рабочий набор собирается, например, из четырех, и при этом один взят из открытых источников, другой — стандартный справочник, третий — корпоративные данные, а четвертый — исторические данные о продажах, могут возникнуть проблемы. У всех источников разные характеристики качества, и при их взаимной гармонизации надо знать, как изменяются эти характеристики, что происходит при иерархическом выстраивании данных и когда имеются связи «многие ко многим», а также выявлять ошибки на верхних уровнях иерархии. Нельзя говорить, что при сборе наборов разного качества получится нечто среднее.

Рейтинг
( Пока оценок нет )
Editor
Editor/ автор статьи

Давно интересуюсь темой. Мне нравится писать о том, в чём разбираюсь.

Понравилась статья? Поделиться с друзьями:
Работатека
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: