Базовые стандарты
Для исключения разночтений, при сборе простых характеристик нужной оценки качества данных применяются стандарты (начиная с ГОСТ 56215), регламентирующие понимание и применение терминов.
Стандарты группы ISO/TS 8000 и перевод (ГОСТ Р 56214-2014/ISO/TS 8000-1:2011 «Качество данных. Часть 1. Обзор» (docs.cntd.ru/document/1200114769)) — более 20 спецификаций, к которым сейчас активно добавляются новые:
a. части 1–99: «Качество общих данных»;
b. части 100–199: «Качество основных данных»;
c. части 200–299: «Качество данных в транзакциях»;
d. части 300–399: «Качество данных о продукции».
Принципы стандартов 8000:
качество применимо к данным, имеющим определенное назначение, учитывающимся при принятии какого-либо решения;
качество данных затрагивает нужные и подходящие данные, уместные в подходящем месте в подходящее время;
качество данных отвечает требованиям потребителя;
качество данных предотвращает повторение дефектов данных и сокращает избыточные расходы.
Международные стандарты группы ISO 25000 (iso25000.com) — это три главных стандарта: 25010, 25012 и 25040. Они определяют качество программного продукта с акцентом на общей модели качества данных, представленных в структурированном виде для информационной системы, а также критерии качества «продукта данных» как специального вида программного продукта.
Классификация данных
С точки зрения управления первичные данные обычно делят на четыре класса:
- Мастер-данные (master-data) определяют ключевые, представляющие особую ценность для организации или бизнеса и относительно редко изменяемые сущности.
- Разделяемые справочники (reference data) систематизируют и классифицируют другие данные, а также связывают между собой данные различных организаций. Сегодня на эту роль претендуют открытые данные (open data) любых уровней — от федеральных до местных.
- Оперативные (транзакционные) данные (transactional data) отражают информацию о ходе исполнения бизнес-процессов.
- Исторические данные (historical data) образованы из прошлых версий мастер-данных, разделяемых справочников и транзакционных данных, возникших после завершения соответствующих бизнес-процессов. Такие данные явно привязаны ко времени свершения с указанием периода актуальности для записей справочников и реестров, конкретной исторической глубины. По сути, исторические данные — это один из важнейших ресурсов компании или организации, такие данные купить нельзя.
Все качественные данные в конечном итоге должны становиться частью знаний (knowledge) с формально описанной семантикой (рис. 1), что и позволяет наиболее эффективно строить интеллектуальные системы, а не просто автоматизировать бизнес-процессы. Именно качество данных определяет качество интеллектуальных методов анализа данных.
Термины
Основные термины определяются, в частности, в ГОСТ Р ИСО 8000-2-2019 «Качество данных. Часть 2. Словарь».
Совокупность (набор данных, data set) — логически значимая группа данных.
Метаданные (metadata) — данные, определяющие и описывающие другие данные.
Качество данных (data quality) — степень, с которой набор характеристик, присущих данным, отвечает конкретным требованиям с точки зрения их применения. Неправильно выстроенные уровни качества данных непосредственно влияют на успех проекта: можно либо задать слишком высокий уровень и не достигнуть его, либо установить слишком низкий уровень и тогда будет потерян смысл системы аналитики.
Управление качеством данных (data quality management, DQM) — согласованная деятельность по контролю и управлению структурой, имеющей непосредственное отношение к качеству данных, обеспечение соответствия данных целям их использования с поддержанием полноты, точности, корректности и своевременности.
Верификация (verification) — подтверждение посредством представления объективных свидетельств того, что установленные требования выполнены.
Полнота и завершенность данных (data completeness) — качество всех имеющихся у пользователя данных, которыми он владеет на определенный момент. Полнота характеризует подтвержденную достаточность данных для достижения конкретной цели.
Авторитетный источник данных (authoritative data source) — владелец процесса, производящего данные.
Утвержденное эталонное значение (accepted reference value) — значение, применяемое в качестве согласованной ссылки при сравнении данных (реестр).
Истинное значение (true value) — значение параметров характеристики какого-либо объекта в определенных условиях.
Качество данных — комплексная характеристика, которую присваивают источникам или наборам данных для их сравнения и использования в конкретных целях. Нельзя говорить о качестве данных в отрыве от цели их использования — эта характеристика строится с учетом множества параметров, начиная от таких простых, как объем данных, и заканчивая такими сложными, как стилистика текста на естественном языке. При оценке качества важны следующие параметры: непротиворечивость — отсутствие ошибок, корректность и пригодность для достижения цели (процент ошибочно введенных данных, процент доказанных ошибок и пр.); актуальность — связанность данных с конкретным моментом времени (дата последнего обновления, средняя дата набора и пр.).
Для большинства типичных применений имеются готовые метрики — всевозможные сборки в одну оценку отдельных характеристик данных, а также популярные приложения для работы с конкретными наборами и источниками данных. Однако, когда итоговый рабочий набор собирается, например, из четырех, и при этом один взят из открытых источников, другой — стандартный справочник, третий — корпоративные данные, а четвертый — исторические данные о продажах, могут возникнуть проблемы. У всех источников разные характеристики качества, и при их взаимной гармонизации надо знать, как изменяются эти характеристики, что происходит при иерархическом выстраивании данных и когда имеются связи «многие ко многим», а также выявлять ошибки на верхних уровнях иерархии. Нельзя говорить, что при сборе наборов разного качества получится нечто среднее.