당신은 주제를 찾고 있습니까 “데이터 표준화 – [시나공 정보처리] 1419000 데이터 표준화“? 다음 카테고리의 웹사이트 https://you.maxfit.vn 에서 귀하의 모든 질문에 답변해 드립니다: https://you.maxfit.vn/blog/. 바로 아래에서 답을 찾을 수 있습니다. 작성자 길벗시나공 IT 이(가) 작성한 기사에는 조회수 811회 및 좋아요 5개 개의 좋아요가 있습니다.
데이터 표준화 정의 데이터 표준화는 시스템별로 산재해 있는 데이터 정보 요소에 대한 명칭, 정의, 형식, 규칙에 대한 원칙을 수립하여 이를 전사적으로 적용하는 것을 의미한다.
데이터 표준화 주제에 대한 동영상 보기
여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!
d여기에서 [시나공 정보처리] 1419000 데이터 표준화 – 데이터 표준화 주제에 대한 세부정보를 참조하세요
시나공 카페에서는 최신기출문제와 해설, 시험대비자료, 합격 전략 및 수기, 자격증 관련 문의 및 자료 등 IT 자격증 시험을 위한 모든 정보를 제공합니다.\r
카페 주소 : https://sinagong.gilbut.co.kr/it/
데이터 표준화 주제에 대한 자세한 내용은 여기를 참조하세요.
데이터 표준 관리
정의 및 관리 목적 데이터 표준 관리는 데이터 표준화 원칙에 따라 정의된 표준 단어 사전 및 도메인 사전, 표준 용어 사전, 표준 코드, 데이터 관련 …
Source: dataonair.or.kr
Date Published: 6/17/2021
View: 6975
[DAP] Ⅱ. 데이터 표준화 – 3-1. 데이터 표준화 개요
데이터 표준 정책의 미비로 정보시스템 개발 및 운영 과정상에서 동일한 의미의 데이터를 다른 명칭으로 중복 관리하거나 동일한 명칭의 데이터를 …
Source: kwomy.tistory.com
Date Published: 9/25/2022
View: 7836
공공기관의 데이터베이스 표준화 지침(안)
에 따른 공공데이터가 데이터베이스화 되어 있는 것을 말한다. 4. “표준화”란 코드, 용어, 데이터도메인 등의 표준을 수립하여 공공DB에 일관되게.
Source: www.mois.go.kr
Date Published: 5/4/2022
View: 9213
DAsP – 데이터 표준화 개요 [데이터 표준화 개념]
데이터 표준화 개념. 1. 데이터 표준화 정의. – 시스템별로 산재해 있는 데이터 정보 요소에 대한 명칭, 정의, 형식, 규칙에 대한 원칙을 수립하여 …
Source: programmingyoon.tistory.com
Date Published: 11/25/2021
View: 3451
데이터 표준화의 대상 – 데이터 명칭 및 정의의 … – CodeDragon
· 데이터 명칭을 그대로 서술하거나 약어 또는 전문 용어를 이용한 정의를 가급적 사용하지 않습니다. 데이터 형식. 도메인을 정의하여 데이터 표준에 적용함으로써 성격이 …
Source: codedragon.tistory.com
Date Published: 5/2/2022
View: 6010
데이터 표준화 – IT위키
명칭의 통일로 인한 명확한 의사소통의 증대 · 필요한 데이터의 소재 파악에 소요되는 시간 및 노력 감소 · 일관된 데이터 형식 및 규칙의 적용으로 인한 …
Source: itwiki.kr
Date Published: 5/7/2022
View: 8682
데이터 표준화에 대하여 _ CIS본부 파트3 김영석 수석
데이터 표준화가 무엇이냐고 묻는다면 좁은 의미로는 “현실 세계의 정보를 컴퓨터로 관리하기 위해 데이터베이스(DB)에 저장하는 정보항목의 종류, 명칭, …
Source: blog.b2en.com
Date Published: 12/20/2021
View: 2153
데이터 표준화의 필요성 – 똘기떵이
이번 시간에는 데이터 표준화의 중요성에 대해 이야기 해볼까 합니다. 정보화 시대속에서 데이터들이 기업의 전략적 의사결정의 핵심 요소로 대두됨에 …
Source: danbam.asbai.xyz
Date Published: 5/4/2022
View: 4564
주제와 관련된 이미지 데이터 표준화
주제와 관련된 더 많은 사진을 참조하십시오 [시나공 정보처리] 1419000 데이터 표준화. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.
주제에 대한 기사 평가 데이터 표준화
- Author: 길벗시나공 IT
- Views: 조회수 811회
- Likes: 좋아요 5개
- Date Published: 2021. 4. 19.
- Video Url link: https://www.youtube.com/watch?v=HP0EJDC7_ws
데이터 표준 관리
정의 및 관리 목적
데이터 표준 관리는 데이터 표준화 원칙에 따라 정의된 표준 단어 사전 및 도메인 사전, 표준 용어 사전, 표준 코드, 데이터 관련 요소 표준 등을 기관에 적합한 형태로 정의하고 관리하는 작업을 말하며, 데이터베이스 설계와 개발을 지원하고 전사적인 데이터 표준의 사용 및 재사용을 통해 시스템간 상호 운용성, 데이터 공유, 시스템 통합, 비즈니스 프로세스 개선 등을 지원한다. 데이터 표준 관리 는 전사적으로 공통된 표준을 사용하게 함으로써 데이터의 일관성과 정합성을 유지할 수 있다.
또한 데이터 표준 관리는 지속적인 표준화에 대한 교육과 개선/모니터링 활동으로 표준이 조직과 관련 담당자에게 체화되도록 한다. 데이터 표준은 현업의 의견이 반영되어야 하겠지만, 관습적으로 잘못 사용되어 온 용어를 모두 수용할 수는 없으므로 조정이 필요하다. 또한 표준의 적용은 신규 개발 시점에서 이루어지고 기존 시스템과의 중복 표준이 허용될 수 있다. 표준 관리 대상 및 적용 대상이 많을 경우 표준화 도구 등을 활용한 자동화를 고려할 수 있다.
세부 관리 대상
세부 관리 대상으로 표준 데이터가 있으며, 해당 데이터와 관련된 내용은 앞서 1장 데이터 이해와 2장 데이터 구조 이해에서 다루었으므로 여기서는 생략하기로 한다.
데이터 표준 관리 프로세스
데이터 표준 관리 프로세스
[그림 6-3-4]와 [그림 6-3-5]는 데이터 표준 정의 및 데이터 표준 변경에 대한 데이터 표준 관리 프로세스를 보여준다.DQ3.1.1 표준화 요구 사항 수집
[그림 6-3-4]의 DQ3.1.1 표준화 요구 사항 수집은 현업, 모델러, 및 사용자 뷰 운영자를 대상으로 데이터 표준과 관련된 요구 사항을 인터뷰와 설문지 조사를 통해 수집하고, 전사 데이터 표준 대상 후보를 추출하여 개선 방안을 도출한다.DQ3.1.2 표준화 원칙 수립
[그림 6-3-4]의 DQ3.1.2 표준화 원칙 수립은 현행 정보시스템에서 적용하고 있는 데이터 표준 원 칙과 모델 데이터, 업무 데이터를 수집하여 현행 데이터 표준에 대한 개선 방안을 토대로 향후에 적 용할 전사 데이터 표준화 원칙을 수립한다. 지속적으로 표준 데이터를 관리하고 개선할 수 있도록 데이터 표준 지침을 작성한다.DQ3.1.3 표준 단어 사전 정의
[그림 6-3-4]의 DQ3.1.3 표준 단어 사전 정의는 기존 모델 데이터 및 용어집을 통해 해당 기관에 서 사용되고 있는 모든 단어를 추출하여 정의된 표준화 원칙에 따라 한글명, 영문명, 영문 약어명 등을 정의하고 단어의 종류와 유형을 분류한다.DQ3.1.4 표준 도메인 사전 정의
[그림 6-3-4]의 DQ3.1.4 표준 도메인 사전 정의는 데이터의 물리적 데이터 특성과 사용 빈도, 업 무적 특성을 고려하여 정의된 표준화 원칙에 따라 도메인을 분류하고 도메인별 데이터 타입을 정의 한다.DQ3.1.5 표준 코드 정의
[그림 6-3-4]의 DQ3.1.5 표준 코드 정의는 기존 모델 데이터를 통해 코드를 선별하여 현 코드집 에 누락된 코드 정보를 수집하고, 수집된 코드 정보와 표준화 원칙을 바탕으로 표준 코드를 정의한 다. 통합 요구 사항과 통합 필요성의 제기 시에는 코드 통합 대상을 추출하고 해당 코드를 활용하는 사용자를 대상으로 인터뷰 및 설문 등을 실시하여 표준 코드를 정의한다. 향후 지속적인 관리를 위 해 코드별 오너십(Ownership)을 부여한다.DQ3.1.6 표준 용어 사전 정의
[그림 6-3-4]의 DQ3.1.6 표준 용어 사전 정의는 표준 단어, 표준 도메인, 표준 코드를 조합하여 정의된 표준화 원칙에 따라 표준 용어를 정의하고 용어의 설명을 수집한다.DQ3.1.7 데이터 관련 요소 표준 정의
[그림 6-3-4]의 DQ3.1.7 데이터 관련 요소 표준 정의는 정의된 표준 데이터와 표준화 원칙을 바탕 으로 업무적 용도와 물리적 특성을 고려하여 데이터 관련 요소 표준을 정의한다.DQ3.1.8 데이터 표준 검토
[그림 6-3-4]의 DQ3.1.8 데이터 표준 검토는 데이터 관리자가 정의한 표준 데이터가 업무적 용도 와 물리적 특성을 고려하여 표준화 원칙에 위배됨이 없이 정확하게 정의 되었는지를 확인하고 표준 예외 사항은 표준화 원칙에 피드백하여 처리한다.DQ3.1.9 데이터 표준 공표
[그림 6-3-4]의 DQ3.1.9 데이터 표준 공표는 정의된 표준화 프로세스에 따라 전사 시스템에 표준 화 원칙이 적용 가능하도록 확정된 데이터 표준을 배포하고 표준 데이터 관리에 대한 이해 및 적용 을 위한 교육을 실시한다.DQ3.2.1 변경 요구 사항 검토
[그림 6-3-5]의 DQ3.2.1 변경 요구 사항 검토는 요청된 표준 변경 요구 사항이 기존에 정의된 데 이터 표준을 사용해서도 처리 가능한 요건인지를 먼저 검토하고, 추가 및 변경이 필요하다고 판단 되는 경우에만 추가/변경 작업을 요청한다. 만약 기존 표준만으로도 처리 가능한 요건이라면 데이 터 모델 변경 작업이나 변경 취소 처리를 한다.DQ3.2.2 표준 변경 영향도 평가
[그림 6-3-5]의 DQ3.2.2 표준 변경 영향도 평가는 표준의 변경 시에 기존 테이블이나 칼럼에 영 향을 미치므로 해당 표준의 변경으로 인해 변경이 필요한 테이블 및 속성, 기타 요소들을 파악하고 해당 모델러(Modeler)에게 해당 작업을 요청한다. 변경 영향도 평가 작업 시 누락된 영향 요소가 없는지 철저히 파악하도록 한다.DQ3.2.3 표준 추가 및 변경
[그림 6-3-5]의 DQ3.2.3 표준 추가 및 변경은 표준 변경 요소에 대한 내역을 데이터 표준화 원칙 에 맞게 추가 및 변경한다. 변경 작업이 완료되면 변경된 사항을 토대로 영향도 평가 작업 및 공표 작업을 요청한다.DQ3.2.4 표준 등록 및 공표
[그림 6-3-5]의 DQ3.2.4 표준 등록 및 공표는 표준 추가 및 변경 작업을 통해 변경된 데이터 표 준 내역을 공표하여 향후 모델링 작업 및 데이터베이스 관리 작업 시에 활용하도록 한다. 표준 변 경 내역에 대한 올바른 적용을 위해 교육을 고려할 수도 있다.데이터 표준 개선 프로세스
DQ3.3.1 데이터 표준-데이터 모델 매핑
[그림 6-3-6]의 DQ3.3.1 데이터 표준 – 데이터 모델 매핑은 용어 표준, 도메인 표준, 명명 규칙 표 준을 데이터 모델(개념, 논리, 물리)에 반영하는 작업을 말한다. 예를 들어 데이터 표준화 생성 프로 세스에서 생성된 용어 표준(속성 표준, 칼럼 표준 등)을 데이터 모델에 반영하는 작업이다. 통상적으 로는 데이터 모델을 생성하는 작업을 수행하면서 데이터 표준에 따라 모델을 생성하게 된다. 하지만 이미 만들어진 데이터 모델에 대해서는 각 데이터 모델에 용어 표준을 적용하여야 한다.DQ3.3.2 데이터 표준 준수 체크
[그림 6-3-6]의 DQ3.3.2 데이터 표준 준수 체크는 데이터 표준과 데이터 객체(데이터 모델, 데이 터베이스 객체) 간에 데이터 표준을 준수하고 있는지를 체크하는 과정이다. 각 기관이 제정한 데이 터 표준(표준 용어, 표준 도메인, 명명 규칙 등)에 대해 각각의 데이터 모델 객체, 데이터베이스 객 체들이 표준을 준수하고 있는지 체크한다. 이러한 단계들은 통상적으로는 주기적으로 수행된다.DQ3.3.3 변경 영향도 분석
[그림 6-3-6]의 DQ3.3.3 변경 영향도 분석은 앞선 체크 과정에서 데이터 표준 미준수 부분에 대 한 영향을 분석하는 과정이다. 구체적으로는 데이터 표준을 변경할 때의 영향, 데이터 모델을 변경 할 때의 영향, 데이터베이스 객체를 변경했을 때의 영향 등으로, 데이터 표준을 준수하지 않아 발 생할 수 있는 영향들을 분석하는 과정이다. 이러한 분석 과정을 통하여 데이터 표준 변경, 데이터 모델 변경, 데이터베이스 변경 가운데 하나의 프로세스를 분기하게 된다.DQ3.3.4 데이터 표준 미준수 원인 분석
[그림 6-3-6]의 DQ3.3.4 데이터 표준 미준수 원인 분석은 실 데이터 값에 대해서 데이터 표준을 지키고 있는지를 체크하여 표준 미준수의 원인을 분석하는 과정이다. 실례로 데이터 표준에서 정 의한 코드 도메인 또는 표준 코드 값들을 실제 데이터들이 준수하고 있는지를 체크하는 과정을 들 수 있다.DQ3.3.5 데이터 정제
[그림 6-3-6]의 DQ3.3.5 데이터 정제는 앞선 데이터 표준을 준수하지 않은 데이터에 대해서 여 러 분석 작업을 통하여 데이터를 수정하는 과정을 말한다.
[DAP] Ⅱ. 데이터 표준화 – 3-1. 데이터 표준화 개요
반응형
[ Data Architecure Professional ]3-1. 데이터 표준화 개요
3-1-1. 데이터 표준화 필요성
1. 데이터 관리 현황 및 개선 방안
가. 데이터 활용상의 문제점
– 데이터의 중복 및 조직, 업무, 시스템별 데이터 불일치 발생
데이터 표준 정책의 미비로 정보시스템 개발 및 운영 과정상에서 동일한 의미의 데이터를 다른 명칭으로 중복 관리하거나 동일한 명칭의 데이터를 시스템 간에 상이한 로직으로 산출하여 다른 의미로 활용
– 데이터에 대한 의미 파악 지연으로 정보 제공의 적시성 결여
데이터 명칭, 데이터 정의에 대한 표준 미관리로 인해 새로운 정보 요건이나 정보요건변경 시 필요 데이터를 파악하는데 많은 시간을 낭비하여 정보 사용자에게 적시에 정확한 정보를 제공하는데 어려움
– 데이터 통합의 어려움
단위 시스템 위주의 데이터 표준을 적용하거나 적용하지 않는 경우도 존재하여 전사 데이터웨어하우스 구축 등 전사 데이터에 대한 통합적인 정보 요건을 기반으로 시스템을 구축할 때에는 데이터의 의미 파악 등에 많은 어려움이 있음
– 정보시스템 변경 및 유지 보수 곤란
데이터 표준 정책 미비로 인해 정보시스템의 변경이나 유지 보수 시 데이터 의미 파악에 어려움을 겪고 있고, 새로운 정보 요건 반영 시 기존 데이터의 활용이 가능한지 파악이 어려워 유지 보수에 많은 노력이 필요
나. 데이터 문제점의 원인
– 동시 다발적인 정보시스템 개발
최근의 정보시스템 개발프로젝트는 시스템 간 상호 연관성이 증대되어 단위 시스템 위주의 개발보다는 관련 정보시스템을 동시에 개발 환경하에서 전사적인 데이터 표준 정책 없이 단위 시스템 위주로 표준 정책을 수립하여 단위시스템의 업무 기능 구현에 초점을 맞추어 개발 프로젝트가 진행.
– 전사 데이터 관리 마인드 미형성
최근의 정보화 요건들은 단위 시스템의 데이터뿐 아니라 여러 시스템의 데이터를 복합적으로 활용하는 경우가 많으므로 전사 데이터를 체계적으로 관리하고자 하는 마인드 형성이 필요
– 전사 데이터 표준 관리 도구 부재
데이터 표준 관리에는 데이터 표준, 데이터 표준 준수 체크, 데이터 표준 조회 및 활용 등 많은 자동화된 시스템의 지원을 필요로 함. 정보 시스템개발 시에는 수작업으로 데이터 표준의 적용, 준수 체크 등을 수행하였지만 운영 단계에서 수작업에 가까운 표준 관리 방법은 많은 애로사항이 존재
다. 데이터 관리 개선 방안
– 데이터 표준화, 규격화를 위한 기본 방침 설정
– 전사적인 정보 공유를 위해 유지되어야 할 공통 데이터 요소의 도출
– 전사적인 데이터 요소 등록 및 관리 체계구축
– 정보시스템 개발 및 유지 보수 시 승인된 데이터 요소를 활용함으로써 시스템 개발의 효율성 및 데이터 공유성 향상
2. 데이터 표준화 기대 효과
– 명칭의 통일로 인한 명확한 의사소통의 증대
동일한 데이터에 대해서는 동일한 명칭을 사용함으로써 개발자-현업, 운영자-현업, 운영자-운영자 등 다양한 계층간에 명확하고 신속한 의사소통이 가능
– 필요한 데이터의 소재 파악에 소요되는 시간 및 노력 감소
새로운 정보 요건 사항 발생 시 표준화된 데이터를 사용함으로써 데이터의 의미, 데이터의 위치 등을 신속하게 파악할 수 있어 정보 활용자에게 원하는 시기에 정확한 정보를 전달
– 일관된 데이터 형식 및 규칙의 적용
데이터 형식 및 규칙을 데이터 표준에 맞게 적용함으로써 데이터 입력 오류 방지를 통해 데이터의 품질을 향상시킬 수 있음. 또한 데이터의 활용에 있어 표준에 근거하여 활용함으로써 잘못된 데이터의 활용으로 인한 의사결정의 오류를 줄일 수 있음.
– 정보시스템 간 데이터 인터페이스 시 데이터 변환, 정제 비용 감소
데이터 통합 프로젝트나 개별 시스템에서 다른 시스템의 데이터가 필요한 겨우 전사적으로 데이터 표준에 의해 데이터가 관리되고 있으면, 별도의 변환이나 정제 작업을 수행하지 않고 그대로 활용하면 되기 때문에 별도의 비용적인 부분이 발생하지 않음.
3-1-2. 데이터 표준화 개념
1. 데이터 표준화 정의
– 시스템별로 산재해 있는 데이터 정보 요소에 대한 명칭, 정의, 형식, 규칙에 대한 원칙을 수립하여 이를 전사적으로 적용하는 것을 의미
– 이러한 데이터 표준화 작업은 데이터의 정확한 의미를 파악할 수 있게 할 뿐만 아니라 데이터에 대한 상반된 시각을 조정하는 역할을 수행
가. 데이터 명칭
– 유일성
– 업무적 관점의 보편성
– 의미 전달의 충분성
나. 데이터 정의
해당 데이터가 의미하는 범위 및 자격 요건을 규정
– 데이터 사용자가 데이터의 의미를 잘 이해할 수 있도록 관련 업무를 모르는 제 3자의 입장에서 기술
– 서술식 정의만으로 데이터의 의미 전달이 어려울 경우에 실제 발생할 수 있는 데이터의 값도 같이 기술
– 데이터 명칭을 그대로 서술하고나 약어 또는 전문 용어를 이용한 정의 기술은 가급적 사용하지 않음
다. 데이터 형식
– 데이터 타입 : Numeric, Text, Date, Char, Timestamp 등
– 데이터 길이 및 소수점 자리
– 도메인을 정의하여 데이터 표준에 적용함으로써 성격이 유사한 데이터 간의 데이터 형식을 통일화
– 데이터의 최댓값 또는 최대 길이가 고정되어 있지 않을 경우 충분히 여유있게 정의
– 특수 데이터 타입(CLOB, Long Raw)은 데이터 조회, 백업, 이행 등에 있어서 제약 사항이 존재하는 제약 사항이 존재하는 경우가 많기 때문에 가급적 사용하지 않음
라. 데이터 규칙
발생 가능한 데이터 값을 사전에 정의함으로써 데이터의 입력 오류와 통제 위험을 최소화하는 역할을 함. 데이터 규칙을 통해 데이터의 정합성 및 완전성을 향상시킬 수 있음
– 기본값 : 데이터 값의 입력을 생략했을 경우 자동으로 입력되는 데이터 값을 의미
– 허용값 : 업무 규칙과 일관성을 갖도록 입력이 가능한 데이터 값을 제한하는 것으로, 표준 코드 중 데이터 항목별로 가질 수 없는 코드값을 사전에 정의하는 경우가 이에 해당됨
– 허용 범위 : 업무 규칙과 일관성을 갖도록 입력이 가능한 데이터 값을 범위로 제한하는 경우
2. 데이터 표준화 구성 요소
데이터 표준화 구성 요소
가. 데이터 표준
데이터 표준화는 기본적으로 데이터 모델 및 데이터베이스에서 정의할 수 있는 모든 객체를 대상으로 수행하는 것이 이상적이지만 주로 관리해야 될 필요성이 있는 객체만을 대상으로 데이터 표준화를 하는 것이 효율적
– 표준용어
업무적으로 사용하는 용어에 대한 표준을 정의함으로써 용어 사용 및 적용에 대한 혼란을 방지하고 원활한 커뮤니케이션을 촉진
* 업무적 용어
데이터 표준화 작업은 주로 데이터베이스에 적용하고 사용할 객체에 국한되기 때문에 업무적 용어의 표준화가 반드시 필요한 것은 아님. 그러나 데이터베이스에서 적용할 용어들이 대부분 현업에서 사용하는 용어를 그대로 수용한다는 점을 고려할 때 업무적 용어의 표준화는 데이터 표준화 작업을 수월하게 해주는 장점을 가짐 Ex) 색인(INDEX)
* 기술적 용어
데이터 모델 또는 데이터베이스 스키마에서 나타나는 테이블명 및 칼럼명 등이 기술적 용어에 해당. 테이블 및 칼럼의 한글명은 대부분 업무적 용어를 그대로 수용하는 것이 이상적이지만, 데이터 베이스의 제약사항(테이블명의 중복 불허, 명칭에 대한 길이 제약)과 표준 단어의 사용에 따라 업무적 용어와는 상이하게 정의될 수 있음
– 표준 단어
* 표준 단어를 관리함으로써 동일한 개념을 의미하는 용어 (또는 표준 용어)의 생성을 예방.
* 표준 용어는 여문명 작성 기준이 됨. 즉, 테이블 및 칼럼의 한글명만 작성하면 영문명은 표준 단어에 의해 자동으로 결정
– 표준 도메인
* 칼럼에 대항 성질을 그룹핑한 개념
* 도메인은 크게 문자형, 숫자형, 일자형, 시간형으로 분류할 수 있고, 더 세부적으로는 명, 주소, ID(이상 문자형), 금액, 율, 수량(이상숫자형) 등으로 분류할 수 있음
*표준 도메인을 칼럼에 적용함으로써 칼럼의 데이터 타입 및 데이터 길이를 일관되게 정의할 수 있음
– 표준 코드
* 도메인의 한 유형으로써 특정 도메인 값(코드 값)이 이미 정의되어 있는 도메인. 따라서 코드에 대한 표준은 다른 표준과는 달리 데이터 값, 즉 코드 값 까지 미리 정의해야함.
– 기타 데이터 표준 관련 요소
* 데이터 모델에서 정의하는 주제 영역, 관계명과 데이터베이스에서 정의하는 데이터베이스, 데이터베이스 스키마, TABLESPACE, INDEX, CONSTRAINT 등에 대한 표준을 관리
나. 데이터 표준 관리 조직
– 전사적으로 수립된 데이터 표준 원칙, 데이터 표준, 데이터 표준 준수 여부 관리 등을 위해서는 데이터 관리자(DA, Data Administrator)의 역할이 요구됨
– 데이터 관리자는 하나의 기업 또는 조직 내에서 데이터에 대한 정의, 체계화, 감독 및 보안 업무를 담당하는 관리자를 의미
1) 데이터 관리자 주요 역할
* 데이터에 대한 정책과 표준 정의
* 부서 간 데이터 구조 조율
* 데이터 보안 관리
* 데이터 모델 관리
* 데이터의 효율적인 활용 방안 계획
2) 데이터 관리자 세부 역할
3) 데이터베이스 관리자와 비교
다. 데이터 표준화 절차
3-1-3. 데이터 표준화 관리 도구
1. 확장된 데이터 표준 관리 도구의 기능
– 데이터 표준 관리 기능 외에 애플리케이션 정보, 데이터 흐름 정보, 각종 데이터에 대한 메타(Meta)정보에 대한 조회 기능을 갖는 메타 데이터 시스템을 도입하여 활용 중
2. 데이터 표준 관리 시스템 기능
가. 데이터 표준 관리 기능
– 데이터 표준을 정의하고자 할 때, 기존 정의된 표준들을 조회하고, 이미 정의된 데이터 표준디 잘 준수되도록 관리하는 기능으로 구성됨
나. 데이터 구조 관리 기능
다. 프로세스 관리의 기능
– 데이터 표준에 대하여 신규 및 변경이 발생하거나 데이터 모델과 관련해 신규 테이블 등을 요청하고 승인하는 업무 프로세스 기능으로 구성
3. 데이터 표준 관리 시스템 도입 시 고려사항
– 확장성
다양한 시스템 및 DBMS의 정보 수집과 OLAP 툴 등의 다양한 데이터 구조 정보를 추출할 수 있는지 검토
– 유연성
데이터 표준을 전사적으로 일시에 적용하기는 곤란하므로 단계적 적용을 위한 여러개의 통합 표준을 사용할 수 있는 복수 표준 관리가 가능한지와 한글명 및 영문명의 표현방식, 표준의 변경 용이성을 검토
– 편의성
한글명의 영문명 자동 변환, 표준 검증의 주기적인 작업 수행 가능, 메타 정보 수집 시 Import 수작업 최소화 등 사용자 편의성을 검토
반응형
데이터 표준화 개요 [데이터 표준화 개념]
데이터 표준화 개념
1. 데이터 표준화 정의
– 시스템별로 산재해 있는 데이터 정보 요소에 대한 명칭, 정의, 형식, 규칙에 대한 원칙을 수립하여 이를 전사적으로 적용하는 것을 의미한다.
– 이러한 데이터 표준화 작업은 데이터의 정확한 의미를 파악할 수 있게 할 뿐만 아니라 데이터에 대한 상반된 시각을 조정하는 역할을 수행한다.
가. 데이터 명칭
n 유일성
n 업무적 관점의 보편성
n 의미 전달의 충분성
나. 데이터 정의
– 해당 데이터가 의미하는 범위 및 자격 요건을 규정한다.
n 데이터 사용자가 데이터의 의미를 잘 이해할 수 있도록 관련 업무를 모르는 제 3자의 입장에서 기술한다.
n 서술식 정의만으로 데이터의 의미 전달이 어려울 경우에 실제 발생할 수 있는 데이터의 값도 같이 기술한다.
n 데이터 명칭을 그대로 서술하거나 약어 또는 전문 용어를 이용한 정의 기술은 가급적 사용하지 않는다.
다. 데이터 형식
n 데이터 타입
Numeric, Text, Date, Char, Timestamp 등..
n 데이터 길이 및 소수점 자리
n 도메인을 정의하여 데이터 표준에 적용함으로써 성격이 유사한 데이터 간의 데이터 형식을 통일화한다.
n 데이터의 최대값 또는 최대 길이가 고정되어 있지 않을 경우 충분히 여유 있게 정의한다.
n 특수 데이터 타입(CLOB, Long Raw 등)은 데이터 조회, 백업, 이행 등에 있어서 제약 사항이 존재하는 경우가 많기 때문에 가급적 사용하지 않는다.
라. 데이터 규칙
– 발생 가능한 데이터 값을 사전에 정의함으로써 데이터의 입력 오류와 통제 위험을 최소화하는 역할을 한다. 데이터 규칙을 통해 데이터의 정합성 및 완전성을 향상시킬 수 있다.
n 기본 값
데이터 값의 입력을 생략했을 경우 자동으로 입력되는 데이터 값을 의미한다.
n 허용 값
업무 규칙과 일관성을 갖도록 입력이 가능한 데이터 값을 제한하는 것으로, 표준 코드 중 데이터 항목별로 가질 수 있는 코드 값을 사전에 정의하는 경우가 이에 해당한다.
n 허용 범위
업무 규칙과 일관성을 갖도록 입력이 가능한 데이터 값을 범위로 제한하는 경우이다.
2. 데이터 표준화 구성 요소
가. 데이터 표준
– 데이터 표준화는 기본적으로 데이터 모델 및 데이터베이스에서 정의할 수 있는 모든 객체를 대상으로 수행하는 것이 이상적이지만 주로 관리해야 될 필요성이 있는 객체만을 대상으로 데이터 표준화를 하는 것이 효율적이다.
n 표준 용어
업무적으로 사용하는 용어에 대한 표준을 정의함으로써 용어 사용 및 적용에 대한 혼란을 방지하고 원활한 커뮤니케이션을 촉진시킨다.
l 업무적 용어
데이터 표준화 작업은 주로 데이터베이스에 적용하고 사용할 객체에 국한되기 때문에 업무적 용어의 표준화가 반드시 필요한 것은 아니다. 그러나 데이터베이스에서 적용할 용어들이 대부분 현업에서 사용하는 용어를 그대로 수용한다는 점을 고려할 때 업무적 용어의 표준화는 데이터 표준화 작업을 수월하게 해주는 장점이 있다. Ex) 색인(INDEX)
l 기술적 용어
데이터 모델 또는 데이터베이스 스키마에서 나타나는 테이블명 및 칼럼명 등이 기술적 용어에 해당한다. 테이블 및 칼럼의 한글명은 대부분 업무적 용어를 그대로 수용하는 것이 이상적이지만, 데이터베이스의 제약 사항(테이블명의 중복 불허, 명칭에 대한 길이 제약)과 표준 단어의 사용에 따라 업무적 용어와는 상이하게 정의될 수도 있다.
n 표준 단어
l 표준 단어를 관리함으로써 동일한 개념을 의미하는 용어(또는 표준 용어)의 생성을 예방한다.
l 표준 용어는 영문명 작성 기준이 된다. 즉, 테이블 및 칼럼의한글명만 작성하면 영문명은 표준 단어에 의해 자동으로 결정된다.
n 표준 도메인
– 칼럼에 대항 성질을 그룹핑한 개념이다.
– 도메인은 크게 문자형, 숫자형, 일자형, 시간형으로 분류할 수 있고, 더 세부적으로는 명, 주소, ID(이상 문자형), 금액, 율, 수량(이상 숫자형) 등으로 분류할 수 있다.
– 표준 도메인을 칼럼에 적용함으로써 칼럼의 데이터 타입 및 데이터 길이를 일관되게 정의할 수 있다.
n 표준 코드
– 도메인의 한 유형으로서 특정 도메인 값(코드 값)이 이미 정의되어 있는 도메인이다. 따라서 코드에 대한 표준은 다른 표준과는 달리 데이터 값, 즉 코드 값까지 미리 정의해야 한다.
n 기타 데이터 표준 관련 요소
– 데이터모델에서 정의하는 주제 영역, 관계명과 데이터베이스에서 정의하는 데이터베이스, 데이터베이스 스키마, TABLESPACE, INDEX, CONSTRAINT 등에 대한 표준을 관리한다.
나. 데이터 표준 관리 조직
– 전사적으로 수립된 데이터 표준 원칙, 데이터 표준, 데이터 표준 준수 여부 관리 등을 위해서는 데이터 관리자(DA, Data Administrator)의 역할이 요구된다.
– 데이터 관리자는 하나의 기업 또는 조직 내에서 데이터에 대한 정의, 체계화, 감독 및 보안 업무를 담당하는 관리자를 의미한다.
1) 데이터 관리자 주요 역할
n 데이터에 대한 정책과 표준 정의
n 부서 간 데이터 구조 조율
n 데이터 보안 관리
n 데이터 모델 관리
n 데이터의 효율적인 활용 방안 계획
2) 데이터 관리자 세부 역할
구분 주요 활동 전사 데이터 관리자 • 데이터 표준화에 대한 정책 결정 • 검토된 데이터 표준 제안에 대한 승인 업무 데이터 관리자 • 담당 업무 기능의 데이터 요구사항 반영을 위해 필요한 데이터 표준 정의 • 업무 관련 데이터 표준 변경 제안에 대한 합동 검토 업무 시스템 데이터 관리자 • 시스템 관리 목적의 데이터 요구사항을 위해 필요한 데이터 표준 정의 • 업무 관련 데이터 표준 변경 제안에 대한 합동 검토 • 데이터 모델에 대한 데이터 표준 적용 및 준수 여부 체크
3) 데이터베이스 관리자와 비교
구분 데이터 관리자(DA) 데이터베이스 관리자(DBA) 관리 대상 데이터 요구사항을 반영한 데이터 모델 및 각종 표준 데이터 모델을 특정 데이터베이스 제품의 특성에 맞추어 구축한 데이터베이스 주업무 업무에 필요한 데이터의 메타 데이터를 정의하고 신규 또는 변경된 요구사항을 신속하게 데이터 모델에 반영 요구되는 성능 수준을 발휘하면서 안정적으로 운영되도록 데이터베이스를 관리 품질 수준 확보 데이터 표준의 고나리 및 적용을 통해 품질 수준을 확보 데이터의 정합성 관리를 통해 데이터 품질 수준을 확보 전문 기술 담당 업무 분야에 대한 업무 지식과 데이터 모델링에 대한 전문성이 필요 데이터 모델에 대한 해독 능력 및 특정 데이터베이스 제품에 대한 전문 지식이 필요
다. 데이터 표준화 절차
구분 주요 활동 데이터 표준화 요구사항 수집 • 개별 시스템 데이터 표준 수집 • 데이터 표준화 요구사항 수집 • 표준화 현황 진단 데이터 표준 정의 • 표준화 원칙 • 데이터 표준 정의: 표준 용어, 표준 단어, 표준 도메인, 표준코드, 기타 표준 데이터 표준 확정 • 데이터 표준 검토 및 확정 • 데이터 표준 공표 데이터 표준 관리 • 데이터 표준 이행 • 데이터 표준 관리 절차 수립: 데이터 표준 적용, 변경, 준수 검사 절차
반응형
LIST
데이터 표준화
특성 요구사항
고유성 특정 데이터 개념을 표현하는 데이터의 명칭은 다른 개념을 표현하는 명칭과 동일하지 않은 값이어야 함
규칙성 데이터 명칭을 구성하는 용어·단어들은 통일된 규칙을 가져야 함
용어의 축약, 나열 순서 등이 통일되지 않을 경우 같은 의미를 가진 중복된 데이터 명칭이 혼용될 수 있음
보편성 데이터 명칭은 데이터를 취급하는 관점에서 보편타당하게 인지되어야 함
데이터 명칭 구성 시 업무에서 보편적으로 사용되는 표현을 차용해야 함
CIS본부 파트3 김영석 수석
들어가며. 어떻게 데이터 표준화를 설명하고 과정을 풀어갈까?
데이터 표준화를 회사 블로그에 올리기로 결정하고 참 많은 생각을 했습니다. 데이터 표준화를 처음 접하는 사람은 왠지 낯설고 나와는 상관없을 거 같은 업무라 생각하고 수행해 본 사람은 굉장히 손이 많이 가고 눈에 띄지 않는 일이기에 되도록 피하고 싶은 업무라는 것을 잘 알고 있었기 때문입니다. 그러나 현실 세계에서 기초를 중요하게 생각하고 그 기반 위에 과학과 건물과 물건이 있듯이 데이터를 처리하고 정보를 생산하고 데이터로 미래를 예측하는 시대에 정보시스템의 기초가 되는 데이터 표준화의 중요성을 어떻게 설명해야 하나 참 고민되었습니다. 무엇보다도 “딱딱한 내용을 끝까지 재미있게 읽을 수 있게 구성할 수 있을까?”라는 걱정이 가장 컸습니다^^*
데이터 표준화는 2000년 중 후반부터 정보시스템의 구축에 선택 업무로 수행했지만 최근 필수 업무로 자리 잡고 있습니다. 이러한 업무를 조금은 쉽게 그리고 고민하고 풀어갔던 일들을 공유하고자 합니다. 물론 아직도 풀지 못한 고민도 있습니다. 사람마다 생각이 다르고 경험이 다르기에 이 글을 읽는 분 중 좋은 의견이 있으면 이메일이나 댓글을 통해 공유해주시면 좋겠습니다.
이번 포스팅에서는 표준화를 처음 접하는 분들을 위해서 ‘1. 데이터 표준화 란’과 ‘2. 데이터 표준화 대상’은 쉽게 쓰고자 노력했습니다. 이후 ‘3. 데이터 표준화 절차’와 ‘4. 현황분석’ 부분은 데이터 표준화 업무 이해도가 있고 표준화 업무를 수행해야 할 분들을 대상으로 나누어 구성하였습니다. 내용이 길면 읽는 사람도 부담스럽고 쓰는 사람도 부담스러워 데이터 표준화 단계별 업무는 다음 포스팅에서 다뤄야 할 것 같습니다.
1. 데이터 표준화란?
데이터 표준화가 무엇이냐고 묻는다면 좁은 의미로는 “현실 세계의 정보를 컴퓨터로 관리하기 위해 데이터베이스(DB)에 저장하는 정보항목의 종류, 명칭, 형식, 유효값, 관리절차 등을 특정 기준에 따라 표준*을 만드는 일을 데이터 표준화**라고 말할 수 있습니다.
우리가 생활하면서 병과 병마개, 휴대전화 충전기가 안 맞을 때 “이건 표준이 안 되었네” 라고 말하는 것처럼 무엇을 합치거나 연계할 때 표준화 이슈는 발생합니다. 표준을 준용해야만 여러 부품과 제품을 쉽게 저비용으로 연결하고 통합하여 완성품 만들 수 있기 때문이지요.
정보시스템도 크게 다르지 않습니다. 단순히 급여를 계산하던 시스템이 경영정보를 생산하고 미래를 예측하는 시대입니다. 따라서 수많은 시스템의 데이터를 연결하고 통합하여 융합정보 생산하는 과정에서 비표준화된 데이터는 다양한 사용자간 의사소통 혼란, 부정확한 정보생산, 관리비용의 증가 이어져 자연스럽게 데이터 표준화의 필요성이 대두되었습니다. 즉 멋진 디자인, 빠른 처리속도, 많은 데이터, 현명한 알고리즘도 중요하지만 믿을 수 있는 정보를 만들기 위해서는 데이터 품질 확보가 필요했고 그 근간에 데이터 표준화가 있다는 것을 인식하게 된 것입니다.
기업에서 업무시스템(계정계)에서 분석시스템(정보계) 시스템을 구축하거나 여러 공공기관에서 개방되는 데이터를 모아서 활용하고자 할 경우 생성기준, 정보항목, 데이터유형 등이 제각각 이어서 어려움을 겪는 경우가 있습니다. 예를 들어 주차장앱을 서비스 하려는 경우를 보더라도 해당기관의 관리목적과 관리수준에 따라 관리하는 정보항목, 명칭, 형식, 유효값이 다를 수 있습니다.
<기관별 공영주차장 데이터 제공 항목 예시> 행정자치부 명칭, 주소, 연락처, 주차가능대수, 운영시간 서울시 주차장명, 최대주차대수, 잔여주차가능대수, 주소, 전화, 대표명, 기관명 성남시 주차장명, 주소, 주차장 종류, 노상/외상 여부, 총 주차면 수, 관리부서, 연락처
<민간기업의 데이터 요구 항목 예시> 요금정보 요금단위 시간(분), 단위 요금(원), 초기 무료시간(분), 기본 최소 사용 시간, 기본(최소)사용 금액,
일 최대 부과액, 정기권 요금(전일, 주간) 유료운영시간 운영시작/운영종료(평일, 주말, 공휴일)
이렇듯 자재든 정보항목이든 관리대상, 명칭, 형식 등을 표준화하고 결정하는 일이 당장은 불필요해보이고 비용이 들지 모르지만 표준에 맞게 데이터(DB)를 재구축 했을 때 향후의 생산성 향상과 표준화된 정보 활용을 통한 정책결정의 효과는 매우 튼 가치로 돌아오게 됩니다. 수많은 데이터가 쌓은 후에 이러한 필요성을 인지한 것은 아쉽지만 지금은 그 가치를 인정하고 자리 잡아 가기에 다행이라 생각합니다.
2. 데이터 표준화 대상
데이터 표준화에 앞서 데이터 구성요소를 ISO/IEC 11179 에서는 아래 같이 정의하고 있습니다.
여기서 데이터 표준화 대상은 정보항목(Attribute), 칼럼(Column), 데이터형식(Data Type)으로 한정하고자 합니다. 데이터 표준화에 대하여 조금 더 깊이 알아가고 싶은 분은 행정자치부의 「공공기관의 데이터베이스 표준화 지침」이나 한국데이터베이스진흥원에서 발간한 「데이터아키텍처 전문가 가이드」 책자에서 설명하는 ‘과목Ⅳ. 데이터 표준화’ 내용을 참고해주세요^^
데이터 표준화 결과물인 데이터 표준 사전은 단어사전, 용어사전, 도메인사전으로 구성됩니다. 지침과 책에서도 이러한 “데이터 표준화 결과물을 어떻게 만들고 관리 할 것인가?”를 주로 다루고 있습니다. 지금부터 얘기하는 내용은 되도록 책에서는 다루지 않는 내용을 중심으로 풀어 가고자 합니다. 이해를 돕기 위해 단어, 용어, 도메인 간 관계를 그림으로 표현해 보겠습니다. 참고로 그림에 사용된 말과 그림은 표준지침이나 관련 책자에 자세히 설명하고 있으니 참고 바랍니다.
<단어, 용어, 도메인, 코드 관계도>
3. 데이터 표준화 절차
지금부터는 데이터 표준화에 대하여 사전지식이 있는 사람이 프로젝트에 투입되었다는 것을 가정하고 얘기를 풀어 보겠습니다. 프로젝트 현장에 도착한 당신은 데이터 표준화를 어디부터 어떻게 접근하여 풀어 가야할까요? 여러분이 직면한 상황은 여러 가지 일 수 있습니다.
1. 운영하고 있는 시스템을 새롭게 재구축하는 경우
2. 신생 기업이 시스템을 구축하는 경우
3. 패키지를 사용하다가 SI사업으로 시스템을 재구축하는 경우
4. 기존 시스템에서 단위시스템을 추가 구축하는 경우
5. 업무시스템(계정계)에서 분석시스템(정보계)을 구축하는 경우
6. 두 기관의 시스템을 통합하는 경우
7. 기존에 데이터 사전을 관리하고 있으나 고도화하는 경우
8. 기타 등 등 등 등….
다른 일도 그렇겠지만 프로젝트 현장에 가보면 늘 다른 상황이 우리를 맞이합니다. 그러나 당황하지 말고 하나하나 풀어봅시다. 이미 경험해본 분들은 너무나 당연한 얘기로 들릴 수 있지만 그래도 최대한 표준화 과정을 상세하게 설명하고자 합니다. 먼저 표준화 절차를 간략하게 그림으로 표현해보면 아래와 같습니다.
<데이터 표준화 절차>
4. 현황조사
[주변 살피기] 프로젝트 현장에 투하(?) 되었다면 데이터 표준화에 앞서 현황을 조사합니다.첫째. 데이터 표준화(이하 ‘표준화’라 한다.) 결과물 활용 시점을 확인해야 합니다.
표준화 작업에 앞서 가장먼저 확인해야 할 것은 표준화 결과물이 활용되는 시점입니다. 다행스럽게 표준화 프로젝트 종료 후 구축 프로젝트에서 활용될 수도 있고 불행이 구축 프로젝트에 속하여 표준화 업무와 시스템 분석설계 업무가 동시에 진행될 수도 있습니다.
참고로 후자는 표준화 담당자, 설계자, 개발자 간 상관도가 높고 시간이 갈수록 변경 영향도가 높기기 때문에 서로 예민하고 괴롭습니다. 왜냐하면 확정되지 않은 표준화 결과물을 활용하다보면 표준 변경 시 많은 산출물에 영향을 주어 촉박한 일정과 시스템 품질 사이에서 갈등요소가 되기도 하기 때문입니다. 혹여 사업을 발주하는 업무 담당자라면 예산작업을 별도로 추진하는 어려움이 있더라도 본 사업 전에 표준화 결과물이 만들어 질 수 있도록 표준화 프로젝트를 먼저 발주하는 것이 좋겠습니다. 아무튼 골치 아픈 이야기는 뒤로하고 먼저 전자를 대상으로 설명하겠습니다.
둘째. 표준화 범위를 확인해야 합니다.
표준화 범위를 확인하면 대부분의 고객은 “표준화 검토대상은 전체 시스템(전사)로 하되 표준화 결과물 향후 일괄적용 또는 추가시스템에 한하여 적용하겠다.”라는 경우가 많습니다. 당연한 요구사항입니다. 즉 표준화는 통합 및 연계 시점에서 활용도가 높기 때문에 사업범위에 맞는 인력과 기간을 확보했다면 전사차원에서 수행하는 것이 좋습니다.
[자료 모으기] 표준화에 필요한 관련 자료를 최대한 수집합니다.현재의 데이터 표준화 수준을 파악하고 문제점을 도출하여 개선방안을 만들고 새로운 데이터 표준을 만들기 위해서는 최단시간에 최대한 많은 자료를 수집하여 분석해야 합니다. 시간을 단축하기 위하여 지금부터 제시하는 일은 동시(병렬처리)에 진행하는 것이 좋습니다.
첫째, 표준화 대상을 확정하기 위한 기준자료를 확보합니다.
우리가 무엇을 만들어야 하는 것은 사용자(개발자/운영자)가 쉽게 활용할 수 있도록 데이터 표준(도메인, 단어, 용어) 사전을 제공하는 것입니다. 요리를 하려면 재료가 필요하듯이 해당 프로젝트에서 어떤 정보항목 사용되고 있으며 다른 기관 또는 회사에서는 어떤 정보항목(이하 용어)을 사용하고 있는지 확인할 수 있는 자료를 모아야 합니다. 여러 가지 상황이 있겠지만 가정하기를 기존에 운영하는 시스템을 대상으로 표준화를 한다고 가정한다면 운영하고 있는 시스템의 DBMS에서 정보항목(테이블과 칼럼, 주석)을 요청하고 수집합니다. 기관에 따라 다르겠지만 데이터베이스의 칼럼 주석에 한글 칼럼명 관리하는 경우가 있고 칼럼을 이해하는 데 도움이 되기 때문에 주석 정보를 수집해야 합니다.
둘째, 시스템 관련 산출물을 수집해야 합니다.
시스템 운영자, 표준화 사업 담당자의 확인과 향후 데이터 표준화를 위하여 DBMS에서 수집한 테이블의 영문 칼럼명의 한글화가 필요합니다. 이를 위해서는 과거 시스템구축 시 작성했던 테이블정의서나 혹시 운영자가 관리하는 모델설계서나 표준화 지침서 등이 있다면 사업 담당자와 책임자의 협조를 구하여 최단시간에 최대한 많은 자료를 수집해야합니다. 산출물이 워드, 엑셀, 파워포인트 등 무엇이라도 좋습니다.
만일 신생기업이거나 패키지를 사용해서 기존 DBMS에서 정보항목을 수집할 수 없더라도 크게 당황할 필요가 없습니다. 우리가 일상에서 사용하는 단어가 제한적이듯 특별하다는 정보시스템에서 도 동일 업종에서 사용하는 정보항목이 주류를 이루고 있기 때문에 동일 업종의 시스템 정보항목을 확보하여 표준화 하면 80% ~ 90%는 활용할 수 있습니다. 물론 부족한 부분은 있을 수 있으며 이는 의견수렴이나 표준화 결과물을 활용하면서 보완하면 됩니다.
[영문칼럼명 한글화하기] 운영 시스템에서 추출한 영문칼럼을 한글화합니다.지금부터 하는 작업은 표준화 기준자료의 영문칼럼명과 수집한 산출물의 한글칼럼명을 매핑하는 작업입니다. 상식적으로 가장 믿을 수 있는 산출물을 먼저 적용하고 이후 관리 시점이 최근인 산출물을 차례로 적용합니다.
칼럼명을 한글화 하는 과정은 좀 더 구체적으로 설명해 보겠습니다.
우선 대상 시스템에서 추출한 표준화 기준정보 항목(단위시스템명, 영문테이블명, 영문칼럼명, 데이터유형, 데이터 길이)을 엑셀 또는 DB에 적재합니다. 그리고 지금까지 수집한 DBMS 칼럼주석, 모델설계서, 테이블정의서 자료를 표준화 기준정보 항목과 동일하게 구성하고 이에 한글칼럼명과 산출물명을 덧붙여 재구성하여 엑셀 또는 DB에 적재합니다. 신뢰도가 높은 산출물부터 표준화 기준자료와 산출물을 비교하여 한글칼럼명을 매핑하고, 매핑 순서는 ① 단위시스템명&영문테이블명&영문칼럼명&데이터유형&길이가 같고 한글명이 없는 경우 해당 산출물의 한글명을 반영한다. 이후 ② 영문테이블명&영문칼럼명&데이터유형&길이가 같고 한글명이 없는 경우 ③ 영문칼럼명&데이터유형&길이가 같고 한글명이 없는 경우 ④ 영문칼럼명이 같고 한글명이 없는 경우 산출물의 한글칼럼명을 반영한다.
영문칼럼 한글화 대상 칼럼이 적다면 엑셀의 함수(VLOOKUP)를 활용할 수도 있고 많다면 데이터베이스에 표준화 기준자료를 적재하고 한글화가 가능한 산출물을 DB에 적재 후 매핑 SQL을 만들어 영문칼럼명을 한글화합니다.
[표준화 대상 확정하기] 표준화 대상 테이블과 칼럼을 확정합니다.표준화 대상을 확정하기 위하여 각 시스템 운영담당자에게 영문칼럼명이 한글화된 테이블 칼럼정보를 배포하여 테이블 및 칼럼의 사용여부 확인과 영문칼럼의 한글화 검토를 요청합니다. 현실적으로 테이블 목록과 테이블 칼럼정보를 제공하고 검토 방법과 회신일자를 상세하게 설명해도 업무에 바쁜 시스템 운영담당자의 협조를 얻기는 힘듭니다. 그래도 꼭 거쳐야 하는 과정입니다. 유형이 분별된다면 시스템 테이블, 임시성 테이블, 작업용 테이블, 백업용 테이블 등 분류하여 제공할 수도 있습니다.
시스템 운영담당자의 확인까지 마치고 미사용 테이블과 칼럼을 제외하였다면 표준화 할 수 있는 기반은 마련한 샘입니다. 이 과정을 최대한 단축해야 표준화 작업할 시간을 확보 할 수 있습니다. 잊지 말아야 할 것은 이 과정을 마치면 표준화 대상 테이블과 칼럼 수, 한글화 상태를 단위시스템별로 도출하여 각 관계자에게 공유해야 합니다.
5. 현행 데이터 사전 생성
데이터 표준화 대상을 확정했다고 해서 바로 데이터 표준화 작업을 수행할 수 없습니다. 그 전에 현행 데이터 사전(용어, 도메인, 단어 사전)을 만들고 분석하여 현황 분석서 만들어야 합니다. 또한 앞으로 이런 기준으로 표준화를 수행하겠다는 ‘데이터 표준화 지침서(안)’을 만들어 공유하고 확정해야 합니다. 왜냐하면 고객에게 비표준화 사례와 문제점을 제시하고 개선 방안과 향후 작업내용, 일정 등을 공유함으로서 조금이나마 쉽게 협조와 참여를 이끌어 낼 수 있기 때문입니다.
[현행 용어 사전 만들기]현행 용어사전은 한글화된 테이블 칼럼 자료로 대체할 수 있습니다. 그러나 현행 용어사전을 다듬어(정제) 단어사전에 활용할 것인가? 아니면 그대로 둘 것인가에 대한 고민은 아직 풀리지 않았습니다. 다듬을 경우 현행 상태 훼손의 문제가 있고 그렇지 않을 경우 현행 도메인 사전 만들기나 현행 단어사전 만들기에 손이 더 가기 때문입니다. 표준화 경험이 있는 분들의 의견을 공유하면 좋겠습니다.^^*
[현행 도메인 사전 만들기]현행 도메인 사전은 타기관의 도메인 사전을 참고하여 도메인분류를 먼저 만듭니다. 현행 도메인 사전은 현행 용어사전을 기준으로 영문칼럼명의 끝자리 영문약어, 한글칼럼명, 데이터 유형, 데이터 길이 정보를 활용하여 도메인분류별 도메인을 도출합니다. 사람이 하는 일은 크게 상식에서 벗어나지 않듯이 기존 시스템을 설계하신 분들도 나름 기준을 갖고 구성했기에 현행 용어 사전을 보면 대략 패턴이 나옵니다. 예를 들어 도메인 유형이 금액인 경우 한글칼럼명이 “금액”, “금”, “액”, “가격”, “가”, “비” 등으로 끝나고 데이터 유형은 숫자형으로 되어있습니다.
도메인 분류 중 코드, 날짜, 명, 내용, 수량 등도 나름 패턴이 있어 조금은 지루하지만 현행 도메인 사전을 만들 수 있습니다.
[현행 단어 사전 만들기]그러나 현행 단어 사전을 만드는 일은 간단하지 않습니다. 현행 용어사전의 영문칼럼명과 한글칼럼명을 보고 단어를 분리하는 일이기 때문에 작업이 시간이 상당히 소요되고 이를 기반으로 향후 데이터 표준화 작업을 수행하기 때문에 중요한 작업이기도합니다.
현행 용어사전의 영문칼럼명이 “_”로 구분되었다면 그나마 다행이지만 그렇지 않은 경우 영문 칼럼명을 분리하는 작업은 참 난감합니다. 영문칼럼명과 한글칼럼명을 동시에 분리하는 이유는 향후 단어 표준화 시 현행 영문약어를 참고하여 영문명(영문정식명)을 유추할 수 있기 때문입니다.
한글칼럼명을 한글단어로 분리할 때는 한글단어 길이가 긴 단어를 우선 분리해야합니다. 그래야 단어의 훼손을 방지할 수 있습니다. 예를 들어 “번호”를 먼저 분리하면 “주민등록번호”가 “주민등록+번호”로 분리될 수 있기 때문입니다. 따라서 표준화 담당자는 단어분리 작업에 앞서 업무와 관련된 근거법령, 사용자 실무지침서, 약관, 업무용어집, 현행용어사전 등에서 정의한 단어와 고유명사, 복합어를 도출하고 익혀야 엉뚱하게 단어를 분리하는 일을 최소화 할 수 있습니다. 국어사전을 이용한 형태소 분리를 하기도 하지만 영문 칼럼과 연결하기 어려운 단점이 있습니다.
용어에서 단어 쪼개기는 통상 분류형 단어(코드, 일자, 금액, 명, ~금, ~비 ~액 등)가 있는 끝부분부터 합니다. 분류어 쪼개기가 끝나면 일반단어도 같은 방법으로 작업합니다. 주의할 점은 단어의 출처를 향후에 확인할 수 있도록 분리된 단어의 단위시스템명, 테이블명, 영문칼럼명을 함께 유지해야 합니다. 표준화를 처음 수행하는 사람은 놓치기 쉬운 것이 도출된 단어의 근거를 확보하지 못합니다. 단어만 추출해서는 의미 파악이 어렵고 의미가 파악이 안 되면 영문명과 영문약어를 생성하는데 어려움이 있습니다. 또한 동일한 단어라도 단위 시스템에 따라 다른 뜻으로 사용될 수 있기 때문에 도출된 단어와 관련된 시스템, 테이블, 칼럼 정보를 확보하고 있어야 합니다. 예를 들어 “수지”라는 단어만으로는 손가락인지 수익인지 가수 이름인지 파악하기 어렵기 때문입니다.
다행이 자사(비투엔)의 데이터 표준화 솔루션(SDQ))은 표준화 경험을 통해 만들었기 때문에 이러한 기능을 당연히 제공합니다.
6. 데이터 표준화 지침서(초안) 만들기
이제부터는 앞으로 어떻게 데이터 표준화를 할 것인지 기준과 절차를 제시하는 데이터 표준화 지침서(초안)를 만들어야 합니다. 표준화 지침서는 각 작업의 목적과 정의, 데이터 사전 생성방법, 절차 등을 포함해야 하기 때문에 깊은 고민과 풍부한 경험이 필요합니다. 하지만 당황하지 마십시오. 우리에게는 여러 기관에서 적용하고 다듬어진 데이터 표준화 지침서 족보(?)가 있습니다.
이를 참고로 발주기관의 표준화 담당자와 협의하여 데이터 표준화 지침서 초안을 작성하고 작업 예시 등을 보완하여 관계자에게 공유하여 검토 의견을 수렴합니다. 참고로 데이터 표준화 지침서 목차 예시를 첨부파일로 제공하니 데이터 표준화 지침서 구성을 이해하는데 도움이 되셨음 좋겠습니다.
여기서 데이터 표준화 지침서(초안)라고 했는데 그 이유는 데이터 표준화 하는 과정에서 변경이 있을 수 있기 때문입니다. 데이터 표준화를 마친 후에 제시하는 데이터 표준화 지침서가 완성본이 됩니다.
맺음말. 현황조사 단계를 마치며….
이쯤 되면 본격적인 데이터 표준화 작업을 위한 준비가 되었습니다.
다음 단계에 들어가기 전에 현황조사 단계를 정리하여 보고해야 합니다. 조사내용 및 현행 데이터 표준 적용 현황 등을 정리한 ‘현황 분석서’ 작성하여 보고하고 데이터 표준화 지침서를 공식화하게 됩니다. 현행 데이터 사전을 만들어 보면 비표준화로 인한 문제점을 쉽게 도출할 수 있습니다. 현황 분석서의 내용에 문제점을 담을 때는 어렵겠지만 일반적인 문제점보다 데이터 품질에 문제가 될 수 있는 것을 도출하여 제시하는 것이 좋은 방법입니다.
지금까지 현황조사 및 현황분석서 보고까지 단계를 설명했습니다. 나름대로 쉽게 써 보려고 했지만 역시 아쉽다. 데이터 표준화 결과물을 보면서 늘 아쉬워했던 것처럼…. 기회가 된다면 데이터 표준화 업무를 수행했던 사람들과 경험을 나누어 조금 더 넓고 깊게 다양한 관점에서 논하고 싶습니다. 이번 포스팅은 여기까지 하고 다음번에는 데이터 표준 사전을 만들면서 고민했던 내용을 담아 다시 찾아 뵙겠습니다.
데이터표준화지침서목차예시.txt
데이터 표준화의 필요성
반응형
이번 시간에는 데이터 표준화의 중요성에 대해 이야기 해볼까 합니다.
정보화 시대속에서 데이터들이 기업의 전략적 의사결정의 핵심 요소로 대두됨에 따라 데이터 통합, 품질에 관심이 많아지고 있습니다.
데이터의 품질을 확보하기 위해서는 데이터의 표준화가 꼭 필요합니다.
데이터라는 것은 객관적 사실이라는 정의가 있긴하지만, 전략적으로 필요한 데이터들을 정확하게 수집하지 않는다면 기업의 의사결정에
차질이 생깁니다. 데이터 표준화 정말 중요하겠죠?
데이터 표준화를 할때, 표준화하기 전 데이터 활용에 어떤 에로사항이 있는 알아보겠습니다.
데이터 활용에 있어 문제점은 아래와 같이 두 가지 입니다.
첫번째로, 데이터의 중복 및 조직, 업무, 시스템별 데이터 불일치 발생 데이터 표준 정책의 미비로 정보시스템 개발 및 운영 과정상에서 동일한 의미의 데이터를 다른 명칭으로 중복 관리하거나 동일한 명칭의 데이터를 시스템간에 상이한 로직으로 산출하여 다른 의미로 활용하고 있습니다.
두번째로, 데이터에 대한 의미 파악 지연으로 정보 제공의 적시성 결여 데이터 명칭, 데이터 정의에 대한 표준 미관리로 인해 새로운 정보 요건이나 정보 요건 변경시 필요 데이터를 파악하는데 많은 시간을 낭비하여 정보 사용자에게 적시에 정확한 정보를 제공하는데 어려움이 있습니다.
이러한 두 가지 문제점들이 정확한 정보를 적시에 사용자에게 전달하는 데 장애 요인이 되고 있으니 참 안타깝네요.
의도한바는 아닌데 말이죠.
데이터 활용과 더불어 데이터 통합에도 문제점이 존재합니다.
첫번째로 단위 시스템 위주의 데이터 표준을 적용하거나 적용치 않는 경우도 존재합니다.
전사 데이터웨어하우스 구축 등 전사 데이터에 대한 통합적인 정보 요건을 기반으로 시스템을 구축할 때에는 데이터의 의미 파악 및 데이터의 중복 여부 파악 등에 많은 어려움이 있습니다.
두번째로 정보시스템 변경 및 유지보수 곤란 데이터 표준 정책이 준비되어있지 않습니다.
정보시스템의 변경이나 유지보수시 데이터 의미 파악에 어려움을 겪고 있고, 새로운 정보 요건 반영시 기존 데이터의 활용이 가능한지 파악이 어려워 유지보수에 많은 노력이 필요합니다. 그래서 잘 안되고 있는것으로 보입니다.
위 두 가지의 근본적인 문제점은 무엇일까요?
이러한 문제점들은 과거 정보시스템 개발 및 운영 과정상에서 다음과 같은 요인들로 인해 발생했다고 보면 되겠습니다.
동시 다발적인 정보시스템 개발로 인해 시스템간 상호 연관성이 증대되어 단위 시스템 위주의 개발보다는 관련 정보시스템을 동시에 개발하면서 생깁니다. 한국은 빠르게 움직이는 나라이므로 결과만 내면 된다는 생각으로 구축을 하다보니 데이터 통합시 문제가 발생하는 것이겠지요.
데이터 표준화, 규격화를 위해서 우리는 어떻게 해야할까요?
첫번째로 전사적인 정보 공유를 위해 유지되어야 할 공통 데이터 요소를 도출하여 스키마 구성시 표준화,규격화를 미리 하고 시스템을 구축해야합니다.
두번째, 전사적인 데이터 요소 등록 및 관리 체계 구축해야 합니다. 이를 관리하는 담당자가 존재해야하며 시스템 유지보수 시 데이터 요소를 문서화한 후 회사차원에서 철저히 관리해야합니다.
세번째, 정보시스템 개발 및 유지보수시 승인된 데이터 요소를 활용함으로써 시스템 개발의 효율성 및 데이터 공유성 향상시켜야 합니다.
여기까지 데이터 표준화에 대해 말씀드리겠습니다.
긴글 읽어주셔서 대단히 감사드립니다.
반응형
키워드에 대한 정보 데이터 표준화
다음은 Bing에서 데이터 표준화 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.
이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!
사람들이 주제에 대해 자주 검색하는 키워드 [시나공 정보처리] 1419000 데이터 표준화
- 시나공
- 길벗
- 알앤디
- IT
- 자격증
- 컴퓨터
- 강의
- 토막강의
- 컴활
- 컴퓨터활용능력
- 워드
- 워드프로세서
- 정보처리
- 기사
- 산업기사
- 기능사
- 사무자동화
- 사무
- 정처기
- 1급
- 2급
- 필기
- 실기
- 엑셀
- 액세스
- java
- 언어
- 정기
- 상시
- 기출
- 시험
- c언어
YouTube에서 데이터 표준화 주제의 다른 동영상 보기
주제에 대한 기사를 시청해 주셔서 감사합니다 [시나공 정보처리] 1419000 데이터 표준화 | 데이터 표준화, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.