-
데이터와 정보, 데이터베이스, 빅데이터의 이해Data Science/ADsP 2024. 3. 16. 23:46
데이터의 정의
1. 데이터의 정의
- 바탕이 되는 자료
- 기술적이고 사실적인 의미의 자료
2. 데이터의 특성
- 존재적 특성 : 있는 그대로의 객관적 사실
- 당위적 특성 : 추론, 에측, 추정, 전망을 위한 정보의 근거
데이터의 유형
1. 데이터의 구분
- 정성적 데이터 : 수치, 도형, 기호 → 기준 명확 O
- 정량적 데이터 : 언어, 문자 → 기준 명확 X
2. 데이터의 종류
- 정형 데이터 : 고정된 틀 O, 연산 O, DB에 저장, 데이터의 수집과 관리 용이
- 반정형 데이터 : 고정된 틀 O, 연산 X, 파일로 저장
- 비정형 데이터 : 고정된 틀 X, 연산 X, NoSQL DB에 저장
3. 암묵지와 형식지
- 암묵지 : 체험으로 습득했지만 겉으로 드러나지 않은 지식
- 형식지 : 암묵지가 표출되어 공유할 수 있는 지식
- 💡 암묵지 → 형식지 : 표출화, 공통화 형식지 → 암묵지 : 내면화, 연결화
DIKW 피라미드
- Data
- Information
- Knowledge
- Wisdom 순으로 지혜를 얻는다.
데이터 관련 상식
- bit = 0 또는 1
- byte : 1 byte = 8 bit, 한글은 한 글자 당 2byte
- 데이터 단위
- 1 byte = 8 bit
- 1 KB = 1024 byte
- 1 MB = 1024 KB
- 1 GB = 1024 MB
- 1 TB = 1024 GB
- 1 PB = 1024 TB
- 1 EB = 1024 PB
- 1 ZB = 1024 EB
- 1 YB = 1024 ZB
데이터베이스 정의
- 데이터 기지
- DB : 정보의 집합체
- DBMS : 관리 소프트웨어
데이터베이스의 특징
1. 데이터베이스의 일반적 특징
- 통합된 데이터 : 중복 X
- 저장된 데이터 : 컴퓨터 접근 O
- 공용 데이터 : 여러 사용자가 공동 이용
- 변화하는 데이터 : 최신의 정확한 상태 유지
2. 데이터베이스의 다양한 측면에서의 특성
- 정보 축적 및 전달 측면
- 기계 가독성 : 정보처리기기가 읽고 씀
- 검색 가능성 : 정보 검색 가능
- 원격 조작성 : 온라인으로 이용 가능
- 정보이용 측면 : 정보 획득
- 정보관리 측면 : 저장, 정리
- 정보기술발전 측면
- 경제 산업적 측면
3. 데이터베이스 트랜젝션 특성
- 트랜젝션 : 데이터베이스에서 명령을 수행하는 논리적 기능의 단위
- 원자성 : 모두 적용되거나 모두 적용 X
- 일관성
- 고립성 : 다른 트랜젝션에 영향 X
- 지속성 : 결과 영구적
데이터베이스 활용
1. 데이터베이스 활용
- 인하우스 DB : 기업 경영 관련 자료를 일관된 체계로 구축
- OLTP : Online Transaction Processing, 단순 자동화 중심, 거래 단위에 초점
- OLAP : Online Anayltical Processing, 분석에 초점
OLTP → OLAP
- EAI : Enterprise Application Integreation, 모든 서비스를 중앙에서 관리
- KMS : Knowledge Management System, 지식을 통합하는 시스템
- BI : Bussiness Intelligence, 제조 부문의 의사결정, 가트너는 ‘여러 곳에 산재한 데이터를 수집해서 정확한 시간에 제공할 수 있는 환경’으로 정의
- ERP : Enterprise Resource Planning, 제조 부문의 경영 자원 통합 관리
- RTE : Real Time Enterprise, 제조 부문에서 실시간으로 통합 및 전달
- CRM : Customer Relationship Management, 제조 부문에서 고객 관계 관리
- SCM : Supply Chain Management, 유통 부문에서 공급망 관리
- BA : Bussiness Analytics, 경영 의사결정을 위한 통계적이고 수학적인 분석에 초점
2. 산업 부문별 데이터베이스 발전 과정
- 제조 부문 : DB 기술의 가장 중요한 적용 분야
- 인하우스 DB, BI, ERP, RTEE CRM
- 금융 부문 : EDW(Enterprise data Warehouse) 확장이 시장 확대에 기여할 것
- 유통 부문 : KMS
3. ‘사회기반구조’로서의 데이터베이스 발전 과정
- 물류 부문 : CALS
- 지리 부분
- 교통 부문
- 의료 부문
- 교육 부문
데이터베이스 종류
1. 데이터베이스의 종류
- (객체) 관계형 DB : 테이블에 저장, 정형 데이터에 특화
- Oracle, MySQL 등
- NoSQL : 관계형 DB의 SQL을 보완한 것. 비정형 데이터와 대용량 데이터 분석과 분산 처리에 특화
- MongoDB, CouchDB 등
- 계층형 DB : 부모 자식 형태, 중복 문제
- 네트워크형 DB : 중복 문제 해결, 구조 변경 어려움
- 분산형 DB : 분산된 것들을 하나로 침
- 객체지향 DB : 사용자가 정의하는 타입을 하나의 유형 데이터로 봄
2. 데이터베이스의 구성 요소
- 인스턴스 : 객체
- 속성
- 엔터티 : 데이터의 집합 (2개 이상)
- 메타 데이터 : 데이터를 설명하는 데이터
- 인덱스 : 내부에서 자동으로 주는 데이터명
3. SQL의 이해
- SQL : DB에 명령을 내리는 언어
- DDL : Data Definintion Language, CREATE ALTER RENAME DROP
- DML : Data Management Language, SELECT INSERT UPDATE DELECT
- DCL : 데이터 제어 언어, GRANT REVOKE
- TCL : 트랜젝션 제어 언어, COMMIT SAVEPOINT ROLLBACK
# 기본 문법 SELECT (컬럼명) FROM (테이블명) WHERE (조건절) SELECT (컬럼명) FROM (테이블명) WHERE (조건절) GROUP BY (대상 칼럼) HAVING (대상칼럼 조건)
- HAVING : 그룹화 할 대상에 대해
- WHERE : 그룹화 된 최종 결과에 대해
- AS : 별칭 선언 시 사용, 생략 가능
4. 데이터 마트와 데이터 웨어하우스
- DW (DATA WAREHOUSE) : 흩어져있는 데이터를 총체적 관점에서 결정을 위해 공통 형식으로 변환해 관리
- DM (DATA MART) : DW 로부터 추출된 작은 DB, 특정 목표를 달성하는데 필요한 데이터 제공
빅데이터의 정의
- 많다… 등등등
- 더그 래니의 정의 (3V) : Variety, Volume, Velocity
빅데이터의 특징
1. 더그 래니의 3V
- Variety
- Volume
- Velocity
2. 4V (3V + ?)
- Value
- Veracity
또는 Visualizaiton, Variablity 추가하기도 함
빅데이터의 출현 배경
- 데이터의 양적 증가
- 산업계의 변화
- 양질 전환의 법칙 : 양적 변화 축적 → 질적 변화 발생
- 학계의 변화
- 관련 기술의 발전
- 클라우딩 컴퓨팅 : 빅데이터 처리 비용 감소
빅데이터의 기능과 변화
1. 빅데이터의 기능
- 산업혁명의 석탄, 철
- 렌즈
- 21세기 원유
- 플랫폼 : 공동 활용의 목적으로 구축된 유무형의 구조물
2. 빅데이터가 만들어내는 변화
- 사전처리 → 사후처리
- 표본조사 → 전수조사
- 질 → 양
- 인과관계 → 상관관계
3. 빅데이터의 등장에 따른 변화
- 데이터 변화
- 기술 변화
- 인재 조직 변화