ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터와 정보, 데이터베이스, 빅데이터의 이해
    Data Science/ADsP 2025. 1. 11. 22:01

    데이터의 정의

    1. 데이터의 정의

    • 바탕이 되는 자료
    • 기술적이고 사실적인 의미의 자료

    2. 데이터의 특성

    • 존재적 특성 : 있는 그대로의 객관적 사실
    • 당위적 특성 : 추론, 에측, 추정, 전망을 위한 정보의 근거

    데이터의 유형

    1. 데이터의 구분

    • 정성적 데이터 : 수치, 도형, 기호 → 기준 명확 O
    • 정량적 데이터 : 언어, 문자 → 기준 명확 X

    2. 데이터의 종류

    • 정형 데이터 : 고정된 틀 O, 연산 O, DB에 저장, 데이터의 수집과 관리 용이
    • 반정형 데이터 : 고정된 틀 O, 연산 X, 파일로 저장
    • 비정형 데이터 : 고정된 틀 X, 연산 X, NoSQL DB에 저장

    3. 암묵지와 형식지

    • 암묵지 : 체험으로 습득했지만 겉으로 드러나지 않은 지식
    • 형식지 : 암묵지가 표출되어 공유할 수 있는 지식
    • 💡 암묵지 → 형식지 : 표출화, 공통화 형식지 → 암묵지 : 내면화, 연결화

    DIKW 피라미드

    • Data
    • Information
    • Knowledge
    • Wisdom 순으로 지혜를 얻는다.

    데이터 관련 상식

    • bit = 0 또는 1
    • byte : 1 byte = 8 bit, 한글은 한 글자 당 2byte
    • 데이터 단위
    • 1 byte = 8 bit
    • 1 KB = 1024 byte
    • 1 MB = 1024 KB
    • 1 GB = 1024 MB
    • 1 TB = 1024 GB
    • 1 PB = 1024 TB
    • 1 EB = 1024 PB
    • 1 ZB = 1024 EB
    • 1 YB = 1024 ZB

    데이터베이스 정의

    • 데이터 기지
    • DB : 정보의 집합체
    • DBMS : 관리 소프트웨어

    데이터베이스의 특징

    1. 데이터베이스의 일반적 특징

    • 통합된 데이터 : 중복 X
    • 저장된 데이터 : 컴퓨터 접근 O
    • 공용 데이터 : 여러 사용자가 공동 이용
    • 변화하는 데이터 : 최신의 정확한 상태 유지

    2. 데이터베이스의 다양한 측면에서의 특성

    • 정보 축적 및 전달 측면
    • 기계 가독성 : 정보처리기기가 읽고 씀
    • 검색 가능성 : 정보 검색 가능
    • 원격 조작성 : 온라인으로 이용 가능
    • 정보이용 측면 : 정보 획득
    • 정보관리 측면 : 저장, 정리
    • 정보기술발전 측면
    • 경제 산업적 측면

    3. 데이터베이스 트랜젝션 특성

    • 트랜젝션 : 데이터베이스에서 명령을 수행하는 논리적 기능의 단위
    • 원자성 : 모두 적용되거나 모두 적용 X
    • 일관성
    • 고립성 : 다른 트랜젝션에 영향 X
    • 지속성 : 결과 영구적

    데이터베이스 활용

    1. 데이터베이스 활용

    • 인하우스 DB : 기업 경영 관련 자료를 일관된 체계로 구축
    • OLTP : Online Transaction Processing, 단순 자동화 중심, 거래 단위에 초점
    • OLAP : Online Anayltical Processing, 분석에 초점

    OLTP → OLAP

    • EAI : Enterprise Application Integreation, 모든 서비스를 중앙에서 관리
    • KMS : Knowledge Management System, 지식을 통합하는 시스템
    • BI : Bussiness Intelligence, 제조 부문의 의사결정, 가트너는 ‘여러 곳에 산재한 데이터를 수집해서 정확한 시간에 제공할 수 있는 환경’으로 정의
    • ERP : Enterprise Resource Planning, 제조 부문의 경영 자원 통합 관리
    • RTE : Real Time Enterprise, 제조 부문에서 실시간으로 통합 및 전달
    • CRM : Customer Relationship Management, 제조 부문에서 고객 관계 관리
    • SCM : Supply Chain Management, 유통 부문에서 공급망 관리
    • BA : Bussiness Analytics, 경영 의사결정을 위한 통계적이고 수학적인 분석에 초점

    2. 산업 부문별 데이터베이스 발전 과정

    • 제조 부문 : DB 기술의 가장 중요한 적용 분야
    • 인하우스 DB, BI, ERP, RTEE CRM
    • 금융 부문 : EDW(Enterprise data Warehouse) 확장이 시장 확대에 기여할 것
    • 유통 부문 : KMS

    3. ‘사회기반구조’로서의 데이터베이스 발전 과정

    • 물류 부문 : CALS
    • 지리 부분
    • 교통 부문
    • 의료 부문
    • 교육 부문

    데이터베이스 종류

    1. 데이터베이스의 종류

    • (객체) 관계형 DB : 테이블에 저장, 정형 데이터에 특화
    • Oracle, MySQL 등
    • NoSQL : 관계형 DB의 SQL을 보완한 것. 비정형 데이터와 대용량 데이터 분석과 분산 처리에 특화
    • MongoDB, CouchDB 등

    • 계층형 DB : 부모 자식 형태, 중복 문제
    • 네트워크형 DB : 중복 문제 해결, 구조 변경 어려움
    • 분산형 DB : 분산된 것들을 하나로 침
    • 객체지향 DB : 사용자가 정의하는 타입을 하나의 유형 데이터로 봄

    2. 데이터베이스의 구성 요소

    • 인스턴스 : 객체
    • 속성
    • 엔터티 : 데이터의 집합 (2개 이상)
    • 메타 데이터 : 데이터를 설명하는 데이터
    • 인덱스 : 내부에서 자동으로 주는 데이터명

    3. SQL의 이해

    • SQL : DB에 명령을 내리는 언어
    • DDL : Data Definintion Language, CREATE ALTER RENAME DROP
    • DML : Data Management Language, SELECT INSERT UPDATE DELECT
    • DCL : 데이터 제어 언어, GRANT REVOKE
    • TCL : 트랜젝션 제어 언어, COMMIT SAVEPOINT ROLLBACK
      # 기본 문법 
      SELECT (컬럼명) FROM (테이블명) WHERE (조건절) 
      SELECT (컬럼명) FROM (테이블명) WHERE (조건절) GROUP BY (대상 칼럼) HAVING (대상칼럼 조건)
     
    • HAVING : 그룹화 할 대상에 대해
    • WHERE : 그룹화 된 최종 결과에 대해
    • AS : 별칭 선언 시 사용, 생략 가능

    4. 데이터 마트와 데이터 웨어하우스

    • DW (DATA WAREHOUSE) : 흩어져있는 데이터를 총체적 관점에서 결정을 위해 공통 형식으로 변환해 관리
    • DM (DATA MART) : DW 로부터 추출된 작은 DB, 특정 목표를 달성하는데 필요한 데이터 제공

    빅데이터의 정의

    • 많다… 등등등
    • 더그 래니의 정의 (3V) : Variety, Volume, Velocity

    빅데이터의 특징

    1. 더그 래니의 3V

    • Variety
    • Volume
    • Velocity

    2. 4V (3V + ?)

    • Value
    • Veracity

    또는 Visualizaiton, Variablity 추가하기도 함


    빅데이터의 출현 배경

    • 데이터의 양적 증가
    • 산업계의 변화
    • 양질 전환의 법칙 : 양적 변화 축적 → 질적 변화 발생
    • 학계의 변화
    • 관련 기술의 발전
    • 클라우딩 컴퓨팅 : 빅데이터 처리 비용 감소

    빅데이터의 기능과 변화

    1. 빅데이터의 기능

    • 산업혁명의 석탄, 철
    • 렌즈
    • 21세기 원유
    • 플랫폼 : 공동 활용의 목적으로 구축된 유무형의 구조물

    2. 빅데이터가 만들어내는 변화

    • 사전처리 → 사후처리
    • 표본조사 → 전수조사
    • 질 → 양
    • 인과관계 → 상관관계

    3. 빅데이터의 등장에 따른 변화

    • 데이터 변화
    • 기술 변화
    • 인재 조직 변화

     

     

     
Designed by Tistory.