Data Science
-
[데이터사이언스개론] Chapter 4Data Science/데이터사이언스개론 2024. 3. 17. 13:58
modeling predictive modeling (predictive accuracy) mathematical expression : linear regression/parametric modeling → chap 4 logical statement or rules : decision tree/ nonparametric modeling → chap 3 descriptive modeling (intelligibility or understandability) clustering, profiling Predictive Modeling 의 type Nonparametric modeling Parametric modeling 구조 정해지지 않음 정해짐 데이터에 따라 정해짐 데이터 애널리스트가 정함 Nonpa..
-
[데이터사이언스개론] Chapter 3Data Science/데이터사이언스개론 2024. 3. 17. 13:48
Predictive Modeling general procedure 데이터를 가장 잘 표현하는 모델을 만든다. 결과를 예측하기 위해 모델에 새로운 데이터를 적용한다. general procedure 데이터를 가장 잘 표현하는 모델을 만든다. 결과를 예측하기 위해 모델에 새로운 데이터를 적용한다. Model : 목적에 따라 현실을 간략하게 표현한 것 중요한 것과 중요하지 않은 것을 바탕으로 간략화한 것 불필요한 정보는 버리면서 요약하고 필요한 정보는 유지하면서 요약한다. Types of Model: Predictive Model(예측 모델) : 모르는 관심 있는 값을 추출하는 공식 공식의 종류 수학적인 표현(linear regression) 논리적 기술 혹은 규칙(decision tree*) Types o..
-
[데이터사이언스개론] Chapter 2Data Science/데이터사이언스개론 2024. 3. 17. 10:41
Data Science Process 데이터 사이언스는 상당히 잘 이해된 단계가 있는 프로세스이다. 프로세스는 subtask로 쪼개고 전체 문제를 해결하기 위해 subtask에 대한 해결책을 생각한다. 문제의 근본으로 일반적으로 쓰이는 데이터 마이닝 작업들이 있다. 좋은 데이터사이언티스트가 되기 위해서는 일반적인 데이터 마이닝 작업을 많이 알고, 문제를 쪼개는 능력이 있어야 한다. Common Data Mining Task 근본적으로 다른 몇 가지 데이터 마이닝 작업들이 있다. Classification 모집단의 개인이 어떤 클래스에 속하는지 예측한다. 클래스는 상호배타적이다. (겹침 존재 불가) 용어 정리) instance: 학습 데이터 attribute: 속성 classification target=..
-
[데이터사이언스개론] Chapter 1Data Science/데이터사이언스개론 2024. 3. 17. 00:22
Data Science : 데이터에서 지식이나 통찰력을 발견하고 추출하는 학제간 분야 Data Scientist : 소프트웨어 엔지니어보다 통계를 잘 하고 통계학자보다 소프트웨어를 잘 해야 한다. Data scientist vs Data engineer vs Statistician data scientist는 분석 및 기술 기능을 사용해 데이터에서 통찰력을 추출하는 것을 목표로 한다. 프로그래밍과 통계학, 비즈니스 이해력이 필요하다. data engineer는 데이터를 다루기 위해 소프트웨어와 시스템을 디자인하고 만드는 것을 목표로 한다. 프로그래밍과 데이터베이스 스킬이 필요하다. statistician은 실생활의 문제를 해결하기 위해 통계 이론과 방법을 사용하는 것을 목표로 한다. 통계학과 수학 스킬이..
-
데이터와 정보, 데이터베이스, 빅데이터의 이해Data Science/ADsP 2024. 3. 16. 23:46
데이터의 정의 1. 데이터의 정의 바탕이 되는 자료 기술적이고 사실적인 의미의 자료 2. 데이터의 특성 존재적 특성 : 있는 그대로의 객관적 사실 당위적 특성 : 추론, 에측, 추정, 전망을 위한 정보의 근거 데이터의 유형 1. 데이터의 구분 정성적 데이터 : 수치, 도형, 기호 → 기준 명확 O 정량적 데이터 : 언어, 문자 → 기준 명확 X 2. 데이터의 종류 정형 데이터 : 고정된 틀 O, 연산 O, DB에 저장, 데이터의 수집과 관리 용이 반정형 데이터 : 고정된 틀 O, 연산 X, 파일로 저장 비정형 데이터 : 고정된 틀 X, 연산 X, NoSQL DB에 저장 3. 암묵지와 형식지 암묵지 : 체험으로 습득했지만 겉으로 드러나지 않은 지식 형식지 : 암묵지가 표출되어 공유할 수 있는 지..
-
데이터베이스와 SQLData Science/SQL 2024. 3. 13. 21:40
1. 데이터베이스와 SQL : 데이터베이스 알아보기 1. 데이터베이스와 DBMS 데이터베이스 : 데이터의 집합 여러 명의 사용자나 응용 프로그램과 공유, 동시 접근 가능 DBMS : 데이터베이스를 관리하고 운영하는 소프트웨어 엑셀은 여러 사용자와 공유 X → DBMS 아님 2. DBMS의 종류 소프트웨어 = 특정 목적 처리를 위한 프로그램 3. DBMS의 발전과정 종이에 펜으로 기록 컴퓨터에 파일로 저장 파일 : 한 번에 한 명의 사용자만 작업 가능 불일치 문제가 발생 가능하지만 소량 데이터 처리 시 속도가 빠르고 사용법이 편리 DBMS의 대두와 보급 by 에드거 프랭크 커드 SQL : DBMS에서 활용하는 언어 4. DBMS의 분류 계층형 (1960) : 트리 형태, 변경이 까다로움 망형 (1970) ..