Data Science/데이터사이언스개론
-
[데이터사이언스개론] Chapter 4Data Science/데이터사이언스개론 2024. 3. 17. 13:58
modeling predictive modeling (predictive accuracy) mathematical expression : linear regression/parametric modeling → chap 4 logical statement or rules : decision tree/ nonparametric modeling → chap 3 descriptive modeling (intelligibility or understandability) clustering, profiling Predictive Modeling 의 type Nonparametric modeling Parametric modeling 구조 정해지지 않음 정해짐 데이터에 따라 정해짐 데이터 애널리스트가 정함 Nonpa..
-
[데이터사이언스개론] Chapter 3Data Science/데이터사이언스개론 2024. 3. 17. 13:48
Predictive Modeling general procedure 데이터를 가장 잘 표현하는 모델을 만든다. 결과를 예측하기 위해 모델에 새로운 데이터를 적용한다. general procedure 데이터를 가장 잘 표현하는 모델을 만든다. 결과를 예측하기 위해 모델에 새로운 데이터를 적용한다. Model : 목적에 따라 현실을 간략하게 표현한 것 중요한 것과 중요하지 않은 것을 바탕으로 간략화한 것 불필요한 정보는 버리면서 요약하고 필요한 정보는 유지하면서 요약한다. Types of Model: Predictive Model(예측 모델) : 모르는 관심 있는 값을 추출하는 공식 공식의 종류 수학적인 표현(linear regression) 논리적 기술 혹은 규칙(decision tree*) Types o..
-
[데이터사이언스개론] Chapter 2Data Science/데이터사이언스개론 2024. 3. 17. 10:41
Data Science Process 데이터 사이언스는 상당히 잘 이해된 단계가 있는 프로세스이다. 프로세스는 subtask로 쪼개고 전체 문제를 해결하기 위해 subtask에 대한 해결책을 생각한다. 문제의 근본으로 일반적으로 쓰이는 데이터 마이닝 작업들이 있다. 좋은 데이터사이언티스트가 되기 위해서는 일반적인 데이터 마이닝 작업을 많이 알고, 문제를 쪼개는 능력이 있어야 한다. Common Data Mining Task 근본적으로 다른 몇 가지 데이터 마이닝 작업들이 있다. Classification 모집단의 개인이 어떤 클래스에 속하는지 예측한다. 클래스는 상호배타적이다. (겹침 존재 불가) 용어 정리) instance: 학습 데이터 attribute: 속성 classification target=..
-
[데이터사이언스개론] Chapter 1Data Science/데이터사이언스개론 2024. 3. 17. 00:22
Data Science : 데이터에서 지식이나 통찰력을 발견하고 추출하는 학제간 분야 Data Scientist : 소프트웨어 엔지니어보다 통계를 잘 하고 통계학자보다 소프트웨어를 잘 해야 한다. Data scientist vs Data engineer vs Statistician data scientist는 분석 및 기술 기능을 사용해 데이터에서 통찰력을 추출하는 것을 목표로 한다. 프로그래밍과 통계학, 비즈니스 이해력이 필요하다. data engineer는 데이터를 다루기 위해 소프트웨어와 시스템을 디자인하고 만드는 것을 목표로 한다. 프로그래밍과 데이터베이스 스킬이 필요하다. statistician은 실생활의 문제를 해결하기 위해 통계 이론과 방법을 사용하는 것을 목표로 한다. 통계학과 수학 스킬이..