ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [데이터사이언스개론] Chapter 1
    Data Science/데이터사이언스개론 2024. 3. 17. 00:22

    Data Science

    : 데이터에서 지식이나 통찰력을 발견하고 추출하는 학제간 분야

    Data Scientist

    : 소프트웨어 엔지니어보다 통계를 잘 하고 통계학자보다 소프트웨어를 잘 해야 한다.

    Data scientist vs Data engineer vs Statistician

    • data scientist는 분석 및 기술 기능을 사용해 데이터에서 통찰력을 추출하는 것을 목표로 한다. 프로그래밍과 통계학, 비즈니스 이해력이 필요하다.
    • data engineer는 데이터를 다루기 위해 소프트웨어와 시스템을 디자인하고 만드는 것을 목표로 한다. 프로그래밍과 데이터베이스 스킬이 필요하다.
    • statistician은 실생활의 문제를 해결하기 위해 통계 이론과 방법을 사용하는 것을 목표로 한다. 통계학과 수학 스킬이 필요하다.

    Data Science의 영역

    최근 비즈니스 인프라는 데이터를 모으는 능력이 있고, 모든 비즈니스는 데이터를 모으기 쉽고 데이터 수집에 개방되어 있다. 이는, 데이터 사이언스에 대한 관심을 증가시켰다.

    Data engineering vs Data science

    • data science: 데이터를 모으고, 탐색하고 분석한다. 데이터 엔지니어링 기술을 사용해 데이터에 접근한다.
    • data engineering: 데이터 처리 시스템을 디자인하고 만들고 유지한다. 데이터 사이언스를 지지한다.

    (data engineering을 바탕으로 data science 이루어지는 느낌)

    Data Science의 상승세

    대부분의 회사는 이익을 위해 데이터 활용에 집중하고 있다.

    • 과거: 통계학자/분석학자를 고용해서 수동으로 데이터 탐색
    • 현재: 데이터의 양과 종류가 수동으로 탐색할 정도를 넘어섰다. 컴퓨터와 네트워크가 강력해졌다.

    → 데이터사이언스 법칙과 기술에 대한 적용이 증가했다.

    Data Mining

    : 많은 데이터 속에서 패턴을 찾아내는 과정

    ex) 타겟 마케팅, 온라인 광고, cross-selling, fraud detection

    Data Science vs Data Mining

    둘 다 섞어서 사용하기는 한다. 데이터 분석은 inspecting, cleansing, transformin, modelingg한다.

    • data science: data mining을 포함한다. 데이터에서 지식을 추출하는 기본 원칙이다.
    • data mining: 데이터 과학의 원리를 통합하는 기술을 통해 데이터로부터 지식을 추출하는 것이다.

    Huricane Frances example

    data-driven predictions으로 어떤 물건을 살지 예측해볼 수 있다. 여기에서 눈에 띄지 않는 패턴을 발견하는 것을 가치 있게 여긴다.

    → 데이터로 모델을 만들어서 남들이 모델을 사용하지 않으면 찾기 어려운 것을 찾자!

    Predicting Customer Churn example

    포화상태인 통신사 시장에서는 이미 존재하는 고객을 뺏고 있다. 예산이 한정되어 있을 때 고객을 붙들어 놓을 수 있는 방법은, 떠날 만한 사람을 찾아서 집중적으로 제안하는 것이다. (계약 만료 전 스페셜 오퍼 주기 등)


    Data-Driven Decision Making(DDD)

    : 개인의 경험이나 주관보다는 데이터의 분석에 기반을 해서 결정 내리는 것.

    • data science는 DDD를 지지한다.
    • 데이터 분석을 통해 현상을 이해하기 위한 원리, 프로세스 및 기술을 포함한다.
    • DDD의 장점: data-driven이 많을수록 생산적이다.
      • target vs walmart: 타겟에서는 부모가 될 사람들을 예측함으로서 이익을 얻었다.

    Automated DDD

    : 컴퓨터가 가지고 있는 데이터를 알고리즘에 의해 결정하는 것.

    • 요즘 비즈니스 결정은 컴퓨터 시스템에 의해 자동적으로 내려진다.
    • ex: fraud detection systems, automated merchandizing decision systems, Automated recommendation 등

    Big data

    : 전통적인 데이터 처리 기법으로는 너무 방대한 양을 가지고 있어 새로운 처리 기술이 필요한 데이터.

    • 데이터 사이언스를 지지
    • 데이터 엔지니어링을 포함한 많은 업무에서 사용한다.

    Data Science의 전략적 자산(Key strategic Assets)

    1. data
    2. 데이터에서 유용한 지식을 추출하는 능력

    → 모두 가지고 있어야 좋은 결과가 나온다. 데이터 사이언스 팀을 위한 투자와 적절한 데이터는 의사결정에 큰 변화를 일으킨다.

    전략적 자산으로서의 데이터(데이터 얼마나 중요한지) 예시

    1. Fairbanks and Morris와 신용카드사
      1. Fairbanks and Morris가 예측모델을 기반으로 다양한 (credit limit.. 등)을 개발했다.
      2. Signet Bank만 제안을 수락했다.
      3. 그러나 적절한 데이터가 없어서 처음에는 데이터를 얻기 위해 무작위로 이자율, 연회비를 설정했다.
      4. 돈을 못 갚는 경우가 늘어나 손실이 커졌다. 그러나 그들은 손실을 데이터에 대한 투자로 봤다.
      5. 결국 Signet 신용카드사가 너무 profitable(좋아짐)해짐
    2. 아마존
      1. 후기 제공
      2. 스위칭 비용(?)으로 온라인 고객 데이터 수집
    3. Harrah’s casinos
      1. 도박하는 사람에 대한 자료 수집, 데이터 마이닝
      2. 도박 크게 하는 사람에게 호텔 숙박 등 제공
    4. facebook
      1. 개인의 좋아요, 소셜 네트워크에 대한 특별한 정보 모으기

    Data-Analytic Thinking

    실제 문제에 직면했을 때 "데이터 분석적"으로 문제에 접근해야 한다.(데이터 활용 더 잘 하게)

    Data-Analytic Thinking은

    • 기본 개념과 원리에 의해 촉진된다.
    • 체계적인 틀로 구조화되었다.

    장점

    • 다른 것들과 경쟁적으로 상호작용 하는 것을 도와준다.
    • data-driven decision-making을 개선하는 데 도와준다.
    • 데이터 지향적인 경쟁 위협을 파악하는 데 도와준다.

    현재 회사에서는 수익을 늘리고 비용을 줄이기 위해 data scientist를 고용했고 데이터 마이닝을 전략적 요소로 사용한다.

    데이터 사이언티스트가 아니더라도, data-analytic thinking은 필요하다.

    ex) 매니저: 데이터 사이언스 팀, 프로젝트 감독

    마케터: data-driven 캠페인 이해

    → 비즈니스를 이해하기 위한 데이터 과학의 기본 개념을 알아야 한다. 아니면 잘못된 결정 내릴 수 있음.


    Fundamental Concepts의 예시

    1. 데이터에서 유용한 지식을 추출하기 위해 체계적인 과정을 따르자.
      1. 가정은 데이터에 대한 생각을 구조화시키는 틀을 제공한다.
    2. 많은 데이터들 속에서 informative attributes를 찾자.
      1. informative attribute는 필요한 정보를 준다.
    3. 과적합(overfitting)을 피하자.
      • fitting:학습시킨다.
      • overfitting: 특정 데이터만 너무 학습시켜서 일반화시키기 어려운 것.(주어진 학습 데이터에 대해서만 자세하게 학습 → 학습데이터는 다 맞춰도 test data는 못 맞추는 경우 발생)
      • underfitting: 과소적합

    Engineering Side of Data Science

    데이터 사이언티스트는 두 가지의 능력을 갖춰야 한다.

    1. Science
      • 이론적 개념과 원칙을 실제 상황에 적용하는 능력
    2. Technology
      • 프로그래밍 언어와 툴을 사용할 수 있는 능력

    → data scientist는 소프트웨어를 잘 해야 한다.


    summary

    1. data science
    2. : data driven decision making을 지지하며, 많은 양의 데이터로부터 유용한 정보와 지식을 추출하는 것.
    3. Thinking data-analytically
      • 실제 문제에 fundamental concepts를 적용할 줄 알아야 한다.
      • data scientist 뿐 아니라 같이 일하는 사람들에게도 중요하다.
    4. data science는 빅데이터 기술과 엔지니어링에 달려있다.
Designed by Tistory.