ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [데이터사이언스개론] Chapter 4 (2)
    카테고리 없음 2024. 3. 17. 15:05

    Image Processing

    • Opening: gray scale image(0~255)를
      1. 임계값 설정 후 이미지 반전: 어느 정도를 넘어서면 검정/흰색으로
      2. 작은 것들을 삭제하고 어느 정도의 크기를 가진 것만 남기기
      3. 더 작은 셀도 보이도록 하기
    • Erosion(깎기): 원본이 이미지상으로는 다 연결되어 있다고 판단할 때
      1. 임계값 설정 후 이미지 반전
      2. 이미지 깎기 (픽셀/스퀘어)

    Linear Classifier for Ranking Instance

    단순히 인스턴스가 클래스에 속하는지 여부에 대한 예 또는 아니오 예측을 원하지 않는 경우가 많다.

    종종 인스턴스가 클래스에 속할 확률값들을 순위 매기고 싶어진다.

    • 고객이 offer를 제공받을까: binary
    • 어떤 고객이 offer을 잘 제공받을까?

    → linear classifiers는 무료로 순위를 제공해준다.

    • Observations
      • f(x) 경계 근처/ 선 상에 있으면: 클래스에 가장 불확실
      • f(x)와 멀리 떨어져 있으면: 클래스에 대한 가장 높은 확률을 기대
    • Conclusion
      • f(x) 자체를 사용해 관심 클래스에 대한 확률로 직관적으로 만족스러운 인스턴스의 순위를 얻을 수 있다.
      • == f(x)의 값으로 ranking 매길 수 있다.

    Nonlinear Models

    • linear model: 일직선으로 데이터를 나눔
    • nonlinear models: 곡선으로 데이터를 나눔

    : nonlinear term을 포함한 linear model

    • linear term: single featur(x)에 w라는 상수를 곱한 것만 포함
    • nonlinear term: features의 곱, 나눗셈, 지수, 로그를 포함

    Examples of Nonlinear Models

    1. logistic regression(linear) and SVM with a nonlinear term

     

     

    2. artificial neural networks (인공신경망)

    • 아주 복잡한 nonlinear 함수 만드는데 사용
    • 복잡한 nonlinear 함수를 배우는 데 사용
    • 더 복잡한 함수를 생성하기 위해 많은 nonlinear 함수를 연결
    • hidden layer가 많을수록 복잡한 nonlinear 함수를 만들 수 있다.
    • hidden layer가 적을수록 shallow, 많을수록 deep

     

    3. logistic regression vs neural network

    • logistic regression: 선형 결정 경계 사용
    • neural network: 비선형 결정 경계 사용, nonlinear 함수를 여러 개 합쳐서 결정경계를 정교하게 만들 수 있음.

    Why Wouldn’t We Do That All the Time? 왜 항상 비선형을 사용하지 않는가?

    • tradeoff 존재
      • 유연성(flexibility)을 늘리면 데이터도 너 잘 맞는 경우가 증가한다.
      • 학습 데이터에 대해서는 잘 fitting 하는 overfitting 발생 가능
    • overfitting
      • 모델이 일반적으로 적용되는 패턴을 찾는 것보다 학습 데이터의 디테일에 더 fit 하는 경우
      • model이 주어진 학습데이터에 디테일하게 fitting해서 일반적인 패턴을 찾는데 어려움을 겪음.
Designed by Tistory.