-
[데이터사이언스개론] Chapter 4 (2)카테고리 없음 2024. 3. 17. 15:05
Image Processing
- Opening: gray scale image(0~255)를
- 임계값 설정 후 이미지 반전: 어느 정도를 넘어서면 검정/흰색으로
- 작은 것들을 삭제하고 어느 정도의 크기를 가진 것만 남기기
- 더 작은 셀도 보이도록 하기
- Erosion(깎기): 원본이 이미지상으로는 다 연결되어 있다고 판단할 때
- 임계값 설정 후 이미지 반전
- 이미지 깎기 (픽셀/스퀘어)
Linear Classifier for Ranking Instance
단순히 인스턴스가 클래스에 속하는지 여부에 대한 예 또는 아니오 예측을 원하지 않는 경우가 많다.
종종 인스턴스가 클래스에 속할 확률값들을 순위 매기고 싶어진다.
- 고객이 offer를 제공받을까: binary
- 어떤 고객이 offer을 잘 제공받을까?
→ linear classifiers는 무료로 순위를 제공해준다.
- Observations
- f(x) 경계 근처/ 선 상에 있으면: 클래스에 가장 불확실
- f(x)와 멀리 떨어져 있으면: 클래스에 대한 가장 높은 확률을 기대
- Conclusion
- f(x) 자체를 사용해 관심 클래스에 대한 확률로 직관적으로 만족스러운 인스턴스의 순위를 얻을 수 있다.
- == f(x)의 값으로 ranking 매길 수 있다.
Nonlinear Models
- linear model: 일직선으로 데이터를 나눔
- nonlinear models: 곡선으로 데이터를 나눔
: nonlinear term을 포함한 linear model
- linear term: single featur(x)에 w라는 상수를 곱한 것만 포함
- nonlinear term: features의 곱, 나눗셈, 지수, 로그를 포함
Examples of Nonlinear Models
- logistic regression(linear) and SVM with a nonlinear term
2. artificial neural networks (인공신경망)
- 아주 복잡한 nonlinear 함수 만드는데 사용
- 복잡한 nonlinear 함수를 배우는 데 사용
- 더 복잡한 함수를 생성하기 위해 많은 nonlinear 함수를 연결
- hidden layer가 많을수록 복잡한 nonlinear 함수를 만들 수 있다.
- hidden layer가 적을수록 shallow, 많을수록 deep
3. logistic regression vs neural network
- logistic regression: 선형 결정 경계 사용
- neural network: 비선형 결정 경계 사용, nonlinear 함수를 여러 개 합쳐서 결정경계를 정교하게 만들 수 있음.
Why Wouldn’t We Do That All the Time? 왜 항상 비선형을 사용하지 않는가?
- tradeoff 존재
- 유연성(flexibility)을 늘리면 데이터도 너 잘 맞는 경우가 증가한다.
- 학습 데이터에 대해서는 잘 fitting 하는 overfitting 발생 가능
- overfitting
- 모델이 일반적으로 적용되는 패턴을 찾는 것보다 학습 데이터의 디테일에 더 fit 하는 경우
- model이 주어진 학습데이터에 디테일하게 fitting해서 일반적인 패턴을 찾는데 어려움을 겪음.
- Opening: gray scale image(0~255)를