Data Science/딥러닝 & 머신러닝
-
[혼공머] 4-2. 확률적 경사 하강법Data Science/딥러닝 & 머신러닝 2025. 1. 11. 00:00
1. 점진적인 학습1. 새로운 문제새로운 생선이 도착하는 대로 즉시 훈련 데이터를 제공할 수 있을까?sol 1. 기존의 훈련 데이터에 새로운 데이터를 추가해 매일 다시 훈련단점 : 시간이 지날수록 데이터가 늘어나서 지속 가능 Xsol 2. 새로운 데이터를 추가할 때 이전 데이터를 버려서 훈련 데이터 크기 유지단점 : 데이터셋의 크기 유지, 중요한 생선 데이털르 버리면 문제 발생sol3. ‘점진적 학습’훈련한 모델을 버리지 않고 새로운 데이터에 대해 조금씩 더 훈련데이터 모두 유지할 필요도 없고 생선을 까먹지도 않을 것대표적으로, 확률적 경사 하강법 알고리즘을 사용한다. 2. 경사 하강법1. 경사 하강법말의 뜻 : 경사를 따라 내려가는 방법 → 가장 빠른 방법은 경사가 가파른 길경사 = 기울기하강법 = 내..
-
[혼공머] 4-1. 로지스틱 회귀Data Science/딥러닝 & 머신러닝 2025. 1. 10. 23:55
1. 럭키백의 확률1. 배경기간 한정 럭키백을 런칭 : 7개의 생선이 들어간다.럭키백에 포함된 생선의 확률을 알려줄 것이다.→ 어떻게 생선의 확률을 구할 수 있을까?사용할 데이터 : 생선의 길이, 높이, 두께, 대각선 길이, 무게2. 데이터 불러오기import pandas as pdfish = pd.read_csv('')print(pd.unique(fish['Species']))# ['Bream' 'Roach' 'Whitefish' 'Parkki' 'Perch' 'Pike' 'Smelt']3. 훈련 데이터와 타겟 데이터fish_input = fish[['Weight','Length','Diagonal','Height','Width']].to_numpy()fish_target = fish['Species'..
-
[혼공머] 3-3. 특성 공학과 규제Data Science/딥러닝 & 머신러닝 2025. 1. 10. 23:49
1. 배경1. 적은 특성 사용 및 고차항 사용수동으로 고차항을 계속 넣기는 어렵다는 문제특성이 많을수록 효과가 커진다.2. 선형 회귀 모델의 학습1개의 특성 → 직선2개의 특성 → 평면인간은 3차원 공간 이상을 그리거나 상상할 수 없다.선형 회귀3차원 이상의 고차원 : 매우 복잡한 모델을 표현할 수 있다. 2. 다중 회귀와 특성 공학1. 다중 회귀여러 개의 특성을 사용한 선형 회귀선형 회귀와의 차이선형 회귀 : 1개의 특성, 직선 학습다중 회귀 : 여러 개의 특성, 평면 학습다항 회귀와의 차이 *다항 회귀 : 1개의 독립 변수를 비선형적으로 변형해서 여러 개로 사용ex. y=β_0 + β_1x + β_2x^2 +⋯+ϵ.다중 회귀 : 여러 독립 변수를 사용ex. y=β_0 + β_1x1 + β_2x2 +⋯..
-
[혼공머] 3-2. 선형 회귀Data Science/딥러닝 & 머신러닝 2025. 1. 10. 23:40
1. K-최근접 이웃의 한계1. 농어의 무게 예측 오류1절의 내용인 length & weight를 이용해 길이가 50cm인 농어의 무게를 예측해보자.# 1절의 내용을 돌아보기import numpy as npperch_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7, 23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5, 27.5, 28.0, 28.7, 30.0, 32.8, 34.5, 35.0, 3..
-
[혼공머] 3-1. K-최근접 이웃 회귀Data Science/딥러닝 & 머신러닝 2025. 1. 10. 23:35
1. 개념지도 학습 알고리즘분류회귀 : 숫자 예측K-최근접 이웃 분류 알고리즘가까운 이웃 k개 선택이웃의 클래스 확인다수 클래스를 새로운 샘플의 클래스로 예측k-최근접 이웃 회귀가까운 이웃 k개 선택이웃의 ‘수치’ 확인이웃들의 수치의 평균을 새로운 샘플의 예측값으로!결정계수 R^2R^2 = 1 - ((타겟- 예측)^2의 합) / (타겟-평균)^2의 합)예측과 타겟이 가까울수록 1 = 클수록 좋은 모델과대적합 : 훈련 세트에만 잘 맞는 모델과소적합 : 훈련 세트에서도 적절하게 훈련되지 않은 경우 2. 데이터 준비전체 데이터 : 농어의 길이, 높이, 두께, 무게이번에는 길이와 무게만 사용해서, 무게를 예측하자.1. 데이터 불러오기파이썬 리스트 만들고 arry 하지 말고 한 번에 np.array로 만들기imp..
-
[혼공머] 2-2. 데이터 전처리Data Science/딥러닝 & 머신러닝 2025. 1. 10. 23:32
1. 개념튜플 : 수정이 불가능한 리스트데이터 전처리 : 특성값을 일정한 기준으로 맞추는 작업표준점수 (z 점수) : 각 특성값이 평균에서 표준편차의 몇 배만큼 떨어져 있는지 나타낸다.실제 특성값의 크기와 상관없이 동일한 조건으로 비교할 수 있다.브로드캐스팅 : 모든 행에 대해 표준 점수로 변환하는 넘파이 기능 2. 넘파이로 데이터 준비하기1. 기존의 방법 : 매우 귀찮음# 도미, 빙어 합친 데이터fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, ..