Data Science
-
[혼공머] 5-1. 결정 트리Data Science/딥러닝 & 머신러닝 2025. 1. 12. 19:31
1. 로지스틱 회귀로 와인 분류하기1. 배경알코올, 도수, 당소, pH 값에 로지스틱 회귀 모델을 적용 → 레드 와인과 화이트 와인 구분2. 데이터셋 준비head() : 앞 6개 데이터 확인info() : 각 열의 데이터 타입과 누락 여부describe() : 열에 대한 간략한 통계 출력import pandas as pdwine = pd.read_csv('')wine.head()wine.info()wine.describe()0 이면 레드 와인1이면 화이트 와인 (양성)6497개의 샘플4개의 열은 실숫값누락 없음스케일 달라서 표준화 필요3. 훈련 데이터와 타겟 데이터 분리data = wine[['alcohol', 'sugar', 'pH']].to_numpy()target = wine['class'].to_..
-
분석 기획과 분석 방법론Data Science/ADsP 2025. 1. 11. 22:06
분석 기획1. 분석 기획의 정의실제 분석을 수행하기 전 사전에 계획하는 작업2. 분석 기획의 특징데이터 사이언티스트의 요구 역량3. 분석 대상과 방법에 따른 분석 종류| 분석 방법 | 분석 대상 | 분석 대상 알고 있음 | 분석 대상 모름 | | --- | --- | --- | | 분석 방법 알고 있음 | 최적화 | 통찰력 | | 분석 방법 모름 | 솔루션 | 발견 |4. 목표 시점별 분석 기획과제 중심적 접근 방식빠른 해결speed & testquick & runproblem solving장기적인 마스터플랜 방식지속적인 해결accuracy & deploylong term vewproblem definition5. 분석 기획 시 고려 사항가용 데이터 고려 : 데이터 확보, 데이터 유형적절한 활용 ..
-
데이터의 가치와 미래, 데이터 사이언스와 전략 인사이트Data Science/ADsP 2025. 1. 11. 22:04
빅데이터의 가치1. 빅데이터의 가치어떤 인사이트를 발굴하는지에 따라 다름2. 빅데이터 가치 산정의 어려움데이터 활용 방식 : 누가 썼는지 모름가치 창출 방식 : 전에 없던 가치분석 기술의 발전빅데이터의 영향1. 빅데이터의 영향기업정부 : 미래 대응개인2. 빅데이터가 가치를 만들어내는 5가지 방식투명성 제고시뮬레이션을 통한 경쟁력 강화맞춤 서비스 제공알고리즘 활용혁신3. 빅데이터 경영 혁신의 4단계생산성 향상발견에 의한 문제 해결의사결정 향상새로운 고객가치와 비즈니스 창출빅데이터 활용 사례1. 빅데이터 활용 사례기업 혁신 : 구글정부 활용 : 교통정보개인 활용 : SNS2. 미래의 빅데이터 활용에 필요한 3요소데이터기술인력빅데이터 활용 기본 테크닉 7가지연관 규칙 학습 : 주목할만한 상관관계 찾기 ..
-
데이터와 정보, 데이터베이스, 빅데이터의 이해Data Science/ADsP 2025. 1. 11. 22:01
데이터의 정의1. 데이터의 정의바탕이 되는 자료기술적이고 사실적인 의미의 자료2. 데이터의 특성존재적 특성 : 있는 그대로의 객관적 사실당위적 특성 : 추론, 에측, 추정, 전망을 위한 정보의 근거데이터의 유형1. 데이터의 구분정성적 데이터 : 수치, 도형, 기호 → 기준 명확 O정량적 데이터 : 언어, 문자 → 기준 명확 X2. 데이터의 종류정형 데이터 : 고정된 틀 O, 연산 O, DB에 저장, 데이터의 수집과 관리 용이반정형 데이터 : 고정된 틀 O, 연산 X, 파일로 저장비정형 데이터 : 고정된 틀 X, 연산 X, NoSQL DB에 저장3. 암묵지와 형식지암묵지 : 체험으로 습득했지만 겉으로 드러나지 않은 지식형식지 : 암묵지가 표출되어 공유할 수 있는 지식💡 암묵지 → 형식지 : 표출화,..
-
[혼공머] 4-2. 확률적 경사 하강법Data Science/딥러닝 & 머신러닝 2025. 1. 11. 00:00
1. 점진적인 학습1. 새로운 문제새로운 생선이 도착하는 대로 즉시 훈련 데이터를 제공할 수 있을까?sol 1. 기존의 훈련 데이터에 새로운 데이터를 추가해 매일 다시 훈련단점 : 시간이 지날수록 데이터가 늘어나서 지속 가능 Xsol 2. 새로운 데이터를 추가할 때 이전 데이터를 버려서 훈련 데이터 크기 유지단점 : 데이터셋의 크기 유지, 중요한 생선 데이털르 버리면 문제 발생sol3. ‘점진적 학습’훈련한 모델을 버리지 않고 새로운 데이터에 대해 조금씩 더 훈련데이터 모두 유지할 필요도 없고 생선을 까먹지도 않을 것대표적으로, 확률적 경사 하강법 알고리즘을 사용한다.2. 경사 하강법1. 경사 하강법말의 뜻 : 경사를 따라 내려가는 방법 → 가장 빠른 방법은 경사가 가파른 길경사 = 기울기하강법 = 내려..
-
[혼공머] 4-1. 로지스틱 회귀Data Science/딥러닝 & 머신러닝 2025. 1. 10. 23:55
1. 럭키백의 확률1. 배경기간 한정 럭키백을 런칭 : 7개의 생선이 들어간다.럭키백에 포함된 생선의 확률을 알려줄 것이다.→ 어떻게 생선의 확률을 구할 수 있을까?사용할 데이터 : 생선의 길이, 높이, 두께, 대각선 길이, 무게2. 데이터 불러오기import pandas as pdfish = pd.read_csv('')print(pd.unique(fish['Species']))# ['Bream' 'Roach' 'Whitefish' 'Parkki' 'Perch' 'Pike' 'Smelt']3. 훈련 데이터와 타겟 데이터fish_input = fish[['Weight','Length','Diagonal','Height','Width']].to_numpy()fish_target = fish['Species'..