전체 글
-
파이썬으로 웹 크롤러 만들기(3판)독서 2025. 3. 21. 12:08
"한빛미디어 서평단 활동을 위해서 책을 협찬 받아 작성된 서평입니다."올해도 서평단을 신청했었는데, 합격하게 되어 25년도도 서평을 작성하게 되었습니다!방학 기간에 크롤링 관련 유튜브를 보며 짧게 공부했는데, 조금 더 구체적으로 배워보고 싶어선정한 책입니다. 목차2개의 파트와 20개의 챕터로 구성되어 있습니다.Part 1. 웹 스크레이퍼 제작인터넷 작동 원리웹 스크레이핑의 합법성과 윤리웹 스크레이핑 활용 분야첫 번째 웹 스크레이퍼고급 HTML 분석크롤링 시작하기웹 크롤링 모델스크레이피데이터 저장Part 2. 고급 스크레이핑10. 문서 읽기11. 지저분한 데이터 다루기12. 자연어 읽고 쓰기13. 폼과 로그인 뚫기14. 자바스크립트 스크레이핑15. API를 통한 크롤링16. 이미지 처리와 텍스트..
-
[혼공머] 5-1. 결정 트리Data Science/딥러닝 & 머신러닝 2025. 1. 12. 19:31
1. 로지스틱 회귀로 와인 분류하기1. 배경알코올, 도수, 당소, pH 값에 로지스틱 회귀 모델을 적용 → 레드 와인과 화이트 와인 구분2. 데이터셋 준비head() : 앞 6개 데이터 확인info() : 각 열의 데이터 타입과 누락 여부describe() : 열에 대한 간략한 통계 출력import pandas as pdwine = pd.read_csv('')wine.head()wine.info()wine.describe()0 이면 레드 와인1이면 화이트 와인 (양성)6497개의 샘플4개의 열은 실숫값누락 없음스케일 달라서 표준화 필요3. 훈련 데이터와 타겟 데이터 분리data = wine[['alcohol', 'sugar', 'pH']].to_numpy()target = wine['class'].to_..
-
3. Vector언어/R 2025. 1. 11. 22:17
1. 벡터1차원, 동일한 데이터 형태 (숫자/문자/논리) 로 구성 → 숫자와 문자 섞여있으면 다 문자형벡터 생성 연산자는 ‘ : ‘ 사용항상 모든 계산은 괄호 먼저!c 함수를 이용해 벡터 연결 가능 2. 벡터 생성 연산자 ( : )와 c 함수를 이용한 벡터 생성// 숫자 형태 벡터 > x1 x1 [1] 1 2 3 4 5 > x2 x2 [1] -5 -4 -3 -2 -1 > x3 x3 [1] 10 9 8 7 6 5 4 3 2 1 > x x [1] 1 2 3 4 5 -5 -4 -3 -2 -1 // 문자 형태 벡터 > x x [1] "pen" "a" "b" // 문자와 숫자 섞인 경우 > x x [1] "1" "a"3. 패턴이 있는 데이터 생성seq(from = n, to = m, by = k) : ..
-
2. R 기본 연산언어/R 2025. 1. 11. 22:13
1. 변수와 작업 공간명령어 종류표현 명령어 : 화면에 나타나지만 값 저장 X지정 명령어 : 화면에 나타나지 않지만 값 저장 O변수의 종료스칼라 변수 : 한 개의 값을 갖는 변수벡터 변수 : 두 개 이상의 값을 갖는 변수변수 이름 규칙알파벳, 숫자, . , _ 사용변수명은 영문자, 한글, .(점) 으로 시작 가능하고, 점으로 시작하면 두 번째 문자는 숫자 불가예약어는 사용 불가(TRUE, FALSE, if..)영어 대소문자 구분변수 재사용 가능, 최근에 할당된 값으로 수정변수 설정 관련 함수ls() : 저장된 변수 전체 불러옴getwd(): 저장할 위치 정보 불러옴setwd(”저장 경로”): 저장 위치 변경rm(list=ls()) : 작업 공간 전체 초기rm(지우고 싶은 변수): 변수 제거save.ima..
-
1. R 소개언어/R 2025. 1. 11. 22:13
1. 프로그래밍 언어: 컴퓨터에게 명령/연산을 시키기 위해 인위적으로 만든 단어2. R: 통계분석에 특화된 고급 프로그래밍 (그래프 작성에 유용하다)장점우수한 그래픽 성능다양한 통계함수 내장, package 제공다른 통게분석 프로그램에 비해 빠른 속도무료단점데이터 분석에만 특화되어 있음문제 발생 시 스스로 해결해야 함 3. R 설치R: The R Project for Statistical Computing R: The R Project for Statistical ComputingThe R Project for Statistical Computing Getting Started R is a free software environment for statistical computing and graphics..
-
분석 기획과 분석 방법론Data Science/ADsP 2025. 1. 11. 22:06
분석 기획1. 분석 기획의 정의실제 분석을 수행하기 전 사전에 계획하는 작업2. 분석 기획의 특징데이터 사이언티스트의 요구 역량3. 분석 대상과 방법에 따른 분석 종류| 분석 방법 | 분석 대상 | 분석 대상 알고 있음 | 분석 대상 모름 | | --- | --- | --- | | 분석 방법 알고 있음 | 최적화 | 통찰력 | | 분석 방법 모름 | 솔루션 | 발견 |4. 목표 시점별 분석 기획과제 중심적 접근 방식빠른 해결speed & testquick & runproblem solving장기적인 마스터플랜 방식지속적인 해결accuracy & deploylong term vewproblem definition5. 분석 기획 시 고려 사항가용 데이터 고려 : 데이터 확보, 데이터 유형적절한 활용 ..
-
데이터의 가치와 미래, 데이터 사이언스와 전략 인사이트Data Science/ADsP 2025. 1. 11. 22:04
빅데이터의 가치1. 빅데이터의 가치어떤 인사이트를 발굴하는지에 따라 다름2. 빅데이터 가치 산정의 어려움데이터 활용 방식 : 누가 썼는지 모름가치 창출 방식 : 전에 없던 가치분석 기술의 발전빅데이터의 영향1. 빅데이터의 영향기업정부 : 미래 대응개인2. 빅데이터가 가치를 만들어내는 5가지 방식투명성 제고시뮬레이션을 통한 경쟁력 강화맞춤 서비스 제공알고리즘 활용혁신3. 빅데이터 경영 혁신의 4단계생산성 향상발견에 의한 문제 해결의사결정 향상새로운 고객가치와 비즈니스 창출빅데이터 활용 사례1. 빅데이터 활용 사례기업 혁신 : 구글정부 활용 : 교통정보개인 활용 : SNS2. 미래의 빅데이터 활용에 필요한 3요소데이터기술인력빅데이터 활용 기본 테크닉 7가지연관 규칙 학습 : 주목할만한 상관관계 찾기 ..
-
데이터와 정보, 데이터베이스, 빅데이터의 이해Data Science/ADsP 2025. 1. 11. 22:01
데이터의 정의1. 데이터의 정의바탕이 되는 자료기술적이고 사실적인 의미의 자료2. 데이터의 특성존재적 특성 : 있는 그대로의 객관적 사실당위적 특성 : 추론, 에측, 추정, 전망을 위한 정보의 근거데이터의 유형1. 데이터의 구분정성적 데이터 : 수치, 도형, 기호 → 기준 명확 O정량적 데이터 : 언어, 문자 → 기준 명확 X2. 데이터의 종류정형 데이터 : 고정된 틀 O, 연산 O, DB에 저장, 데이터의 수집과 관리 용이반정형 데이터 : 고정된 틀 O, 연산 X, 파일로 저장비정형 데이터 : 고정된 틀 X, 연산 X, NoSQL DB에 저장3. 암묵지와 형식지암묵지 : 체험으로 습득했지만 겉으로 드러나지 않은 지식형식지 : 암묵지가 표출되어 공유할 수 있는 지식💡 암묵지 → 형식지 : 표출화,..
-
[혼공머] 4-2. 확률적 경사 하강법Data Science/딥러닝 & 머신러닝 2025. 1. 11. 00:00
1. 점진적인 학습1. 새로운 문제새로운 생선이 도착하는 대로 즉시 훈련 데이터를 제공할 수 있을까?sol 1. 기존의 훈련 데이터에 새로운 데이터를 추가해 매일 다시 훈련단점 : 시간이 지날수록 데이터가 늘어나서 지속 가능 Xsol 2. 새로운 데이터를 추가할 때 이전 데이터를 버려서 훈련 데이터 크기 유지단점 : 데이터셋의 크기 유지, 중요한 생선 데이털르 버리면 문제 발생sol3. ‘점진적 학습’훈련한 모델을 버리지 않고 새로운 데이터에 대해 조금씩 더 훈련데이터 모두 유지할 필요도 없고 생선을 까먹지도 않을 것대표적으로, 확률적 경사 하강법 알고리즘을 사용한다.2. 경사 하강법1. 경사 하강법말의 뜻 : 경사를 따라 내려가는 방법 → 가장 빠른 방법은 경사가 가파른 길경사 = 기울기하강법 = 내려..