ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [혼공머] 1-3. 마켓과 머신러닝
    Data Science/딥러닝 & 머신러닝 2025. 1. 10. 19:08

    1. 데이터셋 소개와 K-Neighbors

    1. 생선 데이터셋 사용

    • 캐글에 나온 데이터
    • 도미와 빙어 데이터

    2. 분류의 종류

    • 분류 : 여러 개의 종류 중 하나를 구별
    • 이진 분류 : 2개의 클래스 중 하나를 고르는 것

    3. K-Neighbors 알고리즘

    • 목적 : 근처에 있는 데이터에 대해 다수결로 클래스를 선택하는 것
    • KNeighborsClassifier()
      • K-Neighbors 분류 모델을 만드는 사이킷런 클래스
      • 기본값 = 5
      • 사용하는 메서드
        • fit() : 모델 훈련
        • predict() : 예측
        • score() : 모델의 성능 측정

    2. 데이터 준비

    1. 도미 데이터 준비하기 [bream]

    • 길이와 무게 특성
    bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0,
                    31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0,
                    35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0]
    bream_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0,
                    500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0,
                    700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0]

     

     

    • 산점도 체크
    import matplotlib.pyplot as plt
    plt.scatter(bream_length, bream_weight)
    plt.xlabel('length')
    plt.ylabel('weight')

     

    1. 방어 데이터 준비 [smelt]

    • 길이와 무게 특성
      smelt_length = [9.8, 10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]
      smelt_weight = [6.7, 7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]
      ​

    2. bream과 smelt 데이터 한 눈에 보기

    plt.scatter(bream_length, bream_weight)
    plt.scatter(smelt_length, smelt_weight)
    plt.xlabel('length')
    plt.ylabel('weight')
    

    3. 데이터 합치기

      • 1차원 : 길이별, 무게별로 합치기
        #1차원
        length = bream_length + smelt_length
        weight = bream_weight + smelt_weight
        ​
      • 2차원 : zip 함수와 리스트 내포 구문을 이용
        • zip () : 나열된 리스트 각각에서 원소 하나씩 빼어 반환
        • 사이킷런에서는 2차원 리스트를 만들어야 한다.
        #2차원
        fish_data = [[l, w] for l, w in zip (length, weight)]
        
        #위와 같음
        fish_data = []
        for l, w in zip(length, weight):
        	fish_data.append([l, w])

    3. 정답 데이터

    • 1은 도미, 0은 빙어로 만들자
      • 35마리의 도미, 14마리의 빙어 사용
      fish_target = [1]*35 + [0]*14
      print(fish_target)
      
      •  

    4. K-Neighbors 알고리즘 과정

    1. 클래스 import

    from sklearn.neighbors import KNeighborsClassifier
    import sklearn model = sklearn.neighbors.KNeighborsClassifier()

     

    2. KNeighborsClassifier 클래스의 객체 만들기

    kn49 = KNeighborsClassifier(n_neighbors=49)
    
    • n_neighbors : 근접한 데이터 참고할 개수; default=5
    • *_*fit_X : fish_data를 가진다 (bream&smelt의 길이와 무게)
    • *_*y : fish_target을 가진다 (bream 인지 smelt인지)
    print(kn._fit_X) # 입력한 훈련 데이터
    # [[  25.4  242. ]
    # [  26.3  290. ]
    # [  26.5  340. ].....
    
    print(kn._y) # 입력한 타겟 데이터
    # [1 1 1 1 1 1 1 1 1 1 1 1 ... 0 0 0]
    

    3. 훈련

    kn49.fit(fish_data, fish_target)
    

    4. 정확도

    kn49.score(fish_data, fish_target)
    
    • 맞은 거 / 전체

    5. 예측

    kn.predict([[30, 600 ]]

     


    5. 도미와 빙어 분류

    bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0,
                    31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0,
                    35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0]
    bream_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0,
                    500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0,
                    700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0]
                    
    import matplotlib.pyplot as plt
    plt.scatter(bream_length, bream_weight)
    plt.xlabel('length')
    plt.ylabel('weight')
    
    smelt_length = [9.8, 10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]
    smelt_weight = [6.7, 7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]
    
    plt.scatter(bream_length, bream_weight)
    plt.scatter(smelt_length, smelt_weight)
    plt.xlabel('length')
    plt.ylabel('weight')
    plt.show()
    
    length = bream_length + smelt_length
    weight = bream_weight + smelt_weight
    
    fish_data = [[l, w] for l, w in zip (length, weight)]
    fish_target = [1]*35 + [0]*14
    
    from sklearn.neighbors import KNeighborsClassifier
    kn = KNeighborsClassifier()
    kn.fit(fish_data, fish_target)
    kn.score(fish_data, fish_target)
    
    kn.predict([[30,600]])
    print(kn._fit_X)
    print(kn._y)
    
    kn49 = KNeighborsClassifier(n_neighbors=49)
    kn49.fit(fish_data, fish_target)
    kn49.score(fish_data, fish_target)
                    
    
Designed by Tistory.