본문 바로가기

전체 글

(6)
[혼공족 12기] 5주차(8/5-8/11) K-MEANS 알고리즘 설명하기지겹도록 학교 수업시간에 다루었던 내용이다. 회사 일 때문에 바쁘니 간단하게 정리하고 마무리하겠다. K-means 군집 알고리즘은 평균값을 자동으로 찾아준다. 이 평균값이 클러스터의 중심에 위치하기 때문에 클러스터 중심 또는 센트로이드라고 부른다.  작동방식은 다음과 같다. 1. 무작위로 k개의 클러스터 중심을 정한다.2. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정한다.3. 클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경한다.4. 클러스터 중심에 변화가 없을 때 까지 2번으로 돌아가 반복한다. k-평균 알고리즘의 단점 중 하나는 크러스터 개수를 사전에 지정해야한다는 것이다.  회사 일때문에 넘 피곤하다. 나중에 내용 보완하겠다.
[혼공족 12기] 4주차(7/22-7/28) 결정트리스무고개와 같다고 생각하면 쉽다.데이터를 잘 나눌 수 있는 질문을 찾는다고 했을 때 계속 질문을 추가해서 분류 정확도를 높일 수 있다. YES일때는 왼쪽, NO 일때는 오른쪽으로 이동하는 사다리라고 봐도 된다. 여기서 질문에 해당하는 부분이 노드이다. 노드는 훈련 데이터의 특성에 대한 테스트를 표현한다. 맨위의 노드를 루트 노드 맨 아래 끝에 달린 노드를 리프 노드라고 한다. 결정트리에서의 예측하는 방법은 매우 간단하다. 리프 노드에서 가장 많은 클래스가 에측 클래스가 된다. K-최근접 이웃과 매우 비슷하다.  결정트리는 표준화 전처리 과정이 필요 없으며 어떤 특성이 가장 유용한지 나타내는 특성 중요도를 계산해준다.import pandas as pdwine = pd.read_csv('https:/..
[혼공족 12기] 3주차(7/15-7/21) 길이(Length)와 높이(Height) 뿐만 아니라 대각선(Diagonal)과 두께(Width)도 샘플 분류에 사용될 수 있다.데이터를 불러와준다.import pandas as pdfish = pd.read_csv('https://bit.ly/fish_csv_data')fish.head()결과는 다음과 같다.Pandas 라이브러리의 read_csv()를 활용하여 해당 경로의 파일을 불러온다.head()메서드로 처음 5개의 행을 출력한다. Species 열에서 고유값 추출print(pd.unique(fish['Species']))#결과 ['Bream' 'Roach' 'Whitefish' 'Parkki' 'Perch' 'Pike' 'Smelt'] Input 데이터 만들기fish_input = fish[[..
[혼공족 12기] 2주차(7/8-7/14) 필요한 라이브러리를 불러온다from sklearn.metrics import mean_absolute_errorfrom sklearn.model_selection import train_test_splitfrom sklearn.neighbors import KNeighborsRegressorimport numpy as npimport matplotlib.pyplot as plt  농어의 길이, 무게에 대한 데이터셋을 불러온다데이터의 형태를 확인하기 위한 산점도를 그린다perch_length = np.array( [8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, ..
[혼공족 12기] 1주차(7/1-7/7) 도미와 빙어의 데이터를 준비하고 산점도를 그려보았다. KNN Algorithm을  활용하여 도미와 빙어를 분류하였다.         #프로그래머#개발자#ML#DL#혼공족
코오오딩 시작! #프로그래머#개발자