전체 글

AI/Hands-on ML

[핸즈온 머신러닝] 9장 - 비지도 학습 1 (군집)

9. 비지도 학습 - 많은 데이터는 대부분 레이블이 없음 - 레이블을 부여하는 작업은 비용이 크며 오래걸림 => 레이블이 없는 데이터를 바로 사용하기 위한 비지도 학습 9. 1 군집 비슷한 샘플을 구별해 하나의 클러스터 또는 비슷한 샘플의 그룹으로 할당하는 작업 분류 - 데이터셋이 레이블 되어 있음 - 로지스틱 회귀, SVM, 랜덤 포레스트 분류기 같은 분류 알고리즘이 잘 맞음 군집 - 레이블이 없음 - 대부분의 군집 알고리즘은 왼쪽 아래 클러스터를 쉽게 감지하지만, 오른쪽 위의 클러스터는 두 개의 하위 클러스터로 구성되었는지 확실하지 않음 - 모든 특성을 사용하면, 클러스터 세 개를 잘 구분할 수 있음 - 다음과 같은 어플리케이션에서 사용 고객 분류 (ex. 추천 시스템) 데이터 분석 - 군집 알고리즘..

AI/Hands-on ML

[핸즈온 머신러닝] 8장 - 차원 축소

8. 차원 축소 차원의 저주 - 많은 머신러닝 문제는 훈련 샘플이 각각 수천 수백만개의 특성을 가지고 있음 - 이런 많은 특성은 훈련을 느리게 할 뿐만 아니라, 좋은 솔루션을 찾기 어렵게 만듦 - 이러한 차원의 저주 문제들은 특성 수를 크게 줄여 불가능한 문제를 가능한 범위로 변경할 수 있음 MNIST 이미지처럼, 이미지 경계에 있는 픽셀은 거의 흰색이므로 훈련 세트에서 이런 픽셀을 제거해도 많은 정보를 잃지 않음 인접한 픽셀은 종종 많이 연관되어 있으므로, 두 픽셀을 하나로 합치더라도 잃는 정보가 많지 않음 훈련 속도를 높이는 것 외에 차원 축소는 데이터 시각화에도 유용 - 차원 수를 둘로 줄이면 고차원 훈련 세트를 하나의 압축된 그래프로 그릴 수 있으며, - 군집 같은 시각적인 패턴을 감지해 통찰을 ..

AI/Hands-on ML

[핸즈온 머신러닝] 핸즈온 머신러닝2 정오표

공부하다보니 정오표를 계속 참고를 하게 되어서 기록해둠. (생각보다 수정된 부분이 많음) tensorflow.blog/handson-ml2/ 핸즈온 머신러닝 2/E ★★★★★ 머신러닝의 바이블! (s******u 님)★★★★★ 머신러닝을 하는 개발자의 책장에서는 반드시 이 책을 찾을 수 있을 것입니다. (p******k 님)♥♥♥♥ 매우 훌룡합니다 기본기까지 다져주는 tensorflow.blog 코드는 git 참고 github.com/ageron/handson-ml2 ageron/handson-ml2 A series of Jupyter notebooks that walk you through the fundamentals of Machine Learning and Deep Learning in Pytho..

AI/Hands-on ML

[핸즈온 머신러닝] 7장 - 앙상블 학습과 랜덤 포레스트

7. 앙상블 학습과 랜덤 포레스트 앙상블 학습 - 일련의 예측기(분류나 회귀 모델)로부터 예측을 수집하면 가장 좋은 모델 하나보다 더 좋은 예측을 얻을 수 있음 - 이때 일련의 예측기를 앙상블이라고 하기 때문에 - 이를 앙상블 학습이라고 함 - 앙상블 학습 알고리즘은 앙상블 방법이라고 함 랜덤포레스트 - 훈련 세트로부터 무작위로 각기 다른 서브셋을 만들어 일련의 결정 트리 분류기를 훈련 - 모든 개별 트리의 예측을 구함 - 가장 많은 선택을 받은 클래스를 예측으로 삼음 - 이러한 결정 트리의 앙상블을 랜덤 포레스트 라고 함 7. 1 투표 기반 분류기 Hard Voting - 로지스틱 회귀 분류기, SVM 분류기, 랜덤 포레스트 분류기, k-최근접 이웃 분류기 등 여러 개의 분류기를 훈련시킴 - 각 분류기..

AI/Hands-on ML

[핸즈온 머신러닝] 6장 - 결정 트리

6. 결정 트리(decision tree) - SVM처럼 분류와 회귀 작업, 그리고 다중출력 작업도 가능한 머신러닝 알고리즘 - 매우 복잡한 데이터셋도 학습할 수 있는 강력한 알고리즘 (2장에서 캘리포니아 주택 가격 데이터셋을 완벽하게 맞추는 DecisionTreeRegressor 모델 훈련) - 가장 강력한 ML 알고리즘 중 하나인 랜덤 포레스트의 기본 구성 요소 6.1 결정 트리 학습과 시각화 from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier iris = load_iris() X = iris.data[:, 2:] # 꽃잎의 길이와 너비 y = iris.target tree_clf = Decisio..

AI/Hands-on ML

[핸즈온 머신러닝] 5장 - 서포트 벡터 머신

5. 서포트 벡터 머신(SVM) - 매우 강력하고 선형이나 비선형 분류, 회귀, 이상치 탐색에도 사용할 수 있는 다목적 머신러닝 모델 - 복잡한 분류 문제에 잘 맞음 - 작거나 중간 크기의 데이터 셋에 적합 - 데이터를 선형으로 분리하는 최적의 선형 결정 경계를 찾는 알고리즘 5.1 선형 SVM 분류 - SVM 분류기는 클래스 사이에 가장 폭이 넓은 도로를 찾는 것과 같음 => 라지 마진 분류라고 부름 - 여기서 마진은 두 데이터 군과 결정 경계가 떨어져 있는 정도를 의미 - 도로 바깥쪽에 훈련 샘플을 더 추가해도 결정 경계에는 영향을 미치지 않음(데이터가 추가 되더라도 안정적으로 분류해낼 수 있음) - 도로 경계에 위치한 샘플에 의해 결정(의지)됨 => 이런 샘플을 서포트 벡터라고 함(오른쪽 그림의 동..

KIM DEON
공부하자