Home

비선형 데이터를 학습하는 데 선형 모델을 사용할 수 있습니다. 각 feature의 거듭제곱을 새로운 특성으로 추가하고, 이 확장된 feature를 포함한 데이터넷에 선형 모델을 훈련시키는 방법을 polynomial regression (다항 회귀)라고 합니다.

모델의 일반화 성능을 평가하기 위해 cross-validation이나 learning curve에 나타나는 training error와 validation error를 비교할 수 있습니다.

Logistic regression은 sample이 특정 class에 속할 확률을 추정하는 데 사용되어 binary classifier로 사용할 수 있습니다.

Early stopping은 iterative algorithm에서 사용할 수 있는 regularization 방법으로 validation error가 최솟값에 도달하였다고 판단되면 바로 학습을 중지하는 방법입니다.

Bias-variance trade-off 모델의 일반화 오차는 모델의 $Bias^2$와 $Variance$과 데이터의 $noise$의 합으로 표현된다.

Eigenvalue와 eigenvector는 시간에 따라 변하는 함수값을 예측하는 자기회귀모델(AutoRegressive model)에서 함수값이 수렴하는지의 여부를 결정합니다.

Remarks 본 포스팅은 Hands-On Machine Learning with Scikit-Learn & TensorFlow (Auérlien Géron, 박해선(역), 한빛미디어) 를 기반으로 작성되었습니다.

sklearn 등에서 구현된 machine learning algorithm들은 굉장히 최적화가 잘 되어 손으로 계산하는 naive한 복잡도보다 훨씬 더 빠르게 작동하도록 구현되어 있습니다. 예를 들어, 정규방정식의 복잡도는 $O(mn^2)$으로 알려져 있지만 실제론 $O(m^{0.72}n^{1.3})$ 정도의 복잡도까지 최적화되어있습니다. 자세한 내용은 https://www.thekerneltrip.com/machine/learning/computational-complexity-learning-algorithms/을 참조!

393 post articles, 50 pages.

Polynomial regression

Learning curve

Logistic regression

Early stopping

Bias-Variance Trade-Off

Eigenvalue and eigenvector

Linear regression

Computational complexity of ML algorithms