본문 바로가기

AI2

GCP로 AI공부하기[3] - 모델디자인 정적학습? 동적학습? 만약 내가 이메일이 스팸인지 아닌지를 예측하는 머신러닝 시스템을 설계하는 업무를 맡았다고 가정하자. 이전글에서 작성한 게시글(https://12teamtoday.tistory.com/8)대로 데이터 수집절차를 진행할 것이다. 수많은 비스팸 이메일과 스팸 이메일을 모을 것이다. 그리고 해당 이메일이 올바르게 수집된 이메일이 맞는지 검증하고, 비스팸이메일과 스팸이메일의 Feature를 뽑기위해 부단히 노력할 것이다. 뽑아낸 Feature를 기반으로 전처리한 데이터를 수일에 걸쳐 모델에 학습시키고 90%정도의 정확도를 이뤄냈다고 가정해보자. 그리고 해당 모델을 배포하여 실제 업무에 들어가자 놀랍게도 스팸메일을 적절히 잘 걸러냈다. 스팸메일 발송자는 가만히 있을까? 새로운 스팸메일 템플릿을 만들어 발송하여 우리.. 2019. 7. 5.
GCP로 AI공부하기[2] - 상용 머신러닝 시스템을 설계하는 것 머신러닝 모델의 비중 전체 시스템 관점에서 볼때 머신러닝 모델이 차지하는 비중은 얼마나 될까? 여기서 말하는 "머신러닝 모델"이라는 것은 "모델의 구조적 형상 / 알고리즘"을 의미한다. 이 부분은 상용 머신러닝 시스템에서 핵심이 되는 만큼 무척 중요하다. 또한 나같은 제 3자가 볼 때 이 부분만 눈에 들어온다. 하지만 전체 시스템 관점에서 머신러닝 모델의 비율은 무척 적다. 구글은 이를 약 5%수준이라고 한다. 상용 머신러닝 시스템의 전체적인 구조를 살펴보면 다음과 같다. . 머신러닝 모델의 구조 / 알고리즘이 무척 중요한 것은 맞으나 외적인 요소가 상당히 많이 존재한다. 데이터 수집의 경우, 상당한 시간이 소모되며 수집된 데이터에 레이블을 매기는 수작업은 상상을 초월한다. 쓰레기 데이터 혹은 공격성 데.. 2019. 7. 4.