본문 바로가기
AI

GCP로 AI공부하기[2] - 상용 머신러닝 시스템을 설계하는 것

by 오늘의개발부 2019. 7. 4.
반응형

머신러닝 모델의 비중

전체 시스템 관점에서 볼때 머신러닝 모델이 차지하는 비중은 얼마나 될까? 여기서 말하는 "머신러닝 모델"이라는 것은 "모델의 구조적 형상 / 알고리즘"을 의미한다. 이 부분은 상용 머신러닝 시스템에서 핵심이 되는 만큼 무척 중요하다. 또한 나같은 제 3자가 볼 때 이 부분만 눈에 들어온다. 하지만 전체 시스템 관점에서 머신러닝 모델의 비율은 무척 적다. 구글은 이를 약 5%수준이라고 한다.
상용 머신러닝 시스템의 전체적인 구조를 살펴보면 다음과 같다.

.
머신러닝 모델의 구조 / 알고리즘이 무척 중요한 것은 맞으나 외적인 요소가 상당히 많이 존재한다. 데이터 수집의 경우, 상당한 시간이 소모되며 수집된 데이터에 레이블을 매기는 수작업은 상상을 초월한다. 쓰레기 데이터 혹은 공격성 데이터가 많이 있을 것이기 때문에 수집된 데이터를 무작위로 모델에 넣어줄 수 없다. 보완가능한 데이터는 보완하고 버려할 데이터는 버려야 한다. 모델에서 학습시킬 Feature를 데이터에서 뽑아낼 수 있도록 심도깊은 분석도 필요하다. 거기에 서비스까지 생각한다면 인프라 구축에 상당한 비용이 필요하다는 것이 이해된다.


데이터 취득


데이터 분석+검증


데이터 변형


학습


본 사진파일은 2019 구글 머신러닝 스터디잼에서 공유해주신 정보를 활용했습니다.

반응형