•
모델을 개선하는 데에 집중한 시도는 많은 domain adaptation 케이스에서 그다지 큰 정확도 개선을 보이지 않는다.
•
데이터를 개선하는 데에 집중한 시도는 눈에 띄게 높은 개선율을 보인다.
•
데이터는 AI에게 있어 음식의 원재료와 같다. 원재료가 좋아야 어떻게 요리를 해도 맛있고 건강한 음식이 된다.
•
그럼에도 불구하고 현행 연구들은 '모델의 개선'에 '데이터의 개선'보다 훨씬 더 집중하는 경향이 있다.
•
우리는 AI 시스템을 보다 효율적으로 개선하기 위해서 체계적인 데이터 품질 검수를 해야만 한다.
◦
여러 라벨러들에게 동일한 샘플에 대한 라벨링을 요구한다
◦
라벨러들이 작성한 결과의 동일성을 비교하고 그들이 서로 동의하지 않는 지점을 확인한다.
◦
모든 라벨러들이 일관성 있는 라벨링을 할 수 있도록 지침을 개선한다.
•
모델 중심적 관점에서는 데이터를 변경하지 않고 반복적으로 모델을 변경해 문제를 해결하고자 한다.
•
데이터 중심적 관점에서는 모델을 변경하지 않고 반복적으로 데이터를 개선해 문제를 해결하고자 한다.
•
적은 데이터라도 데이터셋이 일관성이 있다면 충분히 문제를 해결할 수 있다.
•
데이터의 절대량을 늘리는 것보다, 데이터의 잡음을 없애고 일관성을 증가시키는 편이 훨씬 더 효율적이다.
•
quality over quantity 예시
•
data에 집중해 체계적으로 시스템의 성능을 개선시키는 루틴
•
기존 소프트웨어 엔지니어링의 DevOps 엔지니어처럼, 모델의 개선을 제외한 전체 AI 시스템의 파이프라인을 개선할 수 있는 MLOps의 탄생
•
MLOps는 다음 3가지 문제를 고민하고 해결한다.
◦
어떻게 데이터를 수집해야 할지
◦
모델 성능 개선을 위해 어떻게 데이터를 개선할 수 있을지
◦
어떤 데이터를 추적해야 반복적인 시스템의 개선에 도움을 줄 수 있을지
•
앞으로의 AI 시스템은 빅데이터보다 굿데이터다. 굿데이터는,
◦
일관되게 정의되어야 하며
◦
중요한 케이스들을 설명할 수 있어야 하며
◦
배포 데이터를 통해 적절하게 피드백을 받아야 하며
◦
적당한 사이즈를 가지고 있어야 한다.