Search
🤯

Domain Specific한 문제 해결, 데이터가 문제냐 모델 개선이 문제냐

작성일
2021/03/31
태그
Summary
Domain Adaptation
연구
방법론
Production
작성자
Empty
1 more property
모델을 개선하는 데에 집중한 시도는 많은 domain adaptation 케이스에서 그다지 큰 정확도 개선을 보이지 않는다.
데이터를 개선하는 데에 집중한 시도는 눈에 띄게 높은 개선율을 보인다.
데이터는 AI에게 있어 음식의 원재료와 같다. 원재료가 좋아야 어떻게 요리를 해도 맛있고 건강한 음식이 된다.
그럼에도 불구하고 현행 연구들은 '모델의 개선'에 '데이터의 개선'보다 훨씬 더 집중하는 경향이 있다.
우리는 AI 시스템을 보다 효율적으로 개선하기 위해서 체계적인 데이터 품질 검수를 해야만 한다.
여러 라벨러들에게 동일한 샘플에 대한 라벨링을 요구한다
라벨러들이 작성한 결과의 동일성을 비교하고 그들이 서로 동의하지 않는 지점을 확인한다.
모든 라벨러들이 일관성 있는 라벨링을 할 수 있도록 지침을 개선한다.
모델 중심적 관점에서는 데이터를 변경하지 않고 반복적으로 모델을 변경해 문제를 해결하고자 한다.
데이터 중심적 관점에서는 모델을 변경하지 않고 반복적으로 데이터를 개선해 문제를 해결하고자 한다.
적은 데이터라도 데이터셋이 일관성이 있다면 충분히 문제를 해결할 수 있다.
데이터의 절대량을 늘리는 것보다, 데이터의 잡음을 없애고 일관성을 증가시키는 편이 훨씬 더 효율적이다.
quality over quantity 예시
data에 집중해 체계적으로 시스템의 성능을 개선시키는 루틴
기존 소프트웨어 엔지니어링의 DevOps 엔지니어처럼, 모델의 개선을 제외한 전체 AI 시스템의 파이프라인을 개선할 수 있는 MLOps의 탄생
MLOps는 다음 3가지 문제를 고민하고 해결한다.
어떻게 데이터를 수집해야 할지
모델 성능 개선을 위해 어떻게 데이터를 개선할 수 있을지
어떤 데이터를 추적해야 반복적인 시스템의 개선에 도움을 줄 수 있을지
앞으로의 AI 시스템은 빅데이터보다 굿데이터다. 굿데이터는,
일관되게 정의되어야 하며
중요한 케이스들을 설명할 수 있어야 하며
배포 데이터를 통해 적절하게 피드백을 받아야 하며
적당한 사이즈를 가지고 있어야 한다.