일반적으로 인공지능(AI) 딥러닝 모델을 훈련시키기 위해 사용되는 데이터셋에는 종종 편향이 존재할 수 있다. 예를 들어, 세균성 폐렴과 코로나를 구분하는 데이터셋을 만든다고 했을 때, 코로나 감염 위험으로 인해 서로 다른 조건에서 영상을 수집하게 될 수 있다.이로 인해 영상 내에 미세한 차이가 생겨 실제 질병을 구분하기 위한 중요한 특징들이 아닌 영상 프로토콜 간의 차이로 발생하는 특징들로 질환을 구분하게 된다. 이 경우 학습에 이용한 데이터에 대해서는 높은 성능을 보이지만 일반성이 떨어져 다른 곳에서 취득한 데이터에는 잘 동작하지
출처 : 인공지능신문 – 전체기사