강화학습(Reinforcement learning. 이하, RL)에서 더 똑똑하고 다양한 문제를 해결할 수 있는 중요한 목표는 단일 범용 학습 알고리즘을 설계하는 것이다. 그러나 RL 알고리즘 분류법은 상당히 크고 새로운 RL 알고리즘을 설계하려면 광범위한 조정과 검증이 필요하기 때문에 여전히 어려운 과제이다.여기에, 다양한 작업에 자동으로 일반화하는 새로운 RL 알고리즘을 설계할 수 있으며, 자신이 무엇을 알고 모르는지, 자신의 행동이 어떤 결과를 초래할지에 대해 인지하고 주어진 데이터와 환경만으로 기존에 학습했던 정보와 알고리즘
출처 : 인공지능신문 – 전체기사