세 명이 동시에 말하는 것을 알아 듣는 로봇* 사진 출처: Kyoto Univ. 교토대학과 혼다연구소(Honda Research Institute Japan)의 공동 연구 프로젝트인 Robot Audition Project는 실시간으로 현실세계에서 동작하는 로봇 청각을 개발하는 것이 목표이다. 홈페이지에 제시된 프로젝트의 두가지 숙제를 그대로 인용하면 다음과 같다.
로봇은 소음 환경에서 특정 음원을 들어야 한다. 사람에 있어서 이 능력은 "칵테일 파티 효과"로 알려져 있다.
로봇은 여러 말소리를 동시에 들어야 한다. 이것은 소리를 내는 어떤 사람(또는 물건)이 대화를 방해하는 경우에 대처하기 위해 필요하다. 이것은 언어대화 시스템에서 "Barge-in"이라고 알려져 있다.
이를 위해 Active Audition, Multimodal Integration, General Sound Understanding의 이슈를 고려한 개발을 진행중이라고 한다. 아래 데모 영상에선 세 명의 목소리를 동시에 구분해 낸다. 이 기술은 여러 로봇 플랫폼에 적용가능한데, 아래 데모 영상의 Robovie R2는 물론 혼다 Asimo에서도 동작되었다고 있다고 한다.