남주한 교수(KAIST) 인공지능 시대의 음악기술
날짜2019.05.22
조회수6738
글자크기
    • 남주한 교수(KAIST) 인공지능 시대의 음악기술 강연안내에 대해 일시, 장소, 주제, 발제자의 순서로 구성된 표
      일 시 2019.4.15.(월) 10:30~14:30
      장 소 소프트웨어정책연구소 회의실
      주 제 인공지능 시대의 음악기술
      발 제 자 남주한 교수(KAIST)
    • 인공지능 기술이 인공지능 스피커와 개인 콘텐츠서비스 등으로 점점 생활 속으로 들어오고 있음
    • 스트리밍 서비스로 재편되고 있는 음원 시장의 변화와 PC, 모바일, 인공지능 스피커 등 다양한 재생기기로 확장되고 있음
    • 음악은 작곡가가 음악을 작곡하고 연주를 하며 청취자가 감상하는 사이클이 반복적으로 돌아가며 상호작용하는 과정
    • 음악 감상, 음악 연주, 창작 분야인 작곡 세 분야로 나뉘어서 인공지능과의 결합을 설명
    • 음악감상 기술
    • 수많은 음악 중에 어떻게 개인의 취향 및 상황에 맞는 음악을 찾을 것인가에 대한 고민이 지속됨(개인의 취향, 습관, 행동 등)
    • 음악 추천을 위해 협업 필터링 기반 추천(Collaborative Filtering)
    • - 기본 아이디어는 Matrix Factorization으로 사용자와 곡에 관련된 축으로 매트릭스를 구성하여 사용자 취향과 곡의 특징에 대한 인자를 찾아 곡 선호도 결과물을 생성
    • - 협업 필터링 기반의 추천 방식은 인기곡 중심의 추천(Popularity Bias)이 위주로 되며 초기 추천에 어려움(Cold-start problem)이 있음
    • 내용 기반 추천(Content-based filtering)
    • - 인기도에 관계없이 비슷한 음향적인 특징 기반 추천
    • - 대표적으로 미국의 판도라사의 Music Genome Project(1999)를 진행하여 음악의 특징을 정의하고 모든 곡에 대해서 음악 전문가가 각 특징의 해당 여부 판단, 분석 결과를 기반으로 자동 선곡하는 이러한 방식은 음악의 발견에 장점이 있지만 음악 분석에 필요한 비용 및 시간이 상당히 소요된다는 단점이 있음
    • 하이브리드 추천 시스템
    • - 협업 기반 필터링, 내용 기반 필터링 등 다양한 데이터를 혼합하여 구성함(전문가/사용자 선곡, 메타데이터(아티스트, 음반기록 및 지식데이터) 사용자데이터, 오디오, 가사, 앨범 이미지 등 활용)
    • 오디오(내용) 기반 추천
    • 음악 오디오 자동 태깅(Music auto-tagging) : 장르, 무드, 악기 등을 딥러닝 모델을 이용하여 음악 장르를 추천
    • 모호성(퀸의 보헤미안 랩소디의 장르는?), 주관성(편안한 분위기의 곡) 등 장르가 섞인 곡들이나 개개인의 해석에 따라 음악의 무드가 달라질 수 있으며, 고품질의 정확한 레이블링에 따른 비용 및 시간 등이 문제점임
    • 학습 시 사용되는 레이블 단어의 수가 한정되어 있음 - 학습 시 포함되지 않은 레이블은 예측할 수 없음
    • 아티스트 기반 추천
    • 아티스트 기반의 분류방법을 통해 아티스트 레이블은 곡 출시와 함께 자동으로 생성되며 객관적인 정보를 갖고 있으므로 한 명의 아티스트 음악을 하나의 작은 장르로 해석하여 분류하는 방법을 활용
    • (문제점) 아티스트 수가 많을 때 아웃풋 레이어가 과도하게 증가하며, 새로운 아티스트 추가 시 모델 재학습 필요
    • 같은 파라미터를 공유하는 Siamese Network를 이용하면 해결할 수 있음 : 주어진 Anchor 아티스트에 대하여 같은 아티스트와 다른 아티스트 간의 거리 차이가 나도록 학습하는 방법
    • 음악 연주 기술
    • 음악 연주 머신은 기계적 음악 연주 머신과 지능적 음악 연주 머신으로 나뉨
    • - 기계적 음악 : 주어진 연주 데이터를 재상하는 하드웨어적인 분야
    • - 지능적 음악 연주 : 음악 연주 지능을 갖고 있는 악보를 받아들여 연주하는 소프트웨어적인 지능적 연주방식
    • 청음과 표현
    • - 자동 음악 채보(Automatic Music Transcription): 소리에서 음표정보를 추출