본 포스터는 KCA 연구보고서 "디지털 트랜스포메이션 시대, 영상·미디어 데이터 구축 및 활용 방안" 의 내용을 기반으로 작성되었습니다.
본 연구는 영상·미디어 분야의 학습용데이터 부족 문제 해소와 디지털 전환 가속화를 위해 ①국내·외 데이터기반 인공지능 산업 및 기술 현황을 분석하고, ②AI학습용 데이터 구축 및 활용 동향을 분석하여, ③영상·미디어분야 AI경쟁력 강화를 위한 학습데이터 수집·활용 활성화 방안을 제시함 |
1. 연구의 배경 및 목표
o (배경) 영상‧미디어 분야에서 AI기술 개발 수요가 증가하고 있으나, 활용 가능한 AI학습용 데이터의 부족과 비용/시간 등의 부담으로 인해 중소기 업 등에서는 관련 데이터의 확보가 어려움
- 인공지능 시장은 기술 발전, 서비스 상용화·고도화에 따라 ’25년까지 208~374조원 규모로 성장할 전망이며 영상‧미디어 분야에서도 CNN(Convolutional Neural Network, 이하 ‘CNN’), RNN(Recurrent Neural Network, 하 ‘RNN’), GAN(Generative Adversarial Networks, 이하 ‘GAN’) 모델을 사용한 인공지능기술 개발 수요가 증가함
- 인공지능 기술이 확산·발전되기 위해서는 고품질· 대규모 인공지능 학습용 데이터 확보가 필요하여 각 분야의 AI학습용 데이터 구축이 확대됨
- 과학기술정보통신부의 지원으로 한국지능정보사회진흥원(NIA)이 AI학 습용 데이터 구축사업을 추진하고 있으나, 영상‧미디어 분야의 수요가 반영된 데이터 구축은 미흡한 상황임
o (필요성) 영상‧미디어 분야의 학습용데이터 부족 문제 해소와 디지털 전 환 가속화를 위해 데이터 자원 확보·활용 방안을 제시 필요
- 데이터보유자가 AI 개발 산출물의 최종적인 활용자가 되는 영상‧미디어 분야의 특수성을 고려하여, 데이터보유자-데이터활용자-잠재적인 AI기 술활용자의 AI 기술 개발 방향과 전략 수립, AI학습용 데이터 수요 발굴, 영역 특화의 AI 학습용 데이터 공유‧개방의 협력체계 구축이 필요함
- 현재와 같이 방송사‧통신사‧인터넷기업 등이 개방한 원시데이터를 AI 학습용으로 단순가공하여 AI허브에 공개할 경우, 미상의 데이터 활용자 에게 공개를 전제로 하는 AI허브의 특성상 원천데이터 보유자에게 해당 학습용 데이터의 사용으로 인해 발생하는 경제적 이익이 명확하지 않음
- 단기적으로 명확한 경제적 혜택이 보장되지 않고 AI학습의 결과물인 AI 기술에 대한 사용권 확보 등에 대한 권한 등에 대한 거래기준이 없으면, 양질의 원천데이터를 가진 민간 영상‧미디어 기업의 자생적인 원천데이
터 개방이 쉽지 않음
※ 국내 인공지능 도입의 장애물 인식(정보통신정책연구원, 2021) : 학습용 데이터 부족 (24.2%) 등
- 따라서, 산업의 변화 방향에 맞춰 중장기적인 시각에서 데이터의 수요를 발굴하고 데이터의 수집과 공개의 선순환적 생태계를 구축하기 위해서는, 정부나 공공기관이 이해당사자들의 관계를 조정하는 핵심적인 역할 수행이 가능한 데이터 생산‧구축‧개방 체계가 구축될 필요가 있음
- 이에, 영상‧미디어 분야의 산업발전 방향 및 특수성을 고려한 AI기술 개발 방향에 대한 비전을 제시하고, 영상‧미디어 분야에 특화된 AI학습용 데이터 구축 목표와 방향을 제안하는 연구가 필요함
o (목표) 본 연구는 영상‧미디어 분야의 인공지능 활용 현황 및 전망분석을 토대로 영상‧미디어 분야의 특수성을 고려한 AI학습용 데이터 구축의 방향, 전략, 학습용 데이터 구축사업을 발굴하는 데에 목표를 둠
- 이에 본 연구에서는 ①국내외 데이터 기반 인공지능 산업 및 기술현황 을 분석하고, ② 영상‧미디어 분야의 AI 데이터 활용방안을 도출하며, ③ AI학습용 데이터 구축사업 발굴 및 추진방안을 도출하고자 함
2. 국내외 데이터기반 인공지능 산업‧ 기술 현황 분석
o (인공지능 기반 기술 유형과 영상미디어 분야 적용사례) 영상미디어 분야 에서 활용되는 인공지능 모델은 대표적으로 CNN, RNN, LLM기반 모델 등이 있음
- CNN은 이미지 분류 및 인식에 주로 사용되는 신경망의 한 종류로 시각적 데이터에서 객체, 클래스, 범주 인식을 위한 패턴을 찾고 오디오, 시계열 및 신호 데이터를 분류하는 등 영상의 주요 패턴을 인식할 수 있으므로 이미지 및 비디오 처리 작업에 특히 유용함
* 대표적인 사례는 NHK의 CNN기반 메타데이터 생성시스템으로, NHK는 영상내에 간판이나 삽입된 문자를 인식해 영상메타데이터를 자동 부여함으로써 효율적인 영상 검색을 목표로 하고 있음
- RNN은 시퀀스 데이터를 처리하는 순환 신경망 클래스로, 문장 생성, 번역, 감정 분석 등에 사용이 가능하며, 영상미디어 분야에서도 챗봇이나 음성비서 등 개인화된 맞춤형 서비스 구현에 적용
* 2016년도에 발표된 9분가량의 단편영화 ‘Sunspring’이 최초의 RNN을 활용한 시나리오 개발의 사례로 프리프로덕션 단계에서 대본작성의 보조적인 작업 도구로서 활용성이 있음
- 영상 및 이미지의 객체인식에 유리한 CNN과 시간적이고 순차적인 데이터 처리에 유리한 RNN을 동시에 사용하면, 영상 속의 상황을 문장 으로 설명하는 자막이나 해설, 대본 구성 등이 가능해짐
- 최근 챗GPT 등장 이후 관심을 끌고 있는 LLM은 자연어 처리(NLP) 작업을 수행할 수 있는 딥러닝 알고리즘 모델로 챗봇, 가상 비서 또는 텍스트 기반 대화 시스템용으로 설계되어 고객서비스나 타 인공지능 모델에 대한 텍스트 기반 대화 입력에 특화됨
- LLM은 현재까지 CNN이나 RNN에 비해 활발하게 개발되어 오지는 않았으나, RNN에 비해 자연어 처리에서 확장가능성이 높아, 향후 학습데이터에 따라 얼굴 인식, 객체 검출, 스타일 전송, 이미지 캡션, 비디오생성 등의 다양한 작업을 수행할 수 있음
o (워크플로우 단계별 AI활용성) AI는 새로운 캐릭터를 생성하거나 후반 작업 자동화 등 기존의 시간과 비용, 인력이 많이 소요된 영역을 중심으로 AI활용이 증가하고 있음
- AI를 활용하여 시나리오를 작성하거나, 후반작업인 VFX 효과 적용에 있어 AI 활용을 하여 등장인물을 제작하는 등 영상·미디어 분야 워크플로우 전반에 있어 AI 활용이 증가할 전망임
- 또한, AI 기반 데이터 분석 결과를 마케팅 전략에 활용하는 등 제작된 콘텐츠의 마케팅과 유통 과정에도 AI 활용이 확대되고 있으며, 스트리밍 서비스 활성화에 따라 AI를 접목하여 개인 맞춤형 콘텐츠 추천 등 이용자 특화된 서비스를 제공하고 있음
o (워크플로우 단계별 AI학습데이터 활용범위) 영상미디어 워크플로우 단순화 및 효율성 확대를 위해서는 현재 활용되고 있는 기술 발전을 통해 보편화할 수 있도록 방송에 특화된 AI 학습용 데이터 확보가 필수적
분야 | 데이터 활용 범위 | |
프리 프로덕션 |
기획 | 과거 영화 흥행 데이터를 토대로 영상 기획에 반영 |
개발 | 시나리오 데이터 학습시켜 대본작서 자동화 | |
사전 준비 | 스크립북, 재무모델링, 캐릭터의 매력 점수 분석, 캐스팅 전략 도출 |
|
프로덕션 |
배경음악 | 음원 및 작곡데이터 학습으로 AI기반 배경음악 생성 |
장면 선택 | 신경망 분석을 통한 최적의 장면 및 예고편 추출 | |
촬영 | 기존 시각특수효과 데이터 학습으로 무인 영상 시스템 구축 | |
포스트 프로덕션 |
특수효과 | 영화 속 인물 제작 및 특수효과 적용 |
자막/번역 | 말뭉치/음성 데이터를 학습시켜 자막, 번역, 통역, 수어, 화면해설 자동화 |
|
마케팅/ 유통 |
콘텐츠 관리/추천 |
영상콘텐츠 지도학습데이터를 통해 영상으로부터 자동화된 메타데이터 생성 및 ‘이용자’의 만족도를 최대화하는 추천 |
전략수립 | 효과적이었던 광고, 관객층과 지역 데이터 분석을 통해 홍보를 위한 최적화된 전략 도출 |
<표 1> 워크플로우 단계별 AI학습데이터 활용범위
3. AI학습용 데이터 구축 및 활용 동향 분석
o (지능별 데이터세트 현황) 현재 해외에는 시각지능, 언어지능, 청각지능 등 다양한 인공지능의 학습을 위한 데이터세트가 구축·공개되어 있으며, 영상 보다는 텍스트와 이미지 중심으로 데이터가 구축됨
구분 | 데이터세트 명칭 | 구축 방법 |
시각 지능 (이미지인식) |
ImageNet | - 웹에서 크롤링한 이미지 - WordNet 온톨로지를 사용하여, 20,000개 이상의 카테고리로 이미지를 분류 |
Open Image Dataset |
-구글에서 제공하는 이미지 데이터세트 -Image-Region-Caption의 데이터구조를 가진 2만개 클래스, 900만개 이미지(url) |
|
COCO | - Flickr에서 크롤링한 이미지 - 일반이용자에게 객체와 그 객체들의 관계에 대한 주석을 달도록 한 참여적 데이터세트 |
|
MNIST | - 핸드라이팅 숫자 이미지 데이터세트(6만장) | |
CIFAR-10/100 | - 8천만개의 저용량 이미지 데이터세트 | |
TACO | - 자원 봉사자들이 찍은 사진을 기반으로 구축 | |
DeepFashion | - 패션웹사이트 크롤링 이미지 | |
Casual Conversations |
- Meta(Facebook)에서 자체 제작 - 다양한 연령, 성별, 조명 조건에서의 짧은 비디오 클립들을 포함 |
|
CelebA | - 다양한 웹 사이트에서 유명인의 이미지를 크롤링하여 구축 |
|
시각 지능 (공간 인식/ 이미지인식) |
KITTI (객체탐지) |
- 주행 중인 차량에 설치된 센서들로부터 데이터를 수집하여 구축 |
Kinectics | - DeepMind가 구축한 동작인식 학습데이터세트 - 700클래스, 65만개 이미지가 구축되어 있음 |
|
MPII Human Pose |
- Andriuka. et. al.이 학술목적으로 구축한 관절 관련 학습데이터세트 |
|
언어 지능 (텍스트 인식) |
SQuAD | - Wikipedia 기사를 기반으로 한 데이터세트 |
MS MARCO | - Microsoft에서 운용하는 Bing 사용자의 실제 검색 쿼리와 연결된 문서를 기반으로 구축 |
|
OpenSubtitles | - 여러 언어의 영화와 TV 프로그램 자막을 모아 구축 |
|
청각 지능 |
LJSpeech | - 한 여성 화자의 오디오 북 클립들을 모아 구축한 청각지능용 학습데이터세트 |
UrbanSound8K | - 다양한 도시 환경에서의 소리를 녹음하여 구축 |
<표 2> 인공지능 유형별 해외 주요 학습용 데이터 구축 현황
o (해외 방송영상사업자의 학습데이터 구축 및 공개 현황) BBC와 YouTube, Meta가 연구 및 공공목적 활용을 전제로 데이터를 공개함
- BBC는 2022년에 AI학습용 데이터용으로 짧은 TV 프로그램의 영상클립과 비하인드 스토리 및 메타데이터가 포함된 데이터세트 공개
- 단, 대학 및 학술 기관과 비상업적 연구를 위한 관련 공공 기관의 연구원만 사용하도록 허용했으며, 독립 연구자, 중등 교육 학생(예: 고등학생) 또는 상업 단체의 사용은 제한함
- 구글은 2019년 수백만 개의 YouTube 동영상 ID와 3,800개 이상의 영상으로부터 기계적으로 생성한 레이블포함된 ‘YouTube-8M Segment Dataset’을 공개함
- Meta는 인종이나 성별, 언어 등에 따라 차별하지 않도록 하는 공정한 AI개발을 위해 5,567명의 초상이 포함된 짧은 영상 데이터세트인 Casual Conversations을 공개함
o (국내 공공부문 학습데이터 구축 및 공개 현황) 한국지능정보사회진흥원의 AI 학습데이터 구축 과제를 추진하는 등 정부 주도형으로 AI 학습용 데이터 구축이 이뤄짐
- 현재 구축‧개방된 영상 및 이미지 데이터세트 대부분이 유동인구 분석을 위한 CCTV영상데이터나 건설현장 장비 모니터링 및 생산성 측정데이터 등과 같이 자율주행차나 로보틱스 적용도가 높은 데이터로 방송영상제작에 적용하기에는 어려움이 있음
- 순수 비디오만 있는 데이터세트는 15건에 불과하며, 객체 및 인물에 대한 감정, 동작, 성별 등의 라벨링 정보가 풍부한 동작영상 데이터, 멀티모달 데이터, 멀티모달영상 데이터세트가 부족함
- 방송사 영상으로부터 추출하여 구축‧공개한 AI학습용 데이터세트는 15건에 불과하며, 한국어 통번역에 초점을 둔 음성데이터 중심임
o (기존 데이터세트의 영상미디어 분야 AI학습 활용 가능성 평가) 영상미디어 제작과정에 필수적인 시각지능용 원시데이터가 부족하고, 영상미디어의 수요에 부합하는 라벨링이 이뤄지지 않음
- 방송영상제작에 사용할 수 있는 영상이미지 데이터세트가 양적으로 현저하게 부족하고, 저작권과 초상권 등의 문제가 없는 비전문적으로 제작된 짧은 비디오 클립 중심임
- 영상미디어분야 AI학습에 특화된 라벨링이 포함된 데이터세트가 부족하고 대부분 언어중심의 데이터세트로 영상과 이미지 라벨링은 미흡한상황임
- 일부 통신사나 인터넷기업들이 원본데이터를 공개하더라도 민간사업의특성상, 원천데이터 자체를 제공하기보다는 API만을 공개하여 데이터를크롤링할 수 있는 횟수와 양을 한정하는 방식으로 서비스를 구축하거나 정형화된 빅데이터 중심으로 데이터를 구축‧개방하는 경향이 있음
4. 영상미디어분야 AI경쟁력 강화를 위한 학습데이터 수집‧ 활용 활성화 방안
가. AI학습용 데이터구축 및 활용을 위한 제도개선 검토
o (AI 학습용 데이터 수집‧활용의 법률적 제약요인) 국내 법률의 엄격한 적용과 해석으로 인해 AI 학습용 데이터 구축 및 활용이 활성화되지 못 하다는 지적
- 2020년에 데이터 3법이 통과되며 데이터 활용에 대한 기대가 일었으나, 여전히 데이터 수집 및 활용에 있어 개인을 식별할 수 없는 수준의 가명처리를 해야 하며 안전성 확보조치 및 기술적 보호조치 등의 의무로 인해 이를 검증하는 과정에서 시간‧비용 등의 제약이 있음
- 국내 개인정보보호법에 규정된 동의제도는 개인정보자기결정권을 집중적으로 보호하기 때문에 비식별화를 하더라도 데이터를 이용하기 위해 서는 사전에 필수적으로 정보주체의 동의를 구하여야 함
- 개인정보의 엄격한 통제로 인해 데이터 생태계 구축 및 산업 발전이 지체되는 한편, 형식적인 보호절차로 인해 개인의 정보도 실질적으로 보 호되지 못하는 상황
o (AI 학습용 데이터 수집/활용을 위한 제도 정비 방향) ① 규제 패러다임 전환, ②형식적 사전동의 규제 개선, ③가명처리 없는 AI 학습데이터 활용 등을 통해 데이터 수집 및 활용과 관련된 기존의 법 규제체계의 한계를 보완할 필요가 있음
- 데이터 수집 및 활용을 위해 기존의 경직된 법 규제체계를 AI 활성화, 빅데이터 등 기술의 발전을 전제로 한 규제로 패러다임 전환
- 개인의 식별가능성이 현저히 떨어지는 정보나 필수동의 사항에 대해서는 사전동의를 강제하지 않고, 옵트아웃 방식 등을 도입하여 데이터 활용을 촉진
- 단순히 AI 학습을 위한 경우에는 접근통제, 보호조치 등을 전제로 하여 가명처리 없이 개인정보를 활용할 수 있도록 개선 필요
나. 영상미디어분야 AI학습 데이터 구축 사업목표와 범위
o (영상미디어 분야 AI경쟁력 확보의 저해요인) 국내 내수시장 한계, 영상데이터 확보가 어려운 법률적‧제도적 장애, 영상미디어 영역 특화의 AI 기술 개발인력의 부족, 초거대 모델 위주의 정책 전환에 대한 우려 등이 데이터 구축의 잠재적 저해요인임
- 특히, 파운데이션 모델 중심으로 초거대AI플랫폼 경쟁력 확보에 집중된 중장기 AI경쟁력 확보 전략은 영상미디어 분야에 실질적인 AI수요와 괴리될 우려가 있음
- 비 라벨링 텍스트 데이터 위주의 데이터 구축사업은 이미 도입된 AI모델을 활용하고자 하는 제작사, 영세한 개발사, 개인 개발자의 학습용 데이터 접근성을 저해할 우려
o (데이터이용자-데이터보유자 간 협력체계) 데이터이용자와 데이터보유자 간 공유‧협력에 기반해 영상미디어분의 AI기술 수요에 부합하는 AI 학습데이터 구축
- 영상미디어산업의 경우 가장 많은 양의 영상, 음성, 텍스트, 이용기록 등의 데이터를 보유한 방송영상관련 미디어 기업과 플랫폼으로, 데이터이용자인 AI개발자가 양질의 AI기술을 개발한다면 그 AI기술의 최종 수혜자가 되는 순환적인 구조임
- 현재의 데이터 거래 플랫폼은 단순히 데이터를 일회적으로 제공하는 거래만 지원하고 있어, 데이터가공자와 데이터수요자(개발자/개발사)간 공개된 거래만을 매개할 뿐 최초 데이터 제공자가 데이터 제공 이후에 데이터 활용의 결실을 확인하기 어려운 구조임
- 이에 데이터의 수집부터 최종 결과물인 AI기술의 활용에 이르기까지 데이터보유-데이터이용 합리적이고 공정한 기준으로 관리할 수 있도록 공공기관이 주도하는 데이터이용자와 데이터보유자 간 상생의 협력 체계를 구축이 필요함
- 현재 AI학습용 데이터 구축 지원사업을 통해 KBS와 EBS, 공공기관이 보유한 일부의 영상이 활용된 바 있으나, 더 다양한 영상이미지 원천데이터 구축을 위해서는 정부나 공공기관이 사용자와 제공자간에 적법하고 합리적인 데이터 사용 협상에 관한 조정이 필요함
- 이에 공공부문이 주도하여 산학연관의 협의체를 구성하고 데이터 보유자들이 적지 않은 투자를 해 가며 축적‧관리해 온 데이터의 활용결과물에서 보유자들의 이익과 배치되지 않도록 하는 활용범위와 방안에 대한 투명한 관리가 필요함
o (영역특화기관의 AI기술 전략수립에 따른 데이터 구축 추진) AI기술개발 수요와 데이터 필요분야 발굴부터 데이터산출물과 AI기술 활용의 전체 프로세스에서 주도적 역할을 담당할 수 있는 영역 특화기관이 데이터 보유자-수요자-가공자 간의 매칭을 주도
- 데이터보유자와 가공자, 개발사의 3자간 수요-공급 매칭을 통해 발굴된 데이터세트 구축은 영역특화기관을 통해 별도의 협약 범위 내에서 활용하며, 영역특화 기관은 3자간의 협상과 데이터 구축 및 활용을 지원함
- 공공데이터 및 완전한 공개가 허용된 공개데이터에 기반한 AI학습용데이터 구축에 한해서 NIA가 구축한 AI허브에 공유하고, 데이터가공자와 데이터수요자간 공개적 거래는 AI허브를 통해서 추진함
다. 영상미디어분야 학습데이터 구축 과제
o (영상미디어 특화 AI학습데이터 구축목표) 영상미디어 분야의 AI기술 발전 방향을 고려할 때, 학습데이터 구축의 목표는 각 영역별로 다음과 같이 전환이 필요함
o (학습데이터 구축범위) 동영상-스크립트-음원-어노테이션-메타데이터가 모두 포함된 풀타임(full-time) 방송영상데이터 구축이 필요함
- 기존에 구축‧공개된 영상 요약기술용 학습데이터는 짧으면 수초에서 수분 내외의 동영상 클립 중심으로 구축되어 있으며, 정규 방송프로그램이나 영화와 같은 저작권이 있는 양질의 기존 영상물들은 데이터 공유가 이뤄지지 않음
- 상업적인 추가 수익화가 어려운 오래된 비인기 영상이라도 전문적인 제작사나 방송사가 제작한 풀타임 영상 데이터와 스크립트의 공유가 이뤄져야 내러티브에 기반한 영상 요약 기술 개발에 유리할 것으로 보임
- 이에 공공 스포츠이벤트로 중계권이나 저작권 프리가 확보된 영상, 영상저작물의 보호기간이 소멸되었거나 저작권 기부, 공공기관이 협약을 통해 저작권 공유 및 개방을 득한 전문적인 방송 및 영화 영상 등을 확보하여 풀타임 영상데이터와 스크립트의 공유가 필요함
- 더불어 해당 원천데이터에 대한 메타데이터 및 어노테이션 작업을 지원하여 지도학습용 자료로 개발이 필요함
구분 | 내용 |
대규모 동영상 데이터 | -전문적으로 제작된 풀타임 방송영상 프로그램 원시데이터 -감성, 개념 등 추상화된 대상에 대한 시각적 이미지 데이터 -비인물 랜드스케이프 3D공간 데이터 |
음성데이터 | -텍스트를 시각적 콘텐츠와 정렬하는 데 사용할 수 있는 동영상의 음성 콘텐츠 녹음본 |
오디오데이터 | -시각적 데이터와 함께 분석할 수 있는 사운드트랙, 대화 및 기타 오디오 요소 |
어노테이션(annotation) | -지도 학습의 기본 정보로 사용되는 동영상의 중요한 부분을 나타내는 사람, 객체 등을 설명하는 요약 또는 라벨 -동영상에서 발생하는 콘텐츠, 동작, 이벤트를 설명하는 어노테이션(annotation)이 포함된 대규모 동영상 데이터세트 |
설명텍스트 데이터 | -AI가 학습할 수 있는 추가 컨텍스트를 제공할 수 있는 비디오 콘텐츠의 텍스트 설명 또는 요약정보 -동영상과 관련된 대본이나 설명은 동영상과 텍스트 정보를 결합하여 다중 모달 학습에 사용 |
메타데이터 | -동영상 제목, 태그, 사용자 참여 측정항목과 같은 정보는 요약을 위한 추가 컨텍스트를 제공 |
사용자 상호 작용 데이터 |
- 좋아요, 댓글, 시청 시간 등 사용자가 동영상 콘텐츠와 상호 작용하는 방식에 대한 정보 - 동영상의 내러티브에 따른 동공의 상대적 위치나 |
<표 4> 멀티모달 인공지능개발을 위한 데이터 구축 범위
본 포스터는 KCA 연구보고서 "디지털 트랜스포메이션 시대, 영상·미디어 데이터 구축 및 활용 방안" 의 내용을 기반으로 작성되었습니다.
상세 내용은 아래 링크를 통해서 확인 하시기 바랍니다.
본 연구는 영상·미디어 분야의 학습용데이터 부족 문제 해소와 디지털 전환 가속화를 위해 ①국내·외 데이터기반 인공지능 산업 및 기술 현황을 분석하고, ②AI학습용 데이터 구축 및 활용 동향을 분석하여, ③영상·미디어분야 AI경쟁력 강화를 위한 학습데이터 수집·활용 활성화 방안을 제시함 |