2018 ‘AI 인덱스’ 보고서가 제시하는 주요 의미 (KISA REPORT 2019년 2월)

AI 인덱스 보고서란?

2017년 12월에 필자가 작성한 KISA 리포트의 주제는 ‘2017년 AI 인덱스의 의미’였다. 당시 이 인덱스 보고서에 대한 설명을 다음과 같이 했다.

“스탠포드의 인공지능 100년 연구의 한 프로젝트로 시작한 ‘AI 인덱스’ 프로젝트는 개방된 방식의 비영리 과제로 인공지능 관련 활동과 진보를 추적하기 위한 과제이다. 또한 이 과제를 위해 수집한 모든 데이터는 ‘aiindex.org’ 사이트에 공개해 다른 사람도 추가 데이터를 제공하거나, 모인 데이터를 분석하고, 어떤 주제를 추적하기 원하는지 주고받을 수 있는 더 큰 규모의 커뮤니티 구성 프로젝트이다.”

2018년에도 12월에 보고서가 나왔다. 그러나 2018년 보고서는 AI100 산하의 프로젝트에서 독립해서 스탠포드 대학의 ‘인간 중심 인공지능 연구소 (HAI)’가 주관하는 노력으로 변화했으며, AI100와 HAI의 공동 협력으로 수행했다.
이번 보고서를 작성한 전문가들은 하버드, MIT, 스탠포드, 오픈AI, PAI (인공지능 파트너십) 소속 전문가들이며, 보고서의 미션은 마찬가지로 인공 지능과 관련된 데이터를 추적, 수집, 정제하며, 시각화 하는 노력이며, 정책 입안자, 연구자, 임원, 저널리스트 등과 대중이 데이터와 분석에 대한 광범위한 자원을 갖고 인공지능이라는 복잡한 영역에 대한 직관을 갖게 하는 것이다.
보고서는 아래와 같이 4개 부분으로 이루어져 있다.

    1. 활동량과 기술적 성과에 대한 데이터
    2. 최근 정부 정책들, 파생 측정 지표와 인간 수준에 도달한 다양한 성과 등 추가 지표
    3. 우리가 무엇을 놓치고 있는가에 대한 토의
    4. 부록

양적 데이터에 해당하는 것은 활동 규모를 측정하는 학계, 기업, 기업가, 일반 대중에 의한 인공지능 활동과 참여 수준을 의미한다. 학부 학생이 인공지능 수업에 얼마나 참여하는지, 인공지능 직업에 도전하는 여성 지원자의 비중, 인공지능 스타트업에 대한 벤처 캐피털의 투자 규모 성장 등이 대표적인 지표들이다.
기술 성과 지표는 시간에 따른 인공지능 성능의 개선 변화에 초점을 맞췄다. 질의 응답 수준, 개체 확인을 위한 학습 속도 등을 측정한 결과이다.
2018년 인덱스는 전 년보다 각 나라 수준의 변화와 지표를 측정했다. 로봇 설치 대수나 인공지능 컨퍼런스 참가자 수, 특허, 로봇 운영 체제 다운로드, 대규모 객체 파악 성능 수준을 비교하는 COCO 리더보드 같은 지표도 추가했다.
다음 절부터 주요 측정 데이터와 확인된 변화를 하나씩 살펴보도록 하자.

2018년의 주요 지표들 – 연구 분야

인공지능 관련 논문 발표는 ‘스코퍼스(Scopus)’ 를 통해 확인된 결과 1996년 기준으로 8배 이상 증가했으며, 이는 컴퓨터 사이언스 논문 증가 (약 6배), 모든 논문 증가에 비해 급속한 성장이다. 흥미로운 점은 유럽이 전체 28%로 가장 많은 비중을 차지하고 있고, 중국은 2007년에서 2017년 사이 150%가 증가해 25% 비중을, 미국이 17%를 차지했다. 그러나 인용 지수로 보면 미국 저자들이 글로벌 평균보다 83% 더 많이 인용되고 있다.
영역 별로는 머신 러닝과 확률 추론, 뉴럴 네트워크, 컴퓨터 비전, 검색과 최적화, 자연어 처리와 지식 표현 등의 순서이다. 2010년 이후 아카이브(arXiv)에 올라온 공개된 논문을 범주 별로 보면 컴퓨터 비전과 패턴 인식이 가장 많은 비중을 차지하고 그 다음이 머신 러닝이며 컴퓨테이션과 언어 비중의 증가가 눈에 띈다. 이 얘기는 언어 지능 문제에 도전하는 연구가 많아지고 있다는 추세를 말하고 있다.
글로벌 연구 활동과 비교하는 상대 활동 인덱스를 미국, 유럽, 중국에 대해 확인한 결과는 재미 있는 동향을 보인다. 미국이 인문학과 의료 부분이 강한 것에 비해 (유럽도 유사한 동향), 중국은 공학 분야와 농업 과학 쪽의 상대 인덱스가 크게 나온다. 즉 세계 평균을 1로 놓았을 때, 1보다 큰 수는 다른 나라에 비해 더 많은 연구가 이루어지고 있음을 말한다.

그림 1 각 국가별 상대적 활동 인덱스

그림 1 각 국가별 상대적 활동 인덱스

논문 출간자의 소속을 기준으로 하면 중국과 유럽은 정부 관계 기관 소속이 많지만, 미국은 기업이 높은 비중을 차지한다. 2017년 기준으로 미국의 기업에서 나온 인공지능 논문은 중국의 6.6배에 달한다.
2018년 미국 인공지능 학회에 제출한 논문과 채택된 논문의 비중을 보면 제출 논문의 70%, 채택 논문의 67%가 미국과 중국에서 나온 논문들이다. 한국은 60개 제출에 14개가 채택된 나라로 이스라엘과 이태리보다 약간 많은 수준이다.
작년 보고서에서도 언급된 상황이지만, 2017년에는 2012년에 비해 머신 러닝 개론 과목을 수강하는 학생이 5배 늘었다. 특히 인공지능과 머신 러닝을 포함하면 중국의 칭화대학은 16배로 급증했다. 이를 가르칠 수 있는 교수 요원의 확보는 이제 각 나라 주요 대학의 큰 과제이다. 왜냐하면 점점 더 많은 교수 요원이 기업으로 옮기거나 창업을 하고 있기 때문이다.

2018년의 주요 지표들 – 산업 분야

샌드 힐 이코노메트릭스 자료에 따르면, 2015년 1월부터 2018년 1월까지 활동하는 미국 내의 인공지능 스타트업은 113% 늘었다. 타 분야가 28% 증가한 것에 비해 매우 큰 차이를 보이는데, 이는 2013년부터 2017년까지 인공지능 분야에 대한 벤처 캐피털 투자가 350% 증가한 것의 결과일 수 있다.

그림 2 인공지능 스타트업의 증가

그림 2 인공지능 스타트업의 증가

인공지능 인력에 대한 수요 증가 역시 눈에 띄게 변했는데, 몬스터닷컴에 올라온 일자리 증가를 보면 수요 자체는 머신 러닝 기술과 딥러닝이 주도했으며, 성장을 보면 딥러닝의 증가는 2015년에 비해 30배 이상 늘어났다. 그러나 데이터를 보면 여전히 71%의 지망자는 남성이라는 통계가 나온다.

그림 3 AI 기술자 영역별 구인 증가 추세

그림 3 AI 기술자 영역별 구인 증가 추세

이번 보고서에 새로 등장한 지표는 매킨지가 2천여 명에 대한 서베이 조사로 얻은 자료로, 분야별 각 지역의 역량 수준 비교인데, 아직은 북미, 유럽, 아시아 태평양 지역 별로 크게 다른 모습을 보이지는 않는다. 다만, 가장 역량을 갖추었다는 분야가 로봇 자동화, 컴퓨터 비전, 머신 러닝, 그리고 물리적 로봇공학 분야이다.
인공지능 기술 도입에서 산업별 영역별을 통해서 보면 통신의 서비스 운영, 하이테크의 제품/서비스 개발, 리테일의 마케팅/세일즈 등이 가장 많이 인공지능 기술이 도입되어 있는 분야로 나타난다.
공공 관심 수준을 정량화 한 지표도 발표되었는데, 요약하면 다음과 같다.

  • 미디어에서 인공지능에 대한 언급은 2016년부터 2018년까지 긍정적인 글이 1.5배 나타나 과거에 비해 바뀐 흐름을 알 수 있다.
  • 미국, 캐나다, 영국 의회에서 머신 러닝이나 인공지능에 대한 언급이 2016년 이후 급격히 증가했다. 이는 정책이나 법률 담당자들의 관심이 크게 늘어난 것으로 볼 수 있다.

주요 기술 성과들

2018년에 확인한 주요 기술 지표들을 시각, 언어 처리 등의 분야 별로 여러 챌린지나 성능 확인이 가능한 연구 결과를 통해서 정리하면 다음과 같다. 그러나 전체 기술 성과를 총 망라하지 못하고 있으며, 분야별 기술에 대한 정리가 아직 많이 부족한 상황이다.

  • 객체 인식의 표준으로 활용되고 있는 이미지넷의 학습 시간은 2017년 6월과 2018년 11월을 비교하면 16배 빨라졌다.
  • 구 구조 구문분석 (constituency parsing) 성능은 2003년에 비해 10% 증가했다.
  • 기계 번역에서 영어를 독일어로 번역한 BLEU 점수 는 2008년에 비해 3.5배 향상되었다.
  • 알렌 인공지능 연구소에서 발표한 자료에 따르면, 질의 응답을 위한 ARC (AI2 추론 챌린지) 기준으로 쉬운 셋에서는 2018년 4월 63%에서 2018년 11월 69%로 향상되었고, 도전 셋에서는 27%에서 42%로 크게 개선되었다.
  • 질의 응답의 또 다른 벤치마크인 GLUE 에서는 80% 수준의 정확도 점수를 얻었는데, 현재 비전문가 인간 수준을 90% 정도 수준으로 판단하고 있다.

기타 다른 지표와 보고서에 언급된 내용

‘AI 인덱스’가 기본적으로 정량적 지표를 측정해 전 세계 인공지능 연구 수준과 산업 현황, 기술 성과를 파악하자는 의미이기 때문에 지속적으로 같은 지표를 통해 발전을 확인하는 것이 가장 핵심이다.
그러나 산업계의 변화 흐름이나 정부 정책의 중요성 역시 확인할 필요가 있으며, 이에 따라 2018년 보고서에서는 주요 국가의 정부 정책 수립 현황이 정리되어 있다. 특히 미국 보다 유럽의 다양한 협력과 보고서, 프로그램 채택 내용과 중국의 움직임을 정리했다는 것이 그동안 미국 중심의 보고서에서 탈피하고자 하는 노력으로 보인다.
유럽에서 발간된 2018년 4월 ‘인공지능을 위한 협력 선언’, 유럽 집행부의 ‘인공지능 커뮤니케이션’, 그리고 ‘호라이즌 2020’ 프로그램에서 향후 10년 동안 200억 유로를 인공지능 연구에 투자한다는 내용을 언급했다. 6월에는 유럽집행부가 제안한 ‘디지털 유럽’ 프로그램에 인공지능 기술 발전과 활용이 강조되어 있음을 언급한다.
또 다른 흥미를 끄는 국가 정책으로는 미국 DARPA의 ‘AI 넥스트’ 프로그램으로 20억 달러 이상을 인공지능 기술 한계를 넘어서기 위해 집행한다는 것과 미 하원의 정보 기술 소위원회가 발표한 백서 ‘기계의 부상: 인공지능이 미국 정책에 미치는 영향 증가’가 관심을 끈다.
이번 보고서에 새로 등장한 것은 인간 수준에 도달한 인공지능 기술의 다양한 성과를 정리하기 시작했다. 2018년에 확인한 것들은 다음과 같다.

  • 중국어 – 영어 번역: 마이크로소프트 기계 번역 시스템
  • 딥마인드의 퀘이크 III 아레나 ‘깃발 뺏기 (Capture the Flag)’
  • 오픈AI 팀이 ‘도타 2’에서 아마추어 인간 팀을 이긴 사례 (일부 제약)
  • 구글 딥 러닝 시스템이 전립선 암 판정 정확도를 70% 수준으로 올려, 인간 수준 61%를 넘긴 것

이는 앞으로도 매우 다양한 영역에서 발표되고 검증될 것이며, 인공지능 기술 성장 평가에서 아주 흥미로운 결과 리스트가 될 것이다.

아직 부족한 부분

‘AI 인덱스’ 보고서가 계속 진화하지만 인공지능 전 분야의 상태를 정확히 파악하기에는 아직 부족하거나 더 추가해야 하는 요소들이 많이 남아 있다. 인공지능 전문가들이 말하는 추가해야 하는 부분은 다음과 같다.

  • 상식 추론과 자연어 이해 – 대화를 유지하기 위한 깊이 있는 자연어 이해는 아직 도전 영역이다. 대화 기반 인공지능 시스템의 역량을 측정하고 상식 추론을 위한 지표 개발이 필요하다.
  • 인간과의 협력 수준 평가
  • 인공지능 요소를 갖는 로봇
  • 정부 예산 지출과 군사적 목적에 대한 파악

그러나 이런 분야를 모두 확인하고 평가하기 위해서는 보다 객관적인 데이터, 성과에 대한 표준 평가, 상호 검증을 위한 노력이 같이 이루어져야 한다.
국내에서도 우리 수준을 단지 전문가들의 주관적 평가가 아닌 실증 데이터와 객관적 지표를 통한 평가 분석을 위한 노력이 있어야 하며, 이를 위한 공공의 협력과 지원이 필요하다. 다행히도 지난 2018년 12월 10일 정보화진흥원(NIA)에서 나온 보고서 ‘데이터로 측정하는 우리나라 인공지능 분야 수준’은 2017년 ‘AI 인덱스’ 보고서에서 제시한 지표를 갖고 현재 우리 수준을 평가한 보고서이다. 이런 노력이 매년 지속적으로 이루어질 수 있어야 의미를 갖는다고 본다.