구글의 새로운 연구 발표: 이미지 자동 캡션

딥러닝 기술을 이용해 이미지를 이해하는 연구는 여러 회사에서 경쟁적으로 추진하고 있다. 페이스북의 딥페이스가 인간 수준으로 얼굴을 인식할 수 있음으로 보여주었고, 지도 학습이 아닌 자율학습으로 이미지 안의 특정한 객체를 인식해 내는 것은 구글과 마이크로소프트에서 연구 결과로 발표한 적이 있다.

이번에 구글에서 발표한 논문의 내용은 컴퓨터 비전과 자동 번역 기술을 활용해 이미지 안의 어떤 객체들이 있는 가를 인식하고 이를 자연스러운 문장으로 기술하는 방식을 선보였다. 구글 블로그에 의하면 이미지 인식에는 컨볼루션 뉴럴 네트워크(CNN)를 이를 언어로 기술하는 데는 리커런트 뉴럴 네트워크 (RNN)를 조합해서 구성했다고 한다.

CNN과 RNN을 결합한 모델 [출처: 구글 블로그]

CNN과 RNN을 결합한 모델 [출처: 구글 블로그]

테크크런치에 따르면 결과의 정확도는 아직 인간에 비해 모자라는데, 자동 번역에 사용하는 평가 알고리듬인 BLEU를 기준으로 하면 이번 연구는 데이터에 따라 27점에서 59점 수준인데, 인간은 보통 69점 수준이라고 한다.

이러한 기술은 인공지능 기기에서 사용할 수 있을 뿐만 아니라 시각 장애인들에게 친절하게 현재 보고 있는 이미지의 내용이 무엇인지 쉽게 설명해 줄 수 있을 것이다. 완성된 문장을 다시 음성으로 바꾸기만 하면 된다.

사람이 평가한 기준으로 본 결과 판정의 일부

사람이 평가한 기준으로 본 결과 판정의 일부


[추가 자료]

발표 논문 “Show and Tell: A Neural Image Caption Generator”

구글 언번들링: 유럽의회에서 구글의 검색 서비스와 다른 서비스를 분리하는 방안에 대해 논의할 예정

독일과 스페인 의원들이 중심이 된 유럽 의회 의원들이 다음 주에 토의 사항으로 제출한 구글 분할 제안서가 화제다. 이들이 유럽 연합에게 공식적으로 요청한 안건은 구글의 검색 사업과 다른 상업적 서비스를 언번들하도록 요구해야 한다는 것이다.

물론 유럽 의회가 전 EU 국가를 커버하는 초안을 제시할 수는 있으나 실제 효력은 각 국가의 법률에 따르기 때문에 이런 안이 유럽 의회에서 결의안으로 채택된다고 해도 실제 집행이 되기는 어렵다. 다만 EU 집행부가 불공정이나 독과점 등 다양한 방식으로 압력을 가할 수는 있다는 점에서 매우 주목해야 하는 움직임이다.

물론 이런 움직임이 단지 정치적 레토릭에 불과하며 지난 10월에 취임한 경쟁 담당 장관인 마그레트 베스타거에 대한 압력이라는 해석도 있다. 베스타거 장관이 현재 보류 중이 구글 관련 소송 등의 다음 단계를 면밀히 검토하겠다고 했기 때문이다.

국내에서도 이 문제를 다룬 뉴스 중에는 경향신문 보도가 가장 깊이있게 다루었다.

검색 서비스의 지나친 독점은 다른 서비스의 기반에서 불공정한 요인을 제시할 수 있다. 검색 결과에 자사 관련 콘텐트를 어떻게 제시하는가와 다른 서비스가 검색 기술을 이용해서 또 다른 경쟁 우위를 갖는 것, 안드로이드 등에 구글 서비스를 선탑재하는 것 모두가 이슈가 될 수 있다. 국내에서도 네이버에 대한 이런 비판이 있으나 분할 얘기까지 나온 적이 없었던 것 같은데, 유럽 의회 의원들, 특히 독일이 갖는 불만이 매우 높음을 알 수 있다.

유럽 연합의 집행기관인 EC에서는 실물 경제가 하나의 시장으로 통합하기를 추구하듯이 유럽 연합에 커넥티드 디지털 싱글 마켓(DSM: Digital Signle Market)을 구현하는 것을 목표로 삼고있다. 이를 통해 2500억 유로의 새로운 성장을 얻을 수 있을 것으로 예측하고 있다. 이런 DSM을 구현하는데 구글이 큰 걸림돌이 된다고 판단하는 것이 유럽 연합 주요 국가의 인식인 것이다.

[추가 참고 자료]

DSM에 대한 개념

결의안 초안