Ahead

완벽함은 기술의 목표가 아니다

구글과 스탠포드 컴퓨테이셔널 저널리즘 랩이 말하는 인간성

정인선 2017년 03월 27일

지난 3월 6-10일, 2016년 8월 열린 '넥스트 저널리즘 스쿨'의 우승자 프로그램으로 미국 마운틴뷰 구글 캠퍼스와 샌프란시스코 시내 언론사, 기업, 연구소를 다녀왔다. 일주일동안 만난 사람들은 "기술이 인간의 문제를 모두 해결해 줄 수 없다"고 말했다.

구글 번역, 완벽함 대신 효율성을 얻다

구글은 지난해 11월 새로운 번역 서비스를 선보였다. 한국어를 포함한 8개의 언어조합에 인공신경망 번역 기술을 적용했다. 웹상에 있는 번역 자료를 기계가 알아서 수집·학습해, 사용자가 입력하는 문장을 다른 언어로 번역할 때 적용한다. 기존 번역 서비스가 구(句) 단위로 이뤄졌다면, 인공신경망 번역 기술을 적용한 새 서비스에선 문장 대 문장 단위로 번역해 맥락을 더 정확히 반영한다.

구글 번역 팀에는 번역 전문가가 한 명도 없다. 언어별 특성이나 맥락을 감안해 번역 결과를 인위적으로 조정하지도 않는다. 구글 번역 팀의 마이크 슈스터 씨는 "어떤 번역 기술도 과거의 것보다는 낫지만 완벽할 수는 없다"고 말했다. 정확도를 최대한 높이기 위한 노력은 하더라도, 사후 조정 등을 통해 '완벽함'을 달성하는 건 애초에 구글 번역의 목표가 아니다. 인공신경망 기술이 구글 번역의 정확도를 획기적으로 높였지만, 이를 맹신할 때 나타나는 부작용까지 기술이 책임질 수 없다는 것이다.

image 구글 번역 팀의 마이크 슈스터 씨가 넥스트 저널리즘 스쿨 우승자 프로그램 참가자들에게 인공신경망 번역 기술에 대해 설명하고 있다. 사진 = 박상현 한겨레21 교육연수생

구글 번역 서비스는 '완벽함'을 목표로 삼는 대신 효율성을 높였다. '멀티링구얼(multilingual) 모델'을 적용해, 이용자 수가 비교적 많지 않은 언어끼리 직접 번역하는 수고를 덜었다. 대신 영어를 중간 다리로 삼았다. 인공신경망이 한국어-일본어, 일본어-영어 번역을 위해 학습한 내용을 한국어-일본어 번역에도 활용하자, 인공신경망이 학습 자료로 삼을 수 있는 데이터의 양도 크게 늘어 정확도까지 높아졌다.

번역 결과물을 내놓는 과정에 인간의 인위적인 노력을 개입하지 않는 대신, 구글은 사후에 번역의 정확도를 평가해 서비스를 개선하는 과정에선 사람의 눈을 중요하게 생각한다. 복수의 언어를 구사하는 사람들이나 특정 언어와 관련된 학위를 가진 전문가들이 번역 결과물을 0~6점 척도로 평가하게 해, 그 결과물을 서비스 품질 개선에 반영한다.

구글이 번역 서비스에 인공신경망 기술을 적용하자, 기존에 55%였던 정확도는 88%까지 올라갔다. 덕분에 구글 번역 서비스 이용 트래픽도 (안드로이드 시스템을 기준으로) 4개월 새 50%나 증가했다. 기술이 완벽할 수 있다는 환상을 버리자 오히려 100%에 더 가까이 다가갔다.

블로터와 같이 구글 번역 API를 이용해 한글 기사를 영어 또는 중국어, 일본어로 자동 번역할 수 있는 뉴스 사이트가 늘어나고 있다. 이 때 구글 번역이 제공한 결과물에 오역이 섞여, 그 뉴스가 다른 나라에서 '페이크 뉴스'와 같은 역할을 한다면, 그건 누구의 책임일까.

image 블로터는 뉴스 사이트에서 구글 번역 API를 이용해 자동 번역 서비스를 제공한다. 사진 = 블로터 웹사이트 갈무리

image 자동 번역 서비스 이용 화면. 사진 = 블로터

마이크 슈스터 씨는 번역 기술을 제공한 구글의 책임이 아니라 번역된 결과물을 의심 없이 받아들인 독자의 책임이라고 말한다. 마이크 슈스터 씨는 "역번역을 해 보지 않고 번역기가 보여 준 결과물을 그대로 활용하는 건 굉장히 위험하다"고 강조했다.

알고리듬이 묶어 주는 뉴스

구글 뉴스 서비스가 제공하는 클러스터 기술도 사람의 조정 대신 알고리듬을 활용해 편의성을 높인 사례다. 구글 검색 및 뉴스 팀의 제임스 모어헤드 프로젝트 매니저는 클러스터를 이용자가 특정 주제의 뉴스를 검색할 때, 비슷한 하위 주제의 기사끼리 묶어서 검색 결과를 보여주는 기술이라고 소개했다.

구글 뉴스는 경우 8만 명의 퍼블리셔로부터 뉴스를 제공받는다. 특정한 주제에 대해서도 수천, 수만 건의 기사가 존재하고 이를 무작위로 검색 결과에 노출하면 이용자의 흥미를 떨어뜨린다.

반면 기사를 비슷한 주제별로 묶어 이용자에게 보여주면, 짧은 시간 내에 특정 주제에 대한 다양한 사실과 의견을 습득할 수 있다. 이용자가 자신의 흥미에 따라 특정 클러스터는 건너 뛰고 다른 클러스터의 기사를 읽을 수 있게 된다.

이 클러스터 기술에도 번역과 마찬가지로 인간의 인위적인 조정이 더해지지 않는다. 알고리듬이 그 역할을 대신한다.

image 구글 검색 및 뉴스 팀의 제임스 모어헤드 프로젝트 매니저. 사진 = 한겨레21 박상현 교육연수생

"8만명의 퍼블리셔가 제공하는 기사를 사람이 일일이 읽고 분류하는 건 불가능하다. 알고리듬으로 유사한 내용의 기사를 묶어 주는 클러스터 기술 덕분에 사용자가 흥미를 느낄 만한 국한된 주제의 정보를 빠르게 제공할 수 있다." 제임스 모어헤드 프로젝트 매니저의 설명이다.

구글 뉴스는 퍼블리셔의 자격을 엄격하게 제한한다. '구글 뉴스 가이드라인'이 그 방법이다.

image 구글 뉴스 가이드라인. 사진 = 구글 갈무리

구글 뉴스는 '구글 뉴스 가이드라인'에 구글 검색 결과에 노출될 수 있는 언론사와 기사의 조건을 상세하게 규정해, 언론사들이 이를 지켜 뉴스를 생산하도록 유도한다. 알고리듬이 보여 주는 검색 결과값을 인위적으로 통제하기보다, 알고리듬에 투입되는 '입력값'의 질을 관리하는 셈이다. 사람이 질 좋은 기사를 써야, 기술도 질 좋은 검색 결과를 이용자에게 제공한다.

기술, 스토리 발견과 전달의 새로운 통로

제임스 해밀턴 스탠포드대 컴퓨테이셔널 저널리즘 랩 교수는 기술은 기자들이 스토리를 발견하는 새로운 통로라고 강조한다.

지난 2015년 설립된 컴퓨테이셔널 저널리즘 랩(이하 CJ랩)은 저널리즘에 기술을 적용하는 능력을 갖추는 훈련을 다양한 전공의 학생들에게 제공한다. 컴퓨터와 관련된 전공을 가진 학생들은 15%에 불과하고, 나머지는 제각기 다른 전공을 공부한 학생들이 모였다.

image 스탠포드대학교 컴퓨테이셔널 저럴리즘 랩 제임스 해밀턴 교수. 사진 = 박상현 한겨레21 교육연수생

제임스 해밀턴 교수는 컴퓨테이셔널 저널리즘은 기자들이 사회 문제를 발견하는 눈을 획기적으로 틔워 줬다고 소개했다. 그는 CJ랩이 비영리기구 마셜 프로젝트와 함께 진행한 '차량 검문과 운전자 인종의 상관관계' 보도를 소개했다.

CJ랩과 마셜 프로젝트는 미국 내 20개 주에서 교통경찰관이 운행 중인 차량을 랜덤으로 불러 세우는 임의 차량 검문과 관련된 데이터 6천만건을 분석했다. 임의 검문임에도 백인 운전자의 차량을 멈춰세우는 비율보다 다른 인종 운전자의 차량을 멈춰세우는 비율이 높다는 걸 검증했다.

차량 임의 검문과 운전자의 인종 사이에 상관관계가 있다는 합리적 의심을 먼저 갖지 않는다면 6천만건의 데이터는 아무 가치 없는 숫자에 불과했을 것이다. 숫자에 합리적 의심이 더해지자 비로소 가치를 지닌 데이터가 된다. 그는 이를 '알고리듬을 통한 스토리 발견(story through algorithm)'이라고 설명한다.

제임스 해밀턴 교수는 "2017년의 기자에겐 2000년의 기자와 달리 더 넓은 범위에서 스토리를 발견하고, 더 많은 사람에게 이야기를 전달하는 능력이 요구된다."고 말했다. "인터뷰, 책, 소셜 미디어, 데이터 등 전통적 취재 방법에서 중요한 통로들은 컴퓨테이셔널 저널리즘에서도 여전히 중요하다." 바로 이 과정에 알고리듬을 비롯한 컴퓨테이셔널 기술을 활용해 문제의식을 훨씬 효과적으로 전달하는 것까지가 2017년의 기자에게 요구되는 새로운 능력이라는 이야기다.

커버 사진 = 블로터 채반석


*블로터에도 게재된 기사입니다. *

"기존 구글 번역 서비스가 문장 단위로 번역을 한 반면, 인공신경망 번역 기술을 적용한 새 서비스에선 어절 단위로 번역한다."는 기사의 내용이 사실과 다르다는 지적을 받았습니다. "기존 번역 서비스가 구(句) 단위로 이뤄졌다면, 인공신경망 번역 기술을 적용한 새 서비스에선 문장 대 문장 단위로 번역해 맥락을 더 정확히 반영한다."로 수정합니다. 문제점을 지적해주신 박춘원 독자님께 감사드립니다. (수정: 2017년 3월 29일)