UPDATED. 2024-03-25 14:38 (월)
오디션 프로그램 투표 조작 논란, 데이터 신뢰성 가리는 수학의 비결
오디션 프로그램 투표 조작 논란, 데이터 신뢰성 가리는 수학의 비결
  • 고수아 기자
  • 승인 2019.09.26 11:00
  • 댓글 0
이 기사를 공유합니다

오디션 프로그램 투표 조작 논란, 데이터 신뢰성 가리는 수학의 비결

 

 

ⓒDave Weatherall, Unsplash
ⓒDave Weatherall, Unsplash

 

최근 아이돌 오디션 프로그램인 ‘프로듀스 엑스(X) 101(이하 프듀 101)’의 생방송 투표 조작이 도마 위에 올랐다. 데아터의 조작 여부를 판단하는 기준으로 자주 응용되는 ‘벤포드의 법칙’을 다뤘다.

 

프로듀스 101 투표 조작 의혹

‘당신의 소년(소녀)에게 투표하세요!’라는 슬로건으로 시청자 참여를 유도해 아이돌 그룹을 만나는 엠넷(Mnet)의 오디션 프로그램 프로듀스 시리즈의 시즌4 격인 프듀 101. 공정성에 특히 민감하다는 젊은 세대(10~30) 대 층을 중심으로 인지도가 상당한 이 프로그램은 지나 7월 마지막 경영 무대를 끝낸 직후부터 투표 조작 논란에 휩싸였다. 이전 회까지 최종 선발이 유력했던 일부 후보 연습생의 자리가 의외의 인물들로 대체되자 각종 온라인 커뮤니티를 중심으로 의혹이 불붙게 된 것이다.

 

게시 글을 올린 작성자는 최종 득표수를 보여주는 득표 지표에서 일정한 수열 패턴이 반복된다고 문제제기 했다. 며칠 뒤 바른미래당 하태경 의원은 자신의 유튜브 채널을 통해 “투표 결과를 보니, 미리 조작이 되었다는 의심이 들지 않을 수 없다”고 거들었다. 또한 하 의원은 “이는 채용비리의 문제이자, 민주주의의 문제이고, 우리 사회의 공정 경쟁의 문제”라며 “수사로 그 진상을 명확히 밝혀야 한다”고 검찰 수사를 촉구했다. 시청자와 팬들로 구성된 진상조사위원회의 의뢰에 따라 프로듀스 101의 검찰 수사가 시작되었으며 이미 ‘아이오아이(2016)’, ‘워너원(2017)’, ‘아이즈원(2018)’ 등 전년 프듀 시즌에 대한 검증도 차후 과제로 남게 됐다.

 

이처럼 특정 집계 결과를 보여주는 통계 데이터는 수치를 파악하고 분석하기 이전에 해당 데이터의 신뢰성 여부에 대한 검증을 생각해 볼 필요가있다. 최근 빅데이터 분석에서 사용되는 데이터 대부분은 사용자의 이용으로 전역적으로 생성된 웹 세계의 데이터이기 때문이다. 예전보다 데이터 접근성이 낮아진 점과 양이 증대한 점을 고려하면 데이터카 늘어난 만큼 조작 데이터 증가 우려도 있다고 볼 수 있다. 이러한 데이터의 조작 여부를 검증하는 경험론적 툴이 벤포드의 법칙(Benford’s law)이다.

 

벤포드의 법칙이란?

흔히 조작 검증을 위해 ‘수상한 숫자’를 잡아내는 용도로 벤포드 법칙을 쓰는데, 이는 이례적인 수의 법칙(Law of Anomalous Numbers)라고 불리기도 한다. 자연적으로 발생한 10진수 (0부터 9까지의 숫자) 데이터에서 특정 숫자 비율은 일정하다는 의미다. 이 법칙에 따르면 인간의 손이 닿지 않은 어떤 지표를 관찰할 때 첫 자리 숫자가 1이 나올 확률이 30.1%이며, 2가 나올 확률은 17,6% 수준이다. 3부터 9까지의 숫자도 일관된 확률 분포로 줄어들게 된다. 이는 경험적 원리에 근거한 일종의 확률 법칙인 셈이다.

 

벤포드의 법칙은 미국 천문학자 샤이먼 뉴컴이 책장을 넘기던 중 더 많이 닮은 페이지와 그렇지 않은 페이지가 있다는 사소한 발견에서 착안한 것이 그 시초다. 뉴컴은 1881년 로그표 책 앞쪽 페이지가 뒤쪽보다 더 많이 닳아있다는 사실에 근거해 더 많은 사람들의 손이 앞장에 닿았을 것이라고 추론했다. 1938년, 물리학자 프랭크 벤포드는 과거 뉴컴의 발견을 자신의 논문을 통해 공식적인 원리로 정립했다. 당시 벤포드는 335개에 이르는 강의 넓이와 물리학에서 상수와 분자 중량 등 20개 분야의 수치 자료를 분석했다. 이 결과 그는 분야와 관계없이 수치 데이터의 한 패턴으로 첫 자리 수에서 1이 가장 많이 분포하고 있음을 확인했다. 물론 이 법칙은 수학의 절대 공식은 아니다. 그보다는 경험론에 기반한 확률적 분석에 가까우나 데이터의 진위를 판별하는 유용한 도구로 여러 사례에서 적용되고 있다.

 

벤포드의 법칙은 비즈니스에서 내부적으로 만들어 낼 수 있는 회계 부정과 가격 담합을 적발하는 데 유용하게 쓰이고 있다. 예를 들어 특정 기업에서 부정한 방식으로 수치를 조작한다면, 1부터 9까지의 수를 무작위로 균등하게 분포시킬 가능성이 있고, 이 경우 첫 자리 수의 빈도가 1에서 9로 갈수록 낮아지는 벤포드의 법칙에 따라 조작 여부를 가려낼 수 있는 것이다. 이를 이용해 미국의 국세청(IRS)나 금융감독기관은 거래소나 코스닥 기업의 보고 이익 수치에서 분식 회계 등 조작 단서를 적발해내고 있다. 그리스 정부가 유로존 가입을 위해 손댔던 거시경제 지표도 벤포드 법칙에 의해 조작된 것으로 판명나기도 했다. 정치 분야도 크게 다르지 않다. 최근 러시아나 이란, 멕시코, 터키, 필리핀을 비롯한 글로벌 국가에서 선거결과를 분석하는 기준으로 벤포드의 법칙을 채택했다. 2009년 이란 부정 선거의 증거자료로서도 벤포드의 법칙을 사용했다. 이처럼 벤포드의 법칙은 선거 데이터의 정확성에 대한 사후 판단 기준이 되어주고 있다.

 

선거는 선거다. 선거의 필수 조건은 투명성과 신뢰성이다. 정치 선거도 오디션 프로그램도 그 형식과 절차는 동일하다. 유권자들의 선호가 있는 그대로의 결과 데이터로 드러나야 함은 민주주의의 근간이 된다. 물론 소수와 내부 권력의 개입으로 의도적 조작이 행해질 가능성도 존재한다고 볼 수 있지만, 데이터 과학은 다수의 편에 서 있는 듯 하다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.