누구나 세상은 변화돼야 한다고 생각한다. 현재 세상에 부조리와 불공정한 면이 있다고 생각하기 때문이다. 그나마 합리 타당하다고 생각하는 법원의 판결에 불만을 품는 사람도 적지 않다. 이 때문에 인공지능(AI) 판사가 도입되면 불합리와 불공정의 근원이 제거된다고 믿는 사람이 많다.
AI 판사가 정말로 그렇게 될까. 아쉽게도 지금까지 실험 결과로 볼 때 현실은 '아니오'다. 최근 AI 챗봇 '이루다' 사건에서 편견과 차별성이 있는 대화들이 문제됐다. 현실의 대화 데이터를 그대로 사용했기 때문이다. 편견과 차별이 가득찬 대화 데이터를 통해 교육받은 AI가 편견과 차별이 가득한 결과물을 쏟아낸 것이다.
부조리한 현실을 그대로 AI에 주입하면 AI는 부조리한 결과를 쏟아낸다. 유대인을 말살하는 것이 정당화된 아돌프 히틀러 시대의 독일 현실과 히틀러 정신을 AI에 주입하면 그 AI는 서슴지 않고 유대인을 말살할 것이다.
이러한 편견과 차별 문제로 말미암아 AI 판사 시스템이 비판의 중심에 섰다. 인종·재산 등에서 자유롭지 못한 판사의 편견을 깨고 증거 기반의 재판을 끌어내기 위해, 미국 시민사회는 기소 전 보석제도에 대한 개혁운동의 일환으로 AI 판사 일종이라 할 수 있는 재판 전 위험평가 도입을 주장하고 1994년 버지니아주를 시초로 해 2010년대에는 이를 줄기차게 확산시켜 거의 주정부 전체가 재판 전 위험평가 도구로서 LSI-R, COMPASS, PSA 등을 사용하게 됐다.
재판 공정성을 강화하고 인권을 보호하는 제도로 알고 있던 AI 판사에 대한 불신은 2016년 인터넷언론 프로퍼블리카가 실시한 AI 알고리즘 컴파스(COMPAS)의 플로리다주 브로워드 카운티 사례 조사에서 본격화됐다. 2013년과 2014년 브로워드 카운티 사례를 분석해 보니 컴파스가 재범 가능성이 있다고 판단한 사람 가운데 20%만이 재범을 저질렀다. 특히 백인에 비해 흑인의 재범 가능성을 높게 평가, 인종 차별도 저지르고 있었다.
초기에 AI 판사 도입을 적극 추진한 사람들마저 의심을 품고, 심지어 사법 개혁에 아무런 역할도 하지 못한다고 보는 견해도 생겨났다. 재판 전 위험평가를 전면 반대하는 시민단체도 등장했다. 2018년 7월에는 100여개의 시민단체가 재판 전 위험평가에 대한 우려를 공식 표명하기에 이르렀다. 이 재판 전 위험평가가 오히려 인종 차별과 불평등을 악화시킨다는 것이다.
왜 AI 판사는 실패하고 있는 것일까. 데이터 불투명성 등 여러 원인이 있겠지만 중요한 대표 원인은 데이터 편향성으로 보고 있다. 현재의 불평등하고 차별화된 데이터가 AI 알고리즘에 입력되니 당연히 불평등하고 차별화된 재판 결과로 나올 수밖에 없다는 것이다. 즉 '콩 심은 데 콩 나고 팥 심은 데 팥 난다'는 것이다.
특히 중요한 점은 재판 전 위험평가 시 '인종' 평가 요소는 제거하는 노력을 의도했음에도 다른 평가 요소들이 이미 인종과 밀접하게 연관돼 있어 인종 평가 요소는 사실상 제거되지 않는다는 점이다. 예컨대 경찰에 의해 제지된 횟수 등은 인종과 무관한 데이터가 아니기 때문이다.
편향성은 통계 편향성에 의해 발생한다. 예컨대 과거 흑인이 백인보다 기소율이 2배 높았다는 이유로 장래 흑인이 백인보다 재범률이 2배 높다고 판단한다면 이 역시 데이터의 편향성 문제를 야기할 수 있기 때문이다.
현재에 대한 불신으로 AI를 도입했음에도 현재의 차별화되고 불공정한 데이터를 투입하는 오류로 인해 AI 판사 시계는 거꾸로 가고 있다. 이를 AI 비즈니스나 공공 영역에서 활용할 때 반드시 반면교사로 삼아야 할 것이다.
* 법무법인 민후 김경환 변호사 작성, 전자신문(2021. 2. 2.) 기고.
Comments