챗GPT·알리 퉁이첸원…AI 모델별 中 논술 시험 채점 해보니

중국 대학입시 작문 시험을 AI 챗봇을 상대로 출제한 결과 준수한 성적을 올렸다. 논리 전개는 매끄러운 반면 감정 표현 등 문학적 감수성은 떨어진다는 평가를 받았다.

10일 중국 경제매체 제일재경은 지난 7일 중국 대학 입시시험에서 출제된 작문 시험을 시중에 공개된 인공지능(AI) 챗봇에 출제한 뒤 심사위원들에게 채점을 맡겼다. 테스트한 챗봇은 챗GPT(오픈AI), 퉁이첸원(알리바바), 훈위안(텐센트), 어니봇(바이두), 두바오(바이트댄스), 키미챗(문샷AI), 칭양(지푸AI) 등 9개 모델이었다. 이중 알리바바의 퉁이첸원과 바이두의 훈위안이 60점 만점에 51점을 얻어 가장 높은 점수를 획득했다. 그 다음은 두바오(50.6), 챗GPT(48.4), 어니봇(48.2) 순이었다. 전체 AI 챗봇의 평균 점수는 41점으로 평균 이상의 성적을 거뒀다. 최고 점수인 51점을 획득한 알리바바 퉁이첸원은 은유와 수사가 적절히 가미돼 가독성이 좋다는 평가를 받았다. 텐센트 훈위안도 명나라 학자의 인용문으로 글을 시작해 가독성을 높였다는 호평을 받았다. 챗GPT는 일부 심사위원들로부터 테스트에 참여한 챗봇 중 문학적 감수성이 가장 우수하다는 평가를 얻었다.

챗봇들은 대체로 대학 입시 시험의 작문 채점 기준인 정확한 문제 검토, 올바른 관점, 명확한 구조, 매끄러운 글쓰기 등의 요소를 잘 이행했다. 다만 최고 수준의 입시생들이 쓴 에세이와는 아직 격차가 크다는 평가도 많았다. 우선 대부분의 챗봇이 작성한 에세이가 ‘첫번째, 두번째, 세번째, 마지막’의 동일한 문장 구조를 사용해 논리 전개를 했는데, 이는 창의성 부족으로 인식될 수 있다. 또 심사위원들은 대다수 챗봇의 에세이가 글의 리듬감과 속도감이 떨어지는 등 문학적 재능이 부족하다고 평가했다. 심사위원으로 참여한 중학교 중국어 교사 리동린 씨는 “꽤 만족스러운 답안지”라면서 “다만 글에 감정과 아우라가 부족하다”고 말했다.

베이징=이지훈 특파원

핫이슈