챗GPT·알리 퉁이첸원…AI 모델별 中 논술 시험 채점 해보니
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트

10일 중국 경제매체 제일재경은 지난 7일 중국 대학 입시시험에서 출제된 작문 시험을 시중에 공개된 인공지능(AI) 챗봇에 출제한 뒤 심사위원들에게 채점을 맡겼다. 테스트한 챗봇은 챗GPT(오픈AI), 퉁이첸원(알리바바), 훈위안(텐센트), 어니봇(바이두), 두바오(바이트댄스), 키미챗(문샷AI), 칭양(지푸AI) 등 9개 모델이었다. 이중 알리바바의 퉁이첸원과 바이두의 훈위안이 60점 만점에 51점을 얻어 가장 높은 점수를 획득했다. 그 다음은 두바오(50.6), 챗GPT(48.4), 어니봇(48.2) 순이었다. 전체 AI 챗봇의 평균 점수는 41점으로 평균 이상의 성적을 거뒀다.
챗봇들은 대체로 대학 입시 시험의 작문 채점 기준인 정확한 문제 검토, 올바른 관점, 명확한 구조, 매끄러운 글쓰기 등의 요소를 잘 이행했다. 다만 최고 수준의 입시생들이 쓴 에세이와는 아직 격차가 크다는 평가도 많았다. 우선 대부분의 챗봇이 작성한 에세이가 ‘첫번째, 두번째, 세번째, 마지막’의 동일한 문장 구조를 사용해 논리 전개를 했는데, 이는 창의성 부족으로 인식될 수 있다. 또 심사위원들은 대다수 챗봇의 에세이가 글의 리듬감과 속도감이 떨어지는 등 문학적 재능이 부족하다고 평가했다. 심사위원으로 참여한 중학교 중국어 교사 리동린 씨는 “꽤 만족스러운 답안지”라면서 “다만 글에 감정과 아우라가 부족하다”고 말했다.
베이징=이지훈 특파원