美대학 강좌평가 답안 비교해보니…"챗GPT가 학생들보다 우수"

학생 70% "과제에 챗GPT 사용할 것" vs 교수 70% "표절로 간주"

대학의 컴퓨터과학과 정치학, 공학, 심리학 등 다양한 강좌에서 실시된 평가에서 생성형 인공지능(AI) 챗봇 '챗GPT'(ChatGPT)가 대학생들과 비슷하거나 더 우수한 성적을 거둔 것으로 나타났다.또 학생들은 70% 이상이 과제를 할 때 챗GPT를 사용하겠다는 의견을 보인 반면 교수들은 70%가 챗GPT 사용을 표절로 간주할 것이라는 입장을 보였다.
아랍에미리트(UAE)에 있는 뉴욕대 아부다비(NYUAD)의 탈랄 라완·야시르 자키 교수팀은 25일 과학저널 '사이언티픽 리포트'(Scientific Reports)에서 32개 강좌에서 실시한 챗GPT·학생 평가 비교와 챗GPT 사용에 대한 5개국 학생·교수 설문조사에서 이런 결과를 얻었다고 밝혔다.

연구팀은 다양한 학문 분야의 챗GPT 능력을 학생과 비교하기 위해 먼저 8개 학과 32개 강좌의 교수들로부터 강좌별로 10개 문항의 평가를 해 학생 3명씩의 답안을 제출받고, 챗GPT에도 같은 문제에 대해 답을 3개씩 작성하도록 했다.이어 학생들과 챗GPT 답안을 작성자가 누구인지 모르게 한 뒤 강좌별로 조교·박사후 연구원·박사과정 학생 등 평가자 3명에게 점수를 매기도록 했다.
그 결과 챗GPT는 32개 강좌 가운데 9개 강좌에서 학생들과 비슷하거나 더 높은 평균 성적을 기록한 것으로 나타났다.

특히 '공공정책 개론'에서는 챗GPT가 9.5점으로 학생(4.39점)보다 월등히 높은 점수를 받았다.학생들이 일관되게 챗GPT를 능가하는 성적을 받은 강좌는 수학과 경제학뿐이었다.

연구팀은 또 브라질·인도·일본·미국·영국 등 5개국에서 1천601명(국가별 학생 최소 200명, 교수 100명 포함)을 대상으로 대학 과제를 하는데 챗GPT를 사용하는 것에 대한 의견 조사를 했다.

그 결과 학생의 74%는 과제를 할 때 챗GPT를 사용할 것이라고 답한 반면 모든 국가의 교수들은 학생들의 챗GPT 사용 의향을 과소평가했으며 70%는 챗GPT를 사용할 경우 표절로 간주할 것이라는 입장을 보였다.
또 챗GPT와 학생들의 답안을 AI 생성 텍스트 식별 프로그램인 'GPT제로'(GPTZero)와 챗GPT를 개발한 오픈AI의 'AI 텍스트 탐지기'로 검사한 결과 챗GPT 답안을 학생이 작성한 것으로 잘못 분류한 경우가 각각 31.55%와 49.37%나 됐다.

이는 현재 사용되고 있는 AI 텍스트 탐지기들의 신뢰도가 실제 학생들의 과제나 시험 답안 평가에 사용할 수 없을 정도로 매우 낮다는 것을 의미다.

연구팀은 챗GPT처럼 사람이 작성한 것과 구별할 수 없는 텍스트를 생성하는 강력한 AI가 등장해 누구나 사용할 수 있게 되면서 학생평가 과정의 무결성 논란이 촉발됐다며 이 연구 결과가 교육 분야의 AI 도구 사용 정책 수립에 도움이 될 것이라고 말했다.

/연합뉴스