언론재단, 20년치 기사 학습한 AI언어모델 'KPF-BERT' 공개

입력2022.02.23 00:00 수정2022.02.23 00:00

문맥 고려한 맞춤법 검사기·댓글 혐오표현 순화 모델 개발 등에 활용 전망

한국언론진흥재단은 '언론사를 위한 언어정보 자원 개발 사업' 결과물인 'KPF-BERT'를 공개했다고 23일 밝혔다.

'KPF-BERT'는 구글에서 개발한 자연어 처리 딥러닝 언어 모델인 'BERT(Bidirectional Encoder Representations from Transformers)'에 언론재단이 보유한 빅카인즈 기사 데이터를 학습시킨 결과물이다.

구글이 2018년 발표한 'BERT'는 앞의 단어들을 참조해 다음에 나올 단어를 예측하는 단방향 언어 모델과 달리 문장에서 예측해야 할 단어 이후의 단어들까지 양방향으로 참조해 그 의미를 더 잘 이해하는 방식으로 학습한다.

인공지능을 활용한 뉴스 추천 배열이나 자동작성, 요약, 댓글 관리, 오탈자와 비문 교정 등 언론 영역에서 인공지능(AI) 기술 도입과 적용 필요성은 높아지고 있으나 언론사들은 자체 기술개발에 어려움을 겪고 있다.

이에 언론재단은 '언론사를 위한 언어정보 자원 개발' 사업을 추진했고, 그 결과물로 'KPF-BERT'를 공개하게 됐다고 설명했다.

BERT를 활용한 기존 한국어 모델들은 위키백과나 웹 문서 등을 주로 학습했으나 'KPF-BERT'는 언론재단이 보유한 2000∼2021년 8월의 빅카인즈 기사 8천만 건 중 1차 정제를 통해 추려낸 약 4천만 건을 학습해 언론사와 뉴스 기사 활용 기술에 최적화되도록 개선했다.

'KPF-BERT'는 한국전자통신연구원(ETRI) BERT, SKT의 koBERT보다 기계 독해 등에서 향상된 성능을 보여줬다고 언론재단은 전했다.

이 기관은 'KPF-BERT' 구축과 활용을 위한 안내 내용을 '한국언론진흥재단 깃허브(https://github.com/KPFBERT/)'에 모두 공개해 언론사와 연구자, 일반 시민 모두가 무상으로 이용할 수 있도록 했다.

또 'KPF-BERT'를 활용한 기사 요약기술, 비슷한 주제의 기사를 한데 묶는 클러스터링 기술도 개발해 한국언론진흥재단 깃허브에 함께 공개했다.

언론재단은 'KPF-BERT'를 활용할 경우 단순 맞춤법 검사를 넘어 문맥과 의미를 고려한 맞춤법 검사기, 뉴스 댓글 등에서 혐오 표현을 검출하고 순화해 표현하는 모델, 관심 사안에 대한 기사의 긍정·부정 등의 논조 파악 모델 등의 개발이 가능할 것으로 기대했다.

'KPF-BERT'의 이해를 돕는 영상은 유튜브 링크(https://youtu.be/Pj6563CAnKs)를 통해 볼 수 있다.

/연합뉴스

관련 뉴스

1

100살 다 돼 '몸값 수십억 스타'..."90년 기다렸다"는 사연 [성수영의 그때 그 사람들]

“계속 버스를 기다리면, 언젠가는 버스가 반드시 도착한다는 말이 있습니다. 저는 거의 100년을 기다린 셈입니다. 그리고 마침내 버스가 왔네요.”2010년 쿠바 출신의 95세 화가 카르멘 에레라(1915~2022)는 언론 인터뷰에서 이렇게 말했습니다. 그가 화가의 길을 걷기 시작한 건 20대 후반이던 1940년대 초. 미국 뉴욕의 미술학교에서 장학금을 받으며 회화를 공부한 그는 학교를 떠나자마자 작품 활동을 시작했습니다. 하지만 사람들의 반응은 시원찮았습니다. 돈을 주고 그의 그림을 산다는 사람은 아무도 없었습니다. 에레라의 그림이 유행과 달랐던 데다, 그가 못 사는 나라에서 온 이민자라는 이유에서였습니다. 하지만 에레라는 꺾이지 않고 그림을 그리고 또 그렸습니다.세월이 흐르고, 결국 성공은 찾아왔습니다. 마침내 그의 그림이 팔린 겁니다. 하지만 기다림은 길었습니다. 60여년이 흐른 2004년, 에레라가 89세 때의 일이었거든요.이후 에레라는 세계적인 화가로 떠올랐습니다. 미국과 유럽 전역에서 전시가 열렸고, 뉴욕현대미술관(MoMA)과 테이트 모던 등 세계적인 현대미술관들이 앞다퉈 그의 작품을 사들였습니다. 수백만 원에 불과했던 그림 값은 2009년 수천만 원, 2019년에는 수십억원대로 뛰었고, 2016년 휘트니 미술관에서 열린 개인전은 극찬을 받았습니다. 평론가들은 말했습니다. “그녀처럼 훌륭한 화가를 그토록 오랫동안 알아보지 못했던 건 부끄러운 일이다.” 이런 잠재력을 가진 예술가가 90년의 무명 생활을 어떻게 견딜 수 있었을까요. 오늘은 그녀처럼 뒤늦게 자신의 예술을 인정받은 화가 세 명의 이야기를 풀어 보겠습니다. 94년의 기다림 끝에 : 카르멘 에레라에레라는
2

美대선에 치이는 여행업계…'강달러'에 여행심리 위축될까 예의주시

여행업계가 고환율 기조가 업계에 미칠 영향을 예의주시하고 있다. 미국 대통령 선거에서 공화당 후보인 도널드 트럼프 전 대통령의 당선 확정 이후 원·달러 환율이 1400원을 돌파한 데 이어 1450원대까지 오를 수 있다는 전망까지 나오면서다.8일 여행업계에 따르면 원·달러 환율이 오르면 항공, 숙박은 물론 여행경비 증가로 이어져 여행 심리가 위축될 수 있다. 다만 현재 환율은 여행 심리를 자극할 정도는 아니라는 게 업계의 반응이다.지난 6일 환율은 1374.0원으로 출발했다. 미 대선 승리 후보의 윤곽이 드러나면서 빠르게 오름폭을 키웠고, 트럼프 전 대통령이 승리하며 원·달러 환율은 1400원을 넘어섰다. 이는 미 연방준비제도(Fed·연준)가 긴축 기조 강화로 달러가 초강세를 보였던 2022년 11월 7일(고가 1,413.5원) 이후 2년 만에 가장 높은 수준이다. 앞서 전문가들은 트럼프 전 대통령 당선 시 최대 1450원까지 환율이 치솟을 수 있다고 전망한 바 있다.환율이 하루 만에 20원 가량 오르자 해외여행을 준비 중인 여행객 사이 '대선 전에 환전 했어야 한다'는 주장도 나왔다. 환율이 오르면 여행 경비 부담이 늘어나기 때문이다. 100만원을 여행경비로 환전하는 경우 원·달러 환율이 1380원이면 약 724달러로 환전할 수 있는데, 환율이 20원 오른 1400원이면 약 714달러로 10달러(1만4000원)가량 추가 부담이 생긴다. 업계에선 현지에서 사용하는 금액이 100~200만원가량으로 10만원 미만의 차이로는 여행 심리에 크게 타격을 주지 않는다는 반응이다. 또한 여행 전 항공권과 숙박, 패키지 상품을 구매한데다 일정까지 계획한 만큼 당장 예약 취소나 변경으로 이어지는 경우도 미미하다는 설명
3

'전신 타투' 나나, 상의까지 다 벗었다…"참아야지"

걸그룹 애프터스쿨 출신 배우 나나가 '전신 문신' 제거 과정을 적나라하게 공개해 이목을 집중시켰다.나나는 8일 자신의 SNS를 통해 이날 오후 9시 유튜브 채널을 통해 선보일 브이로그의 선공개 영상을 올렸다. 여기엔 큰 화제를 모았던 전신 타투를 지우는 시술 과정이 담겨 눈길을 끌었다. 나나는 최근 "당시 심적으로 마음이 힘들었을 때, 타투를 했다. 어떻게 보면 '되게 무식한 방법으로 이겨냈네' 할 수 있지만, 타투라는 게 나만의 감정 표출 방법이었던 거 같다"라고 고백한 바 있다.그러나 결국 "깨끗한 몸을 다시 보고 싶다"라는 모친의 조심스러운 부탁에 제거하기로 결심한 것. 선공개 영상엔 '1년이라는 시간이 훌쩍 넘어버렸다'라는 자막과 함께 타투가 점차 희미해진 나나의 몸이 비춰졌다. 이어 "마취 크림을 바를 시간이 없다"라는 목소리와 함께, '마취 크림은 무조건 2시간 이상 바르자'라는 자막으로 나나의 고통을 짐작하게 한다. 더욱이 나나는 시술대에 올라 상반신 탈의를 한 파격적인 자태까지 고스란히 공개해 눈길을 끈다. 한편 나나는 2009년 애프터스쿨 싱글 '너 때문에'로 데뷔했다. 이후 애프터스쿨의 유닛 오렌지캬라멜, 애프터스쿨 레드 멤버로도 활약했으며, 배우로 스펙트럼을 넓혔다. 특히 지난해 8월 공개된 넷플릭스 시리즈 '마스크걸'에서 활약해 주목받았다. 장지민 한경닷컴 객원기자 newsinfo@hankyung.com