Published Aug 3, 2021 by Yeoun Yi 올림픽의 열기가 뜨겁습니다. 세계인의 ‘축제’인 만큼 결과에 상관없이 올림픽을 즐기는 선수들의 모습도 많이 보입니다. 한국의 언론도 올림픽을 축제로서 제대로 즐기고 있을까요? 먼저 word2vec 모델을 통해 ‘메달’ 관련 단어의 변화를 살펴보고, ‘메달’이 포함된 문장의 감정이 연도에 따라 어떻게 변화했는지 살펴보려고 합니다. 분석 대상은 2004년부터 2021년 7월까지, 네이버 스포츠 기사 중 올림픽 관련 기사입니다. 크롤링엔 이 코드를 참고했습니다. 다음은 2006년 토리노 올림픽, 2008년 베이징 올림픽의 결과입니다. ‘값진’이라는 단어가 눈에 띄지만 ‘건졌’다는 단어도 많이 보이는데요. ‘건졌다’는 말이 긍정적으로만 쓰이진 않은 것으로 보입니다. 특히, 2006년의 ‘노메달’은 메달이 없어 성과가 없다는 의미를 전달하는 듯합니다.
한국어 영화평 데이터는 영화에 대한 한 줄 평과 그 평가가 긍정적인 평가인지(1), 부정적인 평가인지(0)로 이루어져있습니다. KoELECTRA는 영화평을 보고 그 영화평이 긍정인지, 부정인지 분류하는 과제를 90% 이상의 정확도로 해냈습니다. 물론 기자가 쓴 문장과 일반인이 쓴 영화평의 문장의 성격이 다르기에, 90%에 달하는 정확도를 기대하긴 어렵습니다. 하지만 참고는 할 수 있을 자료가 될 것 같습니다.
은메달 관련 문장의 평균 감정 점수는 2012년 이후 약간의 증가세를 보이지만, 그외에는 뚜렷한 변화를 찾긴 힘들어보입니다. 앞으로 한국 언론이 선수들의 땀과 노력을 인정하고, 올림픽을 축제로서 즐길 수 있길 바라봅니다 👏👏
#data
#analysis
1. word2vec으로 알아본 연도별 '메달' 관련 단어 변화
word2vec은 ‘비슷한 문맥에서 등장하는 단어들은 의미도 유사할 것이다’라는 ‘분포가설’을 이용한 모델입니다. 특정 단어가 등장하는 문맥을 학습해 단어를 벡터로 나타내는데요, 그래서 “왕 - 남자 + 여자 = 여왕”과 같은 신기한 계산도 할 수 있는 모델입니다.
이러한 모델을 활용해 연도별 올림픽 기사를 학습하고, ‘메달’과 가장 유사한 단어가 어떻게 변화했는지 살펴보았습니다. 기사들은 Mecab 형태소 분석기로 형태소 분석을 한 뒤, word2vec 모델로 학습시켰습니다. 앞 뒤 몇 개까지의 단어를 그 단어의 문맥으로 볼 것인지 결정하는 window size는 2, 5, 10, 이렇게 3가지로 설정하여 분석했습니다.
먼저 2004년 아테네 올림픽의 학습 결과입니다. 금메달, 은메달, 동메달의 관련 단어는 다음과 같습니다. 은메달 관련 단어에 ‘안타깝’, ‘아쉬운’ 등의 단어가 눈에 띕니다.
2010년 벤쿠버 올림픽의 결과입니다. ‘귀중’이라는 단어가 눈에 띕니다. 그러나 ‘체면치레’, ‘어부지리’ 등 부정적인 어감을 가진 단어도 많이 보입니다.
2012년 런던 올림픽의 결과는 어떨까요? 2006년 올림픽과 비슷한 결과를 보이는 듯합니다. ‘값진’이라는 긍정적인 단어도 있지만, ‘노메달’과 같이 메달 획득만이 의미 있는 것처럼 보도하는 경우가 여전히 많았습니다.
2014년 소치, 2016년 리우, 2018년 평창 올림픽의 결과는 다음과 같습니다. 여전히 ‘값진’이라는 단어가 많이 보이지만, ‘중과부적’, ‘체면치레’ 등 부정적인 단어도 많이 보입니다.
그렇다면 바로 올해 2020년 도쿄 올림픽의 결과는 어떨까요? 여전히 ‘값진’과 ‘체면치레’ 등 긍정적인 단어와 부정적인 단어가 함께 등장합니다. 관련 단어만 봐서는 언론의 메달에 대한 시선이 크게 달라진 것 같진 않네요.
2. KoELECTRA로 알아본 연도별 '메달' 관련 문장의 감정 변화
Transformer 모델은 처음 공개된 2017년부터 자연어처리 분야에서 엄청난 성과를 보여주고 있습니다. Transformer 기반의 모델 중 하나인 ELECTRA를 한국어 영화평 데이터로 학습한 KoELETRA 를 이용해 ‘메달’이 포함된 문장의 감정을 분석해보려고 합니다.2.1. 연도별 평균 감정 점수
연도별로 ‘금메달’ 또는 ‘金’, ‘은메달’ 또는 ‘銀’, ‘동메달’ 또는 ‘銅’이 포함된 문장을 선택해 평균 감정 점수를 구했습니다. 1에 가까울수록 긍정적인 감정, 0에 가까울수록 부정적인 감정을 의미합니다.
2.2. 연도별 감정 점수 분포
평균 감정 점수뿐만 아니라 감정 점수의 분포를 살펴보아도, 뚜렷한 변화가 느껴지진 않습니다.
지금까지 내용을 요약해보면,
(1) 메달 관련 단어에 더 이상 ‘안타까운’, ‘아쉬운’ 등의 직접적으로 부정적인 단어는 나타나지 않지만, 여전히 긍정적인 단어와 부정적인 단어가 혼재되어 나타나고 있습니다.
(2) 메달 관련 문장의 평균 감정 점수나 감정 점수 분포에서 뚜렷한 변화를 찾긴 어려워 보입니다.
그러나 올림픽의 결과와 상관 없이 ‘최선을 다해서 후회 없다’고 말하는 선수들은 더 많이 보이는 것 같습니다. 올림픽 자체를 즐기고 최선을 다했다는 사실에 만족하는 선수들의 변화를, 언론은 따라가지 못하고 있는 것은 아닐까요?
실제로 이다빈 선수는 자신의 은메달을 자랑스럽게 받아들였지만, 언론은 ‘노골드’라는 부정적인 수식어로 은메달을 표현하기도 했습니다.
© Yeoun Yi