분석을 위한 3가지 과정

분석된 내용 중 포털에서 가지고 있는 기준인 ‘계량 요인’에 따라 최종 배열 점수 계산을 위한 점수를 부여해 계수를 결정합니다. 각 회사의 ‘계량 요인’은 회사 내의 기밀로 외부에 공개되고 있지 않으며, 이 학습 과정에서는 뉴스트러스트 위원회*에서 협의를 통해 결정한 ‘계량 요인’을 통해 계산이 진행됩니다.

뉴스트러스트 위원회* - 저널리즘 학자, 언론 현장 전문가(신문, 방송, 인터넷), 컴퓨터 공학자 등 분야별 전문가별 신문협회, 방송협회, 인터넷신문협회, 국회 등 추천으로 구성됐으며 2016년 ~ 2018년까지 운영되면서 19차 회의를 거쳐 11가지 저널리즘 가치와 185개의 이론적 계량요인 도출

정제 과정

신문사로부터 포털에 업로드 되는 기사는 각 신문사 담당 기자로부터 작성된 기사내용과 관련된 메타정보만을 가지고 있으나, 포털에 보여지는 화면들로부터 직접 수집한 기사들은 ‘광고’, ‘특수기호’, ‘HTML 코드’ 등 분석에 불필요한 내용들을 포함하고 있습니다. 온전히 기사 제목, 내용, 기자명 등 필요한 내용만을 남기고 이를 모두 제거하는 정제 작업을 진행합니다.


  1. 정제 예시 1)
  2. 정제 예시 2)

자연어 처리 과정

온전히 분리된 기사내용을 바탕으로 A.I.가 기사 표현을 분석, 문장 개수 파악, 불필요한 문자를 걸러내는 등 다양한 방식으로 텍스트를 분석하기 위한 형태소 분석을 진행합니다.


실제로는 이 단계에서 A.I.가 내용을 분석해 자동으로 ‘정치’, ‘경제’, ‘연예’, ‘ 스포츠’ 등 기사 카테고리를 분류하지만, 본 학습에서는 동일한 카테고리의 기사만을 넣어 진행하여 이 부분을 생략하고 오직 기사 본문의 내용을 분석하는 과정을 진행합니다.

형태소 분석이란?

형태소 분석이란 형태소를 비롯하여, 어근, 접두사/접미사, 품사(POS, part-of-speech) 등 다양한 언어적 속성의 구조를 파악하는 것입니다. 함께 진행되는 품사태깅은 형태소의 뜻과 문맥을 고려하여 그것에 마크업을 하는 일입니다. 형태소 분석을 위한 도구는 다양하게 있으며 도구에 따라 품사 태깅 방식에 조금씩 차이가 있습니다.  [한국어 품사 태그 비교표] 본 학습에서는 mecab-ko를 활용하였습니다.

품사 태깅 예시)

가방에 들어가신다 -> 가방/NNG + 에/JKM + 들어가/VV + 시/EPH + ㄴ다/EFN

형태소 분석 도구별 결과 예시)

계량요인 추출 및 분석

형태소 분석으로 어떤 내용을 담고 있는지 A.I.가 확인이 되었다면, ‘계량요인’ 에 따라 점수 계산을 위한 계수를 부여하게 됩니다. ‘계량요인’은 기사가 제공자가 보여주고자 하는 가치에 적합한지를 산정하는 기준으로 포털회사들은 각각의 기준을 가지고 있습니다.


본 학습에 활용된 뉴스트러스트는 3년의 프로젝트 동안 뉴스트러스트 위원회에서 19차 회의를 거쳐 11가지 저널리즘 가치와 185개의 이론적 계량요인을 도출하였습니다. 이 중 11가지 저널리즘 가치와 11개의 계량요인을 적용해 기사별 가중치를 산정하는 과정을 학습하게 됩니다. 아래 설명보다 더욱 자세한 내용은 한국언론진흥재단 뉴스트러스트 자료에서 확인하실 수 있습니다. [뉴스트러스트 자료실]
이 내용들이 어떻게 기사에 적용되는지 알아 봅시다.

11가지 저널리즘 가치

뉴스트러스트 위원회는 저널리즘 학자, 언론 현장 전문가(신문, 방송, 인터넷), 컴퓨터 공학자 등 분야별 전문가별 신문협회, 방송협회, 인터넷신문협회, 국회 등 추천으로 구성되었으며 19차의 회의와 선행연구 검토를 거쳐 11가지 저널리즘 가치를 도출하였습니다. 이 저널리즘 가치는 계량요인의 속성으로서 가중치 산정에 반영됩니다

  • 도출된 가치 간에 우열을 두지는 않음
  • 디지털 공간에서 의미를 상실하고 있는 속보성 등 기존 가치 배제
저널리즘 가치 데이터
사실성 사실에 기초한 것인지를 "확인"하거나 "검증"할 수 있는 장치를 갖춘 정도
투명성 누가 기사를 작성했는지, 어떤 과정을 통해 기사 작성에 필요한 자료를 습득했는지를 명확하게 밝힌 정도
다양성 해당 사안을 이해하고 평가하는데 도움이 되는 다양한 관점이 제시된 정도
균형성 이해가 상충되는 쟁점 사안에 대해 기사내용이 여러 시각, 의견, 이해관계를 “치우침 없이 고르게” 반영하는 정도
독창성 기존 뉴스에서 잘 다루지 않은 차별적인 정보를 제공한 정도
중요성 기사에 담긴 뉴스소재가 “공동체의 안녕”과 “공익”에 영향을 미치는 정도
심층성 기사내용이 해당 사안을 “깊이” 이해하는 데 필요한 정보를 “충분히” 제공하는 정도
독이성 이용자가 기사 내용을 “읽기 쉽고” 그리고 “명확하게 이해하도록” 구성된 정도
유용성 이용자의 관심과 주목을 끌만한 내용을 포함한 정도
선정성 기사 내용이 “사회적 윤리적 가치”에 반하거나 실제 사실을 지나치게 “과장 왜곡” 혹은 과도한 감정을 드러내는 “선정적” 표현을 사용하는 정도
반복성 새로운 팩트없이 기존 기사와 거의 같은 내용을 반복 생산하는 정도
가치 반영을 위한 185개 계량요인 도출 및 11개 적용

11가지 저널리즘 가치를 반영할 수 있는 이론적인 계량요인 도출을 위해, 뉴스트러스트 위원회에서 선행 연구를 바탕으로 실제 가능여부와 상관없이 우선 도출이 가능할 것으로 판단되는 계량요인들을 논의하여 185개의 이론적 계량요인을 도출. 이 중 아래 11가지를 학습에 적용.

요인 저널리즘적 의미 뉴스트러스트 위원회의 조직적 의미 추출방법
1) 기자명
  1. 기자가 직접 쓴 기사는 믿을 만하다(trustworthy)고 판단할 수 있음
  2. 기명이 아닌 경우는 기사 작성과정에서 어뷰징 등 비정상적 요인의 개입이 있었다고 판단할 수 있음
기사 본문 내 명기돼 있는 기자 이름
  1. 기자명 DB 필드를 통해 추출
  2. DB 필드에는 없으나 본문에 기자명이 있을 경우 언론사별 패턴 분석을 통해 기계적으로 추출
  3. 추출된 기자명 중 인터넷뉴스팀 등 기자가 작성하지 않은 특수 케이스 처리
2) 기사의 길이
  1. 기사의 길이가 길수록 사건과 관련한 완전한 내용(whole story)을 다루고 있을 가능성이 높음
  2. 기사의 길이가 길수록 정보량이 많고 심층성이 있으며, 다루는 정보의 범위가 넓어 좋은 기사라고 판단할 수 있음
제목, 소제목, 사진 설명 등을 제외한 기사 본문의 길이
  1. 제목, 관련 기사, 광고 등 기사 본문 외 데이터 정제
  2. utf-8 유니코드 기준으로 기사 본문을 원고지 글자 수로 길이 계산
3) 인용문의 수
  1. 기사 작성 시 인용을 하는 것은 기자의 사견이 개입하지 않음을 보여줌
  2. 인용이 많을 경우 그만큼 기사를 신뢰할 수 있음
  3. 수용자들은 기사 내에 인용이 많을 수록 그 기사의 내용을 믿을 만하다고 생각함
기사 본문 내에 포함된 인용문의 개수 (직접 인용 및 간접 인용)
  1. ① 기사 본문 내용 중 인용을 의미하는 큰따옴표(“)로 시작해서 큰따옴표(”)로 닫히는 내용들을 1차 추출함
  2. 큰따옴표 내에 형태소가 세 개 미만일 경우는 인용문이 아닌 강조문으로 판단하여 배제, 세 개 이상인 경우만 계산함
    ※ 간접 인용의 경우는 현재 계량 추출 방안 개발 진행 중
4) 제목의 길이
  1. 기사 제목은 기사의 중요성과 내용을 판단할 수 있는 핵심적 정보임
  2. 기사의 제목이 지나치게 길 경우 가시의 핵심 내용을 파악할 수 없게 만들어 기사 가치를 훼손할 수 있음
기사 제목의 길이 utf-8 유니코드 기준으로 기사의 제목을 원고지 글자 수로 길이 계산
5) 제목의 물음표, 느낌표 수
  1. 기사 제목은 기사의 중요성과 내용을 판단할 수 있는 핵심적 정보임
  2. 기사 제목에 물음표, 느낌표 등을 사용할 경우 기사 내용에 대한 선입견을 부여하고 내용을 과장할 가능성이 있음
기사 제목 내에 사용된 물음표과 느낌표의 수 제목에서 해당 부호 사용된 개수 수집
6) 수치 인용 수 객관적인 수치 인용이 기사 내에 많을 수록 정확한 정보를 제공하고 있다고 가정할 수 있음 기사 본문 내 수치 인용 수
  1. 제목, 관련 기사, 광고 등 기사 본문 외 데이터 정제
  2. utf-8 유니코드 기준으로 기사 본문을 원고지 글자 수로 길이 계산
  3. 한글을 빼고 무조건 숫자만 추출
7) 이미지의 수
  1. 기사 내에 텍스트 외 이미지 등 멀티미디어 정보를 제공할 경우 독창성, 사실성, 심층성, 유용성이 높다고 가정
  2. 이미지의 수가 너무 지나칠 경우 기사 독이성에 저해됨
기사 내에 삽입된 이미지의 수 본문에 포함된 이미지 숫자 총합 계산
8) 평균 문장의 길이
  1. 기사는 명확한 정보 전달을 목적으로 하고 있어 가능한 명료하게 작성해야 함
  2. 문자의 길이가 길면 독자의 가독성이 떨어지며, 명확한 의미 전달이 어려워질 수 있음
기사의 길이를 기사 내 전체 문장 수로 나눔
  1. 형태소 분석 결과에서 SF로 끝났을 경우 한 문장으로 처리
  2. 전체 기사의 길이를 전체 문장수로 나눠서 산출
9) 제목에 사용된 부사 수
  1. 주어, 동사, 목적어 이외에 형용사, 부사 등 수식어가 많을 수록 정보 전달의 명료성이 떨어지며, 이용자들의 기사에 대한 신뢰도도 낮아질 수 있음
  2. 특히, 기사 제목의 경우 명료성이 중요하기 때문에 부사 등 수식어 사용은 가급적 지양해야 함
기사 제목 내에 사용된 부사의 수 기사 제목을 형태소 분석 후 용언 또는 다른 말 앞에 놓여 뜻을 분명하게 하는 품사로서 부사의 개수 산출
10) 문장 당 평균 부사 수
  1. 주어, 동사, 목적어 이외에 형용사, 부사 등 수식어가 많을 수록 정보 전달의 명료성이 떨어지며, 이용자들의 기사에 대한 신뢰도도 낮아질 수 있음
  2. >전체 기사 내에 부사의 사용이 많으면, 독이성과 사실성이 떨어지고 선정성이 높아질 수 있음
기사 본문 내 부사 수 / 기사 본문 문장 수
  1. 형태소 분석 결과에서 SF로 끝났을 경우 한 문장으로 처리
  2. 전체 기사 본문 내 부사 수를 전체 문장수로 나눠서 산출
11) 기사 본문 중 인용문의 비중
  1. 기사 작성 시 인용을 하는 것은 기자의 사견이 개입하지 않음을 보여주지만, 지나친 인용은 사실의 확인없이 일방적인 주장만을 전달하고 있을 가능성이 있음
  2. 특히, SNS 발언 내용, TV 방송 내용 등 취재 없이 일방적 전달 기사의 경우 지나친 인용이 문제가 되는 사례가 다수 존재
전체 기사 길이에서 차지하는 인용문의 비중
  1. 기사 본문 내용 중 인용을 의미하는 큰따옴표(“)로 시작해서 큰따옴표(”)로 닫히는 내용들을 1차 추출함
  2. >큰따옴표 내에 형태소가 세 개 미만일 경우는 인용문이 아닌 강조문으로 판단하여 배제, 세 개 이상인 경우만 계산함
  3. 추출된 인용문의 길이 산출
  4. 인용문의 길이를 전체 기사의 길이로 나눔
위원회 논의를 통한 11가지 저널리즘 가치와 11개 계량요인의 적용 이론적 가중치
위 계수를 정답셋으로 기계학습한 가중치