번역 품질 관리를 위한

BLEU 스코어의 이해와 활용

29
 / 
07
 / 
2020

최근 인공지능 기반 기계 번역 기술은 전 세계적으로 주목받는 분야입니다. 그런 만큼 구글, MS 등 수많은 선도 기업과 연구자들이 집중적으로 연구하고 있고, 실제로 의미 있는 연구 결과들이 계속해서 발표되고 있습니다. 덕분에 기계 번역(Machine Translation)의 성능과 품질은 하루가 다르게 빠른 속도로 발전해왔고, 번역 업계와 현장에서도 다양한 분야에서 기계 번역의 사용이 확대되고 있는 추세입니다. 


그렇지만 아직까지 기계 번역의 품질은 전문 번역사의 그것에 비하면 부족한 점이 많은 것 또한 부인할 수 없는 사실입니다. 다만 비용과 시간의 절감 등 현실적인 이유로 기계 번역의 사용이 늘어날 수 밖에 없는 상황을 고려할 때, 사용자 입장에 있는 번역회사나 번역사도 기계 번역의 품질 문제에 대한 정확한 이해에 바탕을 둔 활용이 중요해질 수 밖에 없습니다. 


이번 블로그 포스트는 이 문제에 대한 이해를 돕기 위해 실제 기계 번역의 성능을 측정하는 지표인 'BLEU(Bilingual evaluation understudy) 스코어(Score)'에 관해 이야기해보겠습니다.


BLEU(bilingual evaluation understudy) 스코어란?



 

좋은 기계 번역기를 만들기 위해서, 또는 번역기를 적절히 사용하기 위해서도 번역 품질의 정확한 평가와 확인은 꼭 필요합니다. 그리고 실제 번역기의 성능 및 품질을 평가하는 여러가지 방법 중 가장 널리 사용 되고 있는 것이 'BLEU 스코어' 입니다.

 

간단히 설명하면 BLEU 스코어는 번역 품질을 측정하기 위한 정량적 지수로 기계가 번역한 문장과 정답 문장 간의 정확도를 비교하여 측정하게 됩니다. 즉 기계 번역기가 번역한 문장이 사람이 정한 정답 문장과 유사할 수록 더 높은 BLEU 스코어를 기록하게 됩니다.

 

BLEU 스코어의 실제 측정 사례

 

일반적으로 기계 번역의 성능은 학습 데이터의 규모와 알고리즘 모델의 수준에 의해 결정된다고 합니다. 특히 가장 중요한 것은 번역기의 학습을 위한 양질의 방대한 데이터를 확보하는 것인데, 아무래도 이 부분은 장기간 서비스를 통해 많은 이용자를 확보한 선도 업체들이 유리할 수 밖에 없습니다. 

 

따라서 후발 주자인 지콘스튜디오가 그들을 따라잡으려면 다른 접근으로 차별화를 꾀할 수 밖에 없었습니다. 그것은 바로 앞에서도 언급한 알고리즘을 통한 개선 방법으로, 특정한 주제 및 도메인에 대해 최적화된 번역 모델로 전문 번역 솔루션을 제공하는 것입니다. 실제로 지콘스튜디오 서비스의 전문 번역 품질을 높이는 데는 해당 분야의 전문 용어 및 표현에 대한 맞춤형 데이터베이스인 번역 사전(Translation Dictionary)이 결정적인 역할을 했습니다.

 

그리고 지난 2019년 지콘스튜디오팀은 전문 번역 성능과 품질에 대한 객관적 평가를 받기 위해 한국정보통신기술협회(TTA) 소프트웨어시험인증연구소의 확인 및 검증 시험(Verification & Validation)을 받았습니다. 당시 5개 분야(법률, 금융, 기계, 화학, 의료)에 대해 구글 번역기와 번역 품질을 비교한 결과 4개 분야(법률, 금융, 기계, 의료)에서 구글 번역기보다 높은 점수를 기록했습니다. 특히 법률 분야 테스트에서 우수한 BLEU 스코어(구글 0.2464, 지콘스튜디오  0.3277)를 기록해 그 기술력을 인정받을 수 있었습니다.


위 번역 품질 측정에 관한 자세한 내용이 궁금하시면 아래 링크의 글을 확인해주세요.

트위그팜 '하이브리드 번역기', 구글 번역기보다 4개 분야 성능 앞서

 

사용자 입장에서 BLEU 스코어의 의미와 활용

 

언뜻 보면 BLEU 스코어는 연구개발 결과에 대한 평가나 피드백이 필요한 개발자나 연구원들에게 중요한 지표라 생각하기 쉽습니다. 하지만 실제 번역 프로젝트에서 기계 번역 솔루션을 사용하는 번역회사와 번역사의 입장에서도 다양한 선택지에 대한 비교를 통해 어떤 것이 가장 적합한지 판단할 수 있는 좋은 참고 자료가 될 수 있습니다.

 

대부분 번역기는 일반적인 용도로 주제와 관계없이 범용적으로 사용하기 좋게 만들어진 반면, 특정 주제나 분야에 최적화된 모델로 만들어진 것도 있습니다. 즉 같은 단어나 문장 이라도 사용하는 전문 분야에 따라 전혀 다른 의미로 번역해야 할 수도 있다는 것을 고려해 목적에 맞는 최적의 것을 사용할 때 정확한 번역이 가능합니다.

 

그러므로 고품질의 번역 결과를 위해서는 해당 분야에 맞는 맞춤형 솔루션을 사용해야 합니다. 특허, 법률, 의학, 과학, 기술 등 번역이 필요한 다양한 분야들이 있기 때문에, 해당 분야 문서의 정확한 번역을 위해서는 BLEU 스코어와 같은 평가 지표를 참고해 최적의 것을 선택해 활용하는 현명함이 필요합니다.

지콘스튜디오

Difference Makes Possibilities.

다양한 번역기를 동시에 확인하는 비교 번역은 물론 중역, 역번역을 통해 사용자에게 맞는 더 정확하고, 자연스러운 번역 경험을 제공합니다.

번역 품질 관리를 위한

BLEU 스코어의 이해와 활용

29
 / 
07
 / 
2020

최근 인공지능 기반 기계 번역 기술은 전 세계적으로 주목받는 분야입니다. 그런 만큼 구글, MS 등 수많은 선도 기업과 연구자들이 집중적으로 연구하고 있고, 실제로 의미 있는 연구 결과들이 계속해서 발표되고 있습니다. 덕분에 기계 번역(Machine Translation)의 성능과 품질은 하루가 다르게 빠른 속도로 발전해왔고, 번역 업계와 현장에서도 다양한 분야에서 기계 번역의 사용이 확대되고 있는 추세입니다. 


그렇지만 아직까지 기계 번역의 품질은 전문 번역사의 그것에 비하면 부족한 점이 많은 것 또한 부인할 수 없는 사실입니다. 다만 비용과 시간의 절감 등 현실적인 이유로 기계 번역의 사용이 늘어날 수 밖에 없는 상황을 고려할 때, 사용자 입장에 있는 번역회사나 번역사도 기계 번역의 품질 문제에 대한 정확한 이해에 바탕을 둔 활용이 중요해질 수 밖에 없습니다. 


이번 블로그 포스트는 이 문제에 대한 이해를 돕기 위해 실제 기계 번역의 성능을 측정하는 지표인 'BLEU(Bilingual evaluation understudy) 스코어(Score)'에 관해 이야기해보겠습니다.


BLEU(bilingual evaluation understudy) 스코어란?



 

좋은 기계 번역기를 만들기 위해서, 또는 번역기를 적절히 사용하기 위해서도 번역 품질의 정확한 평가와 확인은 꼭 필요합니다. 그리고 실제 번역기의 성능 및 품질을 평가하는 여러가지 방법 중 가장 널리 사용 되고 있는 것이 'BLEU 스코어' 입니다.

 

간단히 설명하면 BLEU 스코어는 번역 품질을 측정하기 위한 정량적 지수로 기계가 번역한 문장과 정답 문장 간의 정확도를 비교하여 측정하게 됩니다. 즉 기계 번역기가 번역한 문장이 사람이 정한 정답 문장과 유사할 수록 더 높은 BLEU 스코어를 기록하게 됩니다.

 

BLEU 스코어의 실제 측정 사례

 

일반적으로 기계 번역의 성능은 학습 데이터의 규모와 알고리즘 모델의 수준에 의해 결정된다고 합니다. 특히 가장 중요한 것은 번역기의 학습을 위한 양질의 방대한 데이터를 확보하는 것인데, 아무래도 이 부분은 장기간 서비스를 통해 많은 이용자를 확보한 선도 업체들이 유리할 수 밖에 없습니다. 

 

따라서 후발 주자인 지콘스튜디오가 그들을 따라잡으려면 다른 접근으로 차별화를 꾀할 수 밖에 없었습니다. 그것은 바로 앞에서도 언급한 알고리즘을 통한 개선 방법으로, 특정한 주제 및 도메인에 대해 최적화된 번역 모델로 전문 번역 솔루션을 제공하는 것입니다. 실제로 지콘스튜디오 서비스의 전문 번역 품질을 높이는 데는 해당 분야의 전문 용어 및 표현에 대한 맞춤형 데이터베이스인 번역 사전(Translation Dictionary)이 결정적인 역할을 했습니다.

 

그리고 지난 2019년 지콘스튜디오팀은 전문 번역 성능과 품질에 대한 객관적 평가를 받기 위해 한국정보통신기술협회(TTA) 소프트웨어시험인증연구소의 확인 및 검증 시험(Verification & Validation)을 받았습니다. 당시 5개 분야(법률, 금융, 기계, 화학, 의료)에 대해 구글 번역기와 번역 품질을 비교한 결과 4개 분야(법률, 금융, 기계, 의료)에서 구글 번역기보다 높은 점수를 기록했습니다. 특히 법률 분야 테스트에서 우수한 BLEU 스코어(구글 0.2464, 지콘스튜디오  0.3277)를 기록해 그 기술력을 인정받을 수 있었습니다.


위 번역 품질 측정에 관한 자세한 내용이 궁금하시면 아래 링크의 글을 확인해주세요.

트위그팜 '하이브리드 번역기', 구글 번역기보다 4개 분야 성능 앞서

 

사용자 입장에서 BLEU 스코어의 의미와 활용

 

언뜻 보면 BLEU 스코어는 연구개발 결과에 대한 평가나 피드백이 필요한 개발자나 연구원들에게 중요한 지표라 생각하기 쉽습니다. 하지만 실제 번역 프로젝트에서 기계 번역 솔루션을 사용하는 번역회사와 번역사의 입장에서도 다양한 선택지에 대한 비교를 통해 어떤 것이 가장 적합한지 판단할 수 있는 좋은 참고 자료가 될 수 있습니다.

 

대부분 번역기는 일반적인 용도로 주제와 관계없이 범용적으로 사용하기 좋게 만들어진 반면, 특정 주제나 분야에 최적화된 모델로 만들어진 것도 있습니다. 즉 같은 단어나 문장 이라도 사용하는 전문 분야에 따라 전혀 다른 의미로 번역해야 할 수도 있다는 것을 고려해 목적에 맞는 최적의 것을 사용할 때 정확한 번역이 가능합니다.

 

그러므로 고품질의 번역 결과를 위해서는 해당 분야에 맞는 맞춤형 솔루션을 사용해야 합니다. 특허, 법률, 의학, 과학, 기술 등 번역이 필요한 다양한 분야들이 있기 때문에, 해당 분야 문서의 정확한 번역을 위해서는 BLEU 스코어와 같은 평가 지표를 참고해 최적의 것을 선택해 활용하는 현명함이 필요합니다.

지콘스튜디오

Difference Makes Possibilities.

다양한 번역기를 동시에 확인하는 비교 번역은 물론 중역, 역번역을 통해 사용자에게 맞는 더 정확하고, 자연스러운 번역 경험을 제공합니다.