AI를 잘하는 기업 피플앤드테크놀러지의 AI Annotation Tool 개발 스토리

저희 피플앤드테크놀러지 AI LAB의 실질적인 성과 결과물이 이제 하나둘 씩 나오고 있습니다.

지난 5월에는 국내 글로벌 영상 선도 대기업에서 저희 AI LAB의 성과물을 탑재한 제품을 출시하여, 저희 기술이 탑재된 서비스로 직접 찾아뵐 수 있게 되었습니다. 국내 고객 뿐만 아니라 해외 고객들을 대상으로 한 후속 버전 개발에도 박차를 가하고 있습니다.  

앞으로도 더 좋은 소식으로 저희 피플앤드테크놀러지를 응원하시는 모든 분들을 찾아뵙겠습니다. 

 

오늘은 저희 피플앤드테크놀러지가 짧은 시간안에 괄목할만한 AI의 성과를 내고 있는 비밀 한가지를 

알려드리고자 합니다.

 

잘 아시다시피 AI Biz를 잘하기 위해서 필요한 네가지는 다음과 같습니다.

1)   딱 해당 문제를 해결하기 위한 원천 데이터를 확보해야 하고

2)   해당 데이터를 정확하고 빨리 Annotation 하여 양과 질적인 측면에서 학습 데이터를 확보할 수 있어야 하며

3)   이 학습 데이터 셋을 기반으로 훌륭한 알고리즘이 개발되어야 하며

4)   이 AI 알고리즘을 탑재한 End to End 서비스를 적용발전시킬 수 있는 Biz 역량

 

이번 블로그에서는 1번과, 2번에 대한 이야기를 해보겠습니다.

자 그럼시작해볼까요?

어노테이션이란 무엇인가?

AI를 잘 하기 위해서는 무엇이 필요할까요? 여러 가지가 있지만 AI 모델이 학습할 수 있는 양질의 데이터 셋을 확보하는 것이 무엇보다 중요합니다. 

데이터를 입력받아 정답을 출력해야 하는 딥러닝 학습을 위해 확보된 데이터에 정답을 달아주는 작업을 어노테이션(Annotation, 주석 달기) 또는 데이터 라벨링(Data Labeling)이라 합니다. AI 학습 과정에 라벨링 처리된 데이터가 필요한지 여부에 따라 지도 (Supervised) 및 비지도 (Unsupervised) 학습의 두가지 범주로 분류됩니다. 대부분의 AI 학습과정은 라벨링 데이터를 필요로 하는 지도학습의 범주에 속하고 이때 학습 결과물의 정확도는 AI 모델의 구조는 물론이고 어노테이션의 품질에 좌우됩니다. 

한마디로 데이터 어노테이션 또는 데이터 라벨링이란 인공지능 알고리즘 고도화를 위해 AI가 스스로 학습할 수 있는 형태로 데이터를 가공하는 작업을 말하는 것입니다. 

예를 들어 사진이나 동영상 등에 등장하는 동물, 사물 등 모든 것에 라벨을 달아 AI 모델을 학습하고 학습된 모델에 새로운 이미지를 입력하면 사물의 종류를 인식할 수 있게 됩니다.

사람은 자전거가 찍힌 사진을 보고 사진 속 사물이 자전거임을 쉽게 식별할 수 있지만 컴퓨터에는 이미지가 픽셀 별 색깔 정보가 담긴 고차원의 벡터로 저장됩니다. 따라서 AI가 사진을 보고 스스로 자전거에 대해 학습할 수 있도록 사진 속 자전거의 위치, 혹은 자전거의 영역에 ‘자전거’라고 표시해주는 작업이 필요합니다. 

 많은 경우 어노테이션 작업은 인간의 지식을 AI로 전수하기 위한 목적으로 사람이 데이터를 직접보고 판단한 것을 표시합니다. 

어노테이션 작업의 3가지 Pain Point

1)하지만 인간이 수행하는 어노테이션은 노동집약적이며 작업자의 숙련도에 비해 문제가 지나치게 어려운 경우 일정한 품질이 보장되지 않으며 많은 시간과 비용이 드는 작업입니다. 

예를 들어 의료 데이터의 어노테이션이 필요한 경우, 의료인 등 전문가의 판단에 의존할 수 밖에 없어 전문가의 지식과 경험에 해당하는 추가 비용이 발생합니다. 다른 예로 데이터 당 세밀하고 많은 작업이 수반되는 경우 비숙련자의 작업임에도 추가된 소요시간 동안 이루어진 노동력에 대한 비용이 발생합니다. 

2학습 데이터 준비에 필요한 어노테이션 등의 비용 발생이 AI 모델의 효용성을 초과하는 경우 아무리 좋은 모델이라도 적용이 불가능합니다. 

3)또한 비용 절감에 의해 데이터의 양과 어노테이션의 품질이 떨어지는 경우, 필연적으로 학습된 AI 모델의 성능이 떨어질 수 밖에 없습니다.   

피플앤드테크놀러지 AI LAB의 접근 방안 : 어노테이션 작업에 AI 모델을 적용하여 Pain Point 해결

이에 대한 해결책으로 데이터 어노테이션 작업을 인공지능(AI)을 통하여 자동화(또는 반자동화) 하는 시도가 이루어지고 있습니다. AI를 이용한 어노테이션은 작업의 양이 많아 곤란한 경우에 좋은 해결책이 됩니다.   

1)데이터셋을 구매할 수 없으니 직접 어노테이션을 해보다.

피플앤드테크놀러지의 AI Lab에서는 주어진 데이터를 그대로 이용하여 정형화된 방식으로 문제를 접근하지 않습니다. 프로젝트의 초기에 연구원들이 직접 어노테이션 작업을 경험하면서 모델의 설계에 반영합니다. 어노테이션 작업을 수행하면서 직접 데이터를 경험해 보면 데이터의 분포와 편향에 대한 직관을 가질 수 있습니다. 어려운 문제를 만난 경우전문가의 시점에서 데이터를 직접 들여다 보며 판단이 모호한 경우의 처리 방법을 AI 모델 설계에 반영합니다.