[BLOG]

더아이엠씨의 사내문화를 소개합니다.

    • 한국어 AI 서비스를 위한 데이터사이언스 활용 사례
    • 2020-07-21 11:43:55

  • 공공분야에서의 데이터 사이언스 활용 사례 : 대구시는 지난 2017년 3월 20일 전국 처음으로 AI ·빅데이터를 활용한 민원행정 시스템 구축을 위해 (주)더아이엠씨와 업무협약을 체결했다. … 시스템이 구축되면 상담 시간 (일 9~13시간)이 제한된 '120달구벌콜센터' 기능이 24시간 자동 민원 상담 시스템으로 바뀐다. 또 민원발생을 사전에 예측할 수 있는 민원예보 시스템을 구축해 민원발생 원인 분석, 정책자료 작성 등에 활용할 수 있다.

    데이터 사이언스에서 빼놓을 수 없는 'AI 자동화'

    지난 2019년 2월, 한국을 찾은 구글 데이터 사이언스 담당 'Jay Yonamine'는 데이터 사이언스 성공 사례에는 공통적으로 '자동화'라는 키워드가 있다고 발언한 바 있습니다. Jay Yonamine는 "자동 검색, 자율 주행 등은 모두 '의사결정 자동화'와 연관이 있다"라며, 데이터 사이언스의 성공적 자동화를 위한 인공지능의 '객관적인 기준과 선택', '가급적 간단한 기술만을 활용', '인간을 창의적으로 설득', '인간 개입의 시기 조절' 4가지 원칙을 제시해 이목을 끈 바 있습니다.




    데이터 사이언스는 정형·비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합 분야로 정의됩니다. Yonamine가 말한 '자동화'란 지식과 인사이트를 추출하는 방법 가운데 'AI가 의사결정을 대신하는 방법'을 의미합니다. 이는 다른 말로 데이터 사이언스를 적용한 '사업'에 다른 기술과 차별되는 '자동화'가 성공 요인으로 작용한다는 말로 요약할 수 있습니다.

    여기서 말하는 '자동화'는 반도체 공장에서 볼 수 있는 로봇팔과 컨베이어 벨트를 말하는 것이 아닙니다. 데이터 사이언스에 기반한 '예측 결정 알고리즘'을 말하는 것이죠. '예측 결정 알고리즘'이란 업무를 자동화하는 것에서 그치지 않고, 저장된 데이터를 바탕으로 예상되는 반응을 미리 예측하는 AI를 의미합니다.




    의사결정지원 솔루션 텍스토미 (클릭 시, 소개 페이지로 이동)

    더아이엠씨에서는 이러한 '자동화'를 업무에 적용하는 '빅데이터를 기반으로 지능화 시스템'을 구축한 여러 사례를 갖고 있는 있는데요. '의사결정을 위한 AI 솔루션 텍스토미'와 이전에 다뤘던 '노후된 하수관 시스템을 보완한 빅데이터 활용사례'에 이어서, 이번 포스팅에서는 '인공지능 서비스를 위한 한국어 대화 데이터 구축 사례'에 대해 다뤄보도록 하겠습니다.



    높은 폐업률… 원인은 데이터 환경 미성숙

    경기가 어렵든 그렇지 않든 원치 않는 이유로 폐업을 하게 되는 자영업자들이 많습니다. 더욱이 최근에는 '코로나 쇼크'로 폐업 비율이 전년 대비 20% 이상 상승하기도 했는데요. 코로나19 사태가 종료되면 자영업자가 한시름 놓을 수 있겠냐고 한다면, 꼭 그런 것만은 아닙니다. 불경기에는 소비 위축으로 인한 피해를 걱정해야 하고, 호황일 때는 손님이 몰리는 만큼 매장의 서비스 관리를 더욱 철저히 해야 하니까요.



    11% 이하로 내려가지 않는 폐업률

    이와 같이 365일 '생존 경쟁'을 해야 하는 자영업의 폐업률은 2005년 집계된 이례로 단 한 번도 11% 아래로 내려간 적이 없는데요. 더아이엠씨는 불황이든 호황이든 폐업 10곳 한 곳은 폐업하는 상황의 주요한 원인을 '데이터 환경 미성숙'으로 인한 '서비스 품질의 저하'로 꼽았습니다.

    한국과학기술정보연구원(KISTI)의 고민거리였던 해당 문제를 해결하기 위해 더아이엠씨는 민원 처리에 있어 누락되거나, 비효율적으로 해결되던 부분을 빅데이터와 AI를 통해 해결하고자 했습니다. 또한 공공의 이익을 위한 과제였던 만큼, 빅데이터· AI 전문 기업인 더아이엠씨 주도로 컨소시엄이 구성되어 진행되었습니다.



    다양한 루트를 통한 데이터 수집

    사업은 크게 '데이터 수집 및 구축', '지식 베이스 구축', '챗봇 프로토타입 개발'로 3가지로 구성되었는데요. 가장 먼저 소상공인 분야의 대표 업종 9개 [일반음식점·의류/의복·학원·소매·생활서비스·숙박·PC방/당구장]을 선정했습니다. 또한 여기에 공공/민원 상담 데이터 셋 기반의 4개 분야 [차량등록·여권·상수도·대중교통 및 교통]를 수집 분야로 지정했는데요.



    데이터의 수집은 해당 분야를 대상으로 '업종별 상황을 가정한 시나리오를 작성', '미스터리 쇼퍼 경력자를 활용한 현장 음성 녹취', '크라우드 소싱을 통한 대화 데이터 수집' 세 가지 방식으로 이루어졌습니다. 이렇게 축적된 음성 및 텍스트 데이터는 메타 데이터를 부착 등의 분류 과정을 거쳐, 이후 개발된 '대화 데이터 저작 도구'를 통해 쉽게 관리·활용할 수 있도록 체계적으로 구성되었습니다.


    데이터 및 지식 베이스 구축

    수집된 데이터를 '대화 데이터'로 처리함에 있어서 가장 큰 문제점은 바로 사용자에 따라 줄임말이나, 어미의 변형 등이 여러 가지로 쓰인다는 것이었는데요. 텍스트 마이닝 솔루션 TEXTOM(텍스톰)을 개발한 노하우를 최대한 활용하여 개체명 추출, 용어 사전 구축 등의 기술을 적용해 이러한 문제를 해결했습니다. 또한 각 화자의 의도를 담은 '의도별 태그'를 통해 최종적으로 지식 베이스에 기록될 수 있도록 했는데요.

    카테고리

    (손님이 설정)

    대화 내용 (띄어쓰기 교정)

    의도 [Main/Sub]/QA

    용어 사전→개체명

    지식 베이스

    홀서빙 음식점

    "금주 토욜 쯤에 예약하려고 하는데요"

    [예약문의/ ]/Q

    "이번 주 토요일쯤에 예약하려고 하는데요"

    → [이번 주], [토요일], [예약]

    이번 주/예약일, 토요일/예약일

    "네 몇 시로 예약해 드릴까요?"

    [예약문의/예약시간]/Q

    → [시], [예약]

    "오후 6시로 해주세요"

    [예약문의/예약시간]/A

    → [오후 6시]

    오후 6시/시간

    지식 베이스에 기록되기까지의 과정을 예로 들면 "금주 토욜 쯤에 예약하려고 하는데요."라는 문장 상황에서 용어 사전 등을 통해 [이번 주], [토요일], [예약]이라는 개체명을 검출하고, 문장의 의도가 '예약 문의'임을 파악하여 이를 "이번 주/예약일, 토요일/예약일"로 산출되는 것이라 할 수 있습니다.


    응용 예시 '챗봇' 프로토타입 개발



    챗봇 프로토타입 시연과 구동 방식

    챗봇은 '인공지능 서비스를 위한 한국어 대화 데이터'의 실제 활용을 엿볼 수 있는 프로토타입으로 제작되었습니다. 기본적으로 앞서 수집된 상황별 시나리오 등의 축적된 데이터를 활용하여 고객과의 대화를 통해 '가격 등을 포함한 문의 사항'에 대해 자동으로 응답하고, '예약 등의 정보를 받는 기능'으로 자영업자의 일손을 더는 기능을 탑재하고 있습니다. 이외에도 챗봇 AI의 특징적인 기능은 먼저 화제를 제시할 수 있는 기능이 적용된 AI가 말을 걸 수도 있다는 것인데요. 이는 챗봇 본연의 기능은 물론 마케팅적 효과를 발생시키는 요소가 포함되어 있기에 소상공인들이 선호할만한 기능이라 할 수 있겠습니다.




    데이터 사이언스 : 소상공인부터 디지털 소외 계층까지

    기업이나 공공기관 민원에서는 물론 소상공인도 홈페이지를 개설하여 챗봇을 사용하는 사례를 심심치 않게 찾아볼 수 있게 된 요즘. 이번 사례의 결과물인 더아이엠씨에서 구축한 '한국어 대화 데이터'가 연구 및 개발·서비스 목적으로 챗봇에 활용되고 있습니다. 게다가 공공 분야에서도 이를 활용하여 인공지능 민원 상담 시스템의 고도화 혹은 실시간 민원 접수에 직접 활용하는 등 폭넓게 활용되고 있습니다.




    이는 소상공인 폐업률 감소와 공공 분야 민원의 효율적 처리라는 기존 사업 목표를 넘어 4차 산업 시대에서 데이터의 유무로 커지는 '디지털 격차'를 줄이고, 데이터 사이언스의 보편화·대중화의 기초를 닦는 것이 중요하다는 것을 시사합니다. 즉, 데이터 활용 기술은 데이터라는 초석이 없으면 발전할 수 없으며, 일반 대중이 데이터 사이언스의 필요성에 대해 피부로 느끼지 않는다면 기술의 낭비로 이어질 수도 있다는 것입니다.