솔트룩스, 국립국어원과 일상대화 말뭉치 구축 사업 수주

입력 2020-05-19 09:09
  • 가장작게

  • 작게

  • 기본

  • 크게

  • 가장크게

솔트룩스가 국립국어원과 사투리를 포함한 일상 대화를 빅데이터로 만드는 사업에 착수했다고 19일 밝혔다.

솔트룩스와 국립국어원은 ‘2020 일상대화 말뭉치 구축’ 사업으로 일상 대화 속 언어를 인공지능에 활용 가능한 데이터로 만든다는 계획이다.

해당 사업은 2019년부터 진행한 ‘국가 말뭉치 구축사업’의 일환으로 △구어 △일상 대화 △메신저 대화 △웹 △문어 등으로 나눈 사업 분야 중 일상 대화에 속한다. ‘말뭉치’란 언어 연구 분야에서 언어 자료를 나타내는 용어로, 연구 목적마다 구체적인 정의가 다르나 이번 사업에서는 약 500시간의 대화가 말뭉치 자료의 기준이다.

솔트룩스는 약 2000명의 대화를 수집해 이를 고품질의 AI 데이터로 구축한다. 초기 단계에는 대화형 인공지능 분야 전문가들이 참여해 어떤 대화를 수집할 지 주제를 선정한다.

수집한 음성 대화는 데이터로 가공하기 위해 텍스트 형식으로 옮긴다. 이 과정에서는 국내 최고의 속기 전문기업 ‘소리자바’와 협력한다. 텍스트 자료는 인공지능 활용 가능한 데이터 파일로 가공돼 국립국어원이 요구한 메타 정보가 함께 심어질 예정이다. 또한 솔트룩스에서 말뭉치 데이터를 활용할 수 있는 음성인식 기능을 탑재한 모델을 제공한다.

국립국어원은 “말뭉치 데이터를 민간에 공유해 언어 인공지능 등 관련 산업 기반을 마련하는데 기여할 수 있을 것”이라고 설명했다.

이경일 솔트룩스 대표는 “현재 세계 대화형 AI 시장보다 국내 시장은 음성 및 전사 말뭉치가 부족하고, 기술 개발이나 서비스화가 더디게 발전하고 있다”라며 “이번 사업을 통해 대화형 AI 산업 활용을 위한 기반이 마련돼 다양한 AI 서비스와 데이터 생태계가 확보될 것으로 기대한다”라고 말했다.

한편, 솔트룩스는 대한민국의 대표 AI 기업으로, 국내 인공지능업체 중 가장 많은 121건의 기술 특허(PCT 포함)를 보유하고 있으며, 아시아 최대 규모인 150억 건 규모의 지식베이스를 구축해 인공지능 및 빅데이터 분야 기술 개발을 선도하고 있다.

한편 회사는 6일 코스닥 상장을 위한 예비심사를 통과했다.

  • 좋아요0
  • 화나요0
  • 슬퍼요0
  • 추가취재 원해요0

주요 뉴스

  • 이재명, '위증교사 1심 무죄'..."죽이는 정치 말고 살리는 정치 해야"
  • "여보! 부모님 폰에 ‘여신거래 안심차단’ 서비스 해드려야겠어요" [경제한줌]
  • 갖고 싶은 생애 첫차 물어보니…"1000만 원대 SUV 원해요" [데이터클립]
  • 농심 3세 신상열 상무, 전무로 승진…미래 먹거리 발굴 힘 싣는다
  • ‘아빠’ 정우성, 아이 친모는 문가비…결혼 없는 양육 책임 뒷말 [해시태그]
  • 논란의 트럼프 2기 행정부 인선…막후 권력자는 당선인 아들
  • 국민연금, 삼성전자 10조 ‘증발’ vs SK하이닉스 1조 ‘증가’
  • "권리 없이 책임만" 꼬여가는 코인 과세…트럭·1인 시위 ‘저항 격화’
  • 오늘의 상승종목

  • 11.25 장종료

실시간 암호화폐 시세

  • 종목
  • 현재가(원)
  • 변동률
    • 비트코인
    • 135,337,000
    • -0.43%
    • 이더리움
    • 4,701,000
    • -0.06%
    • 비트코인 캐시
    • 708,500
    • -0.21%
    • 리플
    • 2,092
    • +4.81%
    • 솔라나
    • 351,000
    • -0.28%
    • 에이다
    • 1,473
    • +1.38%
    • 이오스
    • 1,150
    • -2.38%
    • 트론
    • 290
    • -2.68%
    • 스텔라루멘
    • 747
    • -4.84%
    • 비트코인에스브이
    • 95,900
    • -2.04%
    • 체인링크
    • 25,500
    • +5.77%
    • 샌드박스
    • 1,030
    • +20.33%
* 24시간 변동률 기준