크래프톤, AI 브랜드 '라온' 출범…멀티모달 모델 4종 오픈소스 공개

음성 지원 LLM, 실시간 음성 대화 모델, TTS 모델 및 비전 인코더 공개 Raon-Speech는 동급 모델 기준 글로벌 1위 성능 달성, 기술 보고서도 공개

2026-04-02 황병우 기자

크래프톤이

㈜크래프톤이 자체 인공지능(AI) 기술을 집약한 모델 브랜드 '라온(Raon)'을 론칭하고 핵심 모델을 오픈소스로 공개하며 AI 경쟁력 강화에 나섰다.

크래프톤은 2일 음성 지원 대규모 언어 모델(LLM)을 비롯해 실시간 음성 대화 모델, 텍스트-음성 변환(TTS) 모델, 비전 인코더 등 총 4종의 AI 모델을 글로벌 AI 플랫폼 허깅페이스에 오픈소스로 공개했다고 밝혔다.

'라온'은 '즐거움'을 뜻하는 순우리말에서 착안한 이름으로, AI 기술을 통해 게임의 본질적인 즐거움을 창출하고자 하는 크래프톤의 철학을 반영했다. 이번 공개를 통해 크래프톤은 데이터 수집부터 학습, 성능 평가까지 파운데이션 모델 개발 전 과정을 자체 수행할 수 있는 역량을 입증했다는 평가다.

이번에 선보인 모델은 Raon-Speech, Raon-SpeechChat, Raon-OpenTTS, Raon-VisionEncoder로, 음성과 시각 정보를 아우르는 멀티모달 AI 기술이 핵심이다.

이 가운데 'Raon-Speech'는 90억(9B) 파라미터 규모의 음성 언어 모델로, 영어와 한국어 모두에서 글로벌 최고 수준의 성능을 기록했다. 음성 인식과 음성 합성, 음성 기반 질의응답 등 다양한 과제를 종합 평가한 결과, 100억 파라미터 이하 공개 모델 중 1위를 차지했다.

'Raon-SpeechChat'은 음성 대화를 지원하는 모델로, 대화 도중 사용자의 끼어들기를 자연스럽게 처리하는 실시간 양방향 통신(Full-duplex) 기술이 적용됐다. 이는 국내에서 발표된 최초의 실시간 양방향 음성 모델로, 응답 지연 시간과 대화 자연성 등 주요 13개 지표에서 글로벌 최상위권 성능을 기록했다.

'Raon-OpenTTS'는 공개 음성 데이터만으로 학습된 텍스트-음성 변환 모델이다. 활용이 어려웠던 일부 데이터는 직접 수집 및 정제해 공개했으며, 전체 학습 데이터도 공개해 누구나 동일한 환경에서 학습을 재현할 수 있도록 했다. 사람이 비교하는 블라인드 평가에서 비공개 데이터 기반 글로벌 연구용 TTS 모델들과 비교해 최상위 수준의 성능을 보였다.

'Raon-VisionEncoder'는 이미지를 AI가 이해 가능한 정보로 바꿔주는 비전 인코더다. 공개 데이터만 활용해 사전 학습된 모델을 쓰지 않고 처음부터 자체 학습했다. 일부 시각 인식 작업에서 SigLIP2를 90% 이상 능가하는 성능을 기록했으며, 전반적으로도 90% 이상의 수준을 유지하며 경쟁력을 입증했다.

크래프톤은 이번 모델 공개를 통해 데이터 수집부터 모델 학습, 성능 평가까지 파운데이션 모델 개발 전 과정을 자체적으로 수행할 수 있는 기술 역량을 입증했다. 향후 AI 모델 브랜드 'Raon'을 중심으로 글로벌 AI 기술 경쟁력을 더욱 강화해 나갈 계획이다.

크래프톤,

이강욱 크래프톤 CAIO는 "이번 Raon 모델 시리즈 공개는 AI 기술 역량을 축적해 나가는 과정의 중요한 이정표"라며 "대규모 학습 데이터와 핵심 모델을 오픈소스로 공유해 연구자와 개발자들이 자유롭게 활용할 수 있도록 하고, 멀티모달 기술 발전과 국내 AI 생태계의 성장에 기여하기를 기대한다"고 밝혔다.

한편 크래프톤은 파운데이션 모델 설계부터 AI 에이전트, 새로운 게임성을 위한 CPC 기술의 게임 적용까지 전 주기에 걸친 AI 기술 역량을 보유하고 있다. 지난해 개인용 AI 비서 KIRA(키라)를 선보였으며, 지난달에는 AI 에이전트 성능을 개선하는 'Terminus-KIRA' 기술을 오픈소스로 공개하며 기술 경쟁력을 강화했다.

크래프톤 관계자는 "크래프톤은 앞으로도 AI 모델과 에이전트 기술의 고도화를 이어가며, 기술 혁신을 선도해 나갈 계획이다"라고 전했다. [파이낸셜신문=황병우 기자]