Hello, AFM Team!

AFM은 Audio Foundation Model의 약자로, 마음에이아이의 Audio Foundation Model 팀은 기계와의 음성 대화를 위한 conversational agent의 핵심 모델(TTS, STT, MLLM)을 연구하고, 클라우드 혹은 온디바이스 환경에서 자연스럽고 지능적인 대화 경험을 구현하는 것을 목표로 하고 있습니다.

On-Device Conversational AI

대화형 인공지능(Conversational AI)은 사람과 자연스럽게 소통하는 AI 기술로 챗봇, 음성 비서, 고객 지원 시스템 등 다양한 인터랙티브 서비스에 적용되며 빠르게 발전하고 있습니다. 특히 스마트 기기의 보급이 늘고, 개인화된 AI 서비스에 대한 수요가 증가하면서 On-Device Conversational AI 의 중요성이 점점 커지고 있습니다. AFM 팀은 On-Device Conversational AI 솔루션을 위한 음성 AI를 집중적으로 연구·개발하고 있습니다.

Qualcomm 과의 협업

AFM 팀은 최근 글로벌 반도체 기업 Qualcomm과 협력하여, 10만 원대의 경제적인 AI 칩에 Conversational AI 기술(STT+LLM+TTS)을 성공적으로 구현했습니다.

이 기술은 CES 2025에서 자사 부스와 Qualcomm 부스를 통해 공개되었으며, 이를 계기로 마음AI 는 Qualcomm의 공식 파트너사로 자리잡게 되었습니다. 이번 협업은 고성능 온디바이스 AI 기술의 대중화에 한 걸음 더 가까워지는 중요한 이정표가 되었습니다.

마음AI, 올해 CES서 퀄컴과 협업성과 최초 공개 성료 - 머니투데이

마음AI, 퀄컴 'IoT 엑셀러레이터 프로그램' 공식 멤버 등록

End-to-End Deep Learning for Voice Conversation

AFM 팀은 기존 음성대화 시스템에서 사용해 온 단계별 모듈 방식(ASR → 언어 모델 → 응답 생성 → TTS)을 뛰어넘어, ASR·TTS·LLM을 하나의 End-to-End 시스템으로 통합하여 상품화하는 연구를 진행 중입니다.

기존 시스템은 모듈 간 정보 손실, 지연(latency) 증가, 최적화 난이도 등의 문제를 안고 있었습니다. 이를 해결하기 위해 End-to-End로 학습 가능한 단일 모델을 구축하고, 음성 입력을 받아 바로 이해하고 음성으로 응답할 수 있는 방안을 모색하고 있습니다.

자연스러운 대화 흐름: 모듈 간 정보 손실을 최소화하고 깊이 있는 문맥 이해
초저지연(ultra-low latency) 응답: 단계별 과정 없이 한 모델로 바로 음성 입력→출력
온디바이스 최적화: 디바이스 자체에서 구동 가능한 경량화된 End-to-End 모델 개발

이러한 통합 접근 방식을 통해 더 풍부하고 매끄러운 사용자 경험을 제공할 계획입니다.

함께할 Audio AI Scientist을 찾습니다! 📢

우리는 온디바이스 AI, Audio LLM, AI Call Center(AICC) 솔루션 등 다양한 음성 대화 시스템 분야에서 함께 성장하며 도전할 인재를 기다리고 있습니다. (산업기능요원(보충역), 전문연구요원 지원 가능)