목차
반응형
오픈AI, 새로운 음성 AI 모델 3종 공개! AI 에이전트 시장의 새로운 변수될까?
오픈AI의 새로운 음성 모델 3종 공개
오픈AI가 새로운 음성 인공지능(AI) 모델 3종을 발표했습니다. 이번 발표로 AI 애플리케이션에 음성 기능을 더욱 쉽게 적용할 수 있게 되었으며, AI 에이전트 시장에 새로운 변화가 예상됩니다.
오픈AI는 API 서비스에 새로운 음성 모델을 추가했습니다:
- GPT-4o-트랜스크라이브 (gpt-4o-transcribe)
- GPT-4o-미니-스크라이브 (gpt-4o-mini-transcribe)
- GPT-4o-미니-TTS (gpt-4o-mini-tts)
새로운 모델의 특징
음성-텍스트 변환 (STT)
GPT-4o-트랜스크라이브와 GPT-4o-미니-스크라이브는 기존 오픈AI의 음성 인식 모델인 '위스퍼(Whisper)'보다 더 낮은 오류율과 강력한 성능을 제공합니다.
특히 GPT-4o-트랜스크라이브는 영어에서 2.46%, 한국어에서 4.07%의 낮은 오류율을 기록했습니다.
텍스트-음성 변환 (TTS)
GPT-4o-미니-TTS는 단순한 음성 변환을 넘어 억양, 피치, 톤 등의 다양한 조정이 가능합니다. 사용자는 원하는 감정을 반영하여 더욱 자연스러운 음성을 생성할 수 있습니다.
API 가격 및 이용 가능성
오픈AI는 API 가격을 다음과 같이 책정했습니다:
- GPT-4o-트랜스크라이브: 음성 입력 100만 토큰당 6달러
- GPT-4o-미니-스크라이브: 음성 입력 100만 토큰당 3달러
- GPT-4o-미니-TTS: 텍스트 입력 100만 토큰당 0.6달러, 음성 출력 100만 토큰당 12달러
AI 에이전트 시장에 미치는 영향
이번 모델 출시로 AI 기반 가상 비서, 챗봇, 음성 인터페이스를 활용한 다양한 서비스가 더욱 정교해질 것으로 예상됩니다.
AI 에이전트의 핵심은 직관적인 인터페이스이며, 음성 기반 AI가 그 중심이 될 것입니다. 오픈AI의 새로운 모델이 AI 에이전트 시장의 발전을 가속화할 것으로 보입니다.
반응형
'IT' 카테고리의 다른 글
일론 머스크의 xAI, API에 이미지 생성 기능 추가… 새로운 수익 모델 창출하나? (0) | 2025.03.24 |
---|---|
클로드 AI, 드디어 웹 검색 기능 추가! AI 챗봇 경쟁 본격화 (0) | 2025.03.24 |
AI 디지털 교과서 도입, 그 의미와 과제 (0) | 2025.03.22 |
유발 하라리, AI의 위험성과 인류의 대응 방안 (0) | 2025.03.21 |
구글 제미나이 2.0, 네이티브 이미지 생성 기능으로 AI 경쟁 판도 바꾼다 (0) | 2025.03.21 |