본문 바로가기
IT

오픈AI, 새로운 음성 AI 모델 3종 공개! AI 에이전트 시장의 새로운 변수될까?

by 러닝숲지기 2025. 3. 24.

목차

    반응형

    오픈AI, 새로운 음성 AI 모델 3종 공개! AI 에이전트 시장의 새로운 변수될까?

    오픈AI의 새로운 음성 모델 3종 공개

    오픈AI가 새로운 음성 인공지능(AI) 모델 3종을 발표했습니다. 이번 발표로 AI 애플리케이션에 음성 기능을 더욱 쉽게 적용할 수 있게 되었으며, AI 에이전트 시장에 새로운 변화가 예상됩니다.

     

    오픈AI는 API 서비스에 새로운 음성 모델을 추가했습니다:

    • GPT-4o-트랜스크라이브 (gpt-4o-transcribe)
    • GPT-4o-미니-스크라이브 (gpt-4o-mini-transcribe)
    • GPT-4o-미니-TTS (gpt-4o-mini-tts)

    새로운 모델의 특징

    음성-텍스트 변환 (STT)

    GPT-4o-트랜스크라이브와 GPT-4o-미니-스크라이브는 기존 오픈AI의 음성 인식 모델인 '위스퍼(Whisper)'보다 더 낮은 오류율과 강력한 성능을 제공합니다.

     

    특히 GPT-4o-트랜스크라이브는 영어에서 2.46%, 한국어에서 4.07%의 낮은 오류율을 기록했습니다.

    텍스트-음성 변환 (TTS)

    GPT-4o-미니-TTS는 단순한 음성 변환을 넘어 억양, 피치, 톤 등의 다양한 조정이 가능합니다. 사용자는 원하는 감정을 반영하여 더욱 자연스러운 음성을 생성할 수 있습니다.

    API 가격 및 이용 가능성

    오픈AI는 API 가격을 다음과 같이 책정했습니다:

    • GPT-4o-트랜스크라이브: 음성 입력 100만 토큰당 6달러
    • GPT-4o-미니-스크라이브: 음성 입력 100만 토큰당 3달러
    • GPT-4o-미니-TTS: 텍스트 입력 100만 토큰당 0.6달러, 음성 출력 100만 토큰당 12달러

    AI 에이전트 시장에 미치는 영향

    이번 모델 출시로 AI 기반 가상 비서, 챗봇, 음성 인터페이스를 활용한 다양한 서비스가 더욱 정교해질 것으로 예상됩니다.

    AI 에이전트의 핵심은 직관적인 인터페이스이며, 음성 기반 AI가 그 중심이 될 것입니다. 오픈AI의 새로운 모델이 AI 에이전트 시장의 발전을 가속화할 것으로 보입니다.

     

    반응형