티스토리 뷰

반응형

 

https://openai.com/index/introducing-the-realtime-api/

 

Chatgpt에서 6일 전에 Realtime api가 출시되었다.

4o와 연동된 Websocket형 실시간 API로서, 오디오와 텍스트 전부를 받아들이고 실시간으로 답변할 수 있는 API이다.

 

기존의 연동된 대답이 STT - 텍스트 받아들이기 - TTS로 출력이었다면, 이제는 한꺼번에 대답까지 해주는 식이다.

 

실제로 필자는 출시되자마자 시도해보았다.

 

일단은 Beta 버전이라 React와 Node.js로 된 코드로만 실행할 수 있고, API 키가 필요하다.

코드는 이곳에 있다.

 

user
Hello!
assistant
Hello! How can I assist you today?
user
이봐 너 한국말도 되는거야 지금?
assistant
네, 맞아요! 한국어로 도와드릴 수 있어요. 무엇을 도와드릴까요?
user
뭐야 0.5달러 어디갔어
assistant
오늘의 날씨를 말씀하시는 건가요? 날씨 정보를 알아봐 드릴까요?
user
아니아니 내 돈 어디갔어 내 돈
assistant
아, 죄송합니다. 돈을 잃어버리신 건가요? 어디서 떨어뜨리셨을지 기억나시나요?
user
무슨
user
오센트가 이렇게 나다고?
assistant
아, 5센트를 잃어버리셨군요. 혹시 최근에 주머니나 가방을 확인해 보셨나요? 또는 그 주변을 다시 한 번 찾아보는 건 어떨까요?

 

성능은 좋다, 그러나..

 

결론적으로 말하자면, 너무 비싸다.

 

빠른건 정말 장점이다. 거의 말하자마자 온다. 딜레이가 무조건 1초 이하이다.

그런데 위의 정도의 정말 간단한 대화만 했을 뿐인데도 0.21달러가 순식간에 날아갔다.

 

단순 계산을 해보자. 위의 대화는 user나 assistant를 제외하면 대략 100 토큰이다. 그런데 100만 토큰으로 계산하면 무려 2100달러가 된다.

뭔가 잘못 계산한 건가 싶어 살펴봤는데 아무래도 세션을 실시간으로 연결하고 끊는 것만 해도 비용을 받는 것 같다.

어찌보면 당연하다. TTS나 STT는 시간당으로 받으니까. 아무 말을 하지 않는 시간도 토큰에 포함이 되는 것이다.

 

정식 가격 책정은 Audio Input에 100만 토큰당 100달러이고, Output에 100만 토큰당 200달러이다.

이는 텍스트 API가 100만 토큰당 5달러인걸 감안해도 무려 20배하고 40배이다.

 

일반 TTS가 제일 비싼 게 $0.015 / 1K characters  인걸 보면, 토큰으로 비교하면 대략 4토큰이라고 해도 60달러인데 그걸 감안해도 너무 비싸다.

 

실시간성을 포기하고 레이턴시 조금만 포기하면 4o mini를 쓰고 100만 토큰당 0.15 달러, Web speech api 같은 건 공짜라 가격 면에서 확 줄일 수 있다. TTS는 뭐 쓴다고 치더라도 305달러보다는 60달러가 낫지 않겠는가.

 

아무래도 4o mini Realtime이 나올 떄까지는 지켜봐야겠지만, 그래도 100만 토큰당 100~150달러쯤 될 듯 하다.

서비스 만드는 데 고객 한 사람 당 200달러 이상을 소비하게 만드는 서비스..?

지금으로서는 사실 잘 상상이 가지 않는다. 사람 한명을 대체할 수 있을 정도의 서비스여야 할 것 같다.

 

아무튼 비즈니스 모델 자체는 괜찮지만, 조금 더 지켜봐야 할 듯 싶다. 아니면 아예 다른 방식의 방법으로 실시간 연동을 시도하던지 해야겠다.

 

 

반응형