OpenAI는 2024년 10월 1일, 새로운 Realtime API를 공개하며 실시간 음성 대 음성 상호작용을 보다 자연스럽고 빠르게 구현할 수 있는 API를 제공한다고 발표했습니다. 이와 더불어 Vision Fine-Tuning API, Prompt Caching, Model Distillation 등의 혁신적인 기능들을 발표하며 GPT-4o 모델의 성능 향상을 지원합니다. 특히, 최근 10억 달러 규모의 새로운 신용 한도를 확보함으로써 연구 개발과 인프라 확장에 필요한 재정적 유연성을 크게 확보했습니다. Black Forest Labs는 FLUX1.1 [pro]라는 텍스트-이미지 생성 모델을 발표하며, 6배 향상된 속도와 더 높은 이미지 품질을 제공합니다. Google Cloud는 Vertex AI Prompt Optimizer의 퍼블릭 프리뷰를 통해 프롬프트 최적화를 자동으로 수행하는 기술을 소개했습니다. Beijing Academy of Artificial Intelligence(BAAI)는 Emu3라는 새로운 멀티모달 모델을 발표했고, Salesforce는 RAG(검색 강화 생성)를 위한 SFR-RAG 모델을 공개했습니다.
OpenAI, Realtime API 발표
링크, 2024년 10월 1일
- Realtime API 소개: OpenAI는 실시간 음성 대 음성 상호작용을 가능하게 하는 Realtime API를 발표했습니다. 이 API는 ChatGPT의 고급 음성 모드와 유사한 방식으로 작동하며, 저지연 및 멀티모달 음성 경험을 지원합니다.
- 기술적 구현: 이 API는 WebSocket 연결을 통해 지속적인 메시지 교환이 가능하도록 설계되었습니다. 특히 API의 핵심은 자연스러운 대화를 위해 스트리밍 오디오 입력과 출력을 지원하며, 사용자가 대화 중간에 끼어드는 것을 감지하고 이에 자동으로 대응합니다.
- 적용 사례: Healthify와 Speak 같은 초기 파트너는 Realtime API를 활용해 자연스러운 AI 기반 음성 상호작용을 구현했습니다. 예를 들어 Healthify는 영양 및 피트니스 앱에서 AI 코치와의 대화를 지원하며, Speak는 언어 학습 애플리케이션에서 음성 역할극 기능을 제공합니다.
OpenAI, Vision Fine-Tuning API 도입
링크, 2024년 10월 1일
- Vision Fine-Tuning API: 이 API는 GPT-4o 모델에서 이미지와 텍스트를 동시에 처리할 수 있도록 Fine-Tuning 기능을 확장한 것입니다. 개발자는 이미지 및 텍스트 데이터를 결합해 모델을 미세 조정할 수 있으며, 이를 통해 시각 인식, 객체 탐지, 시각 검색 등에서 성능을 크게 향상시킬 수 있습니다.
- 기술적 구현: Fine-Tuning 과정은 텍스트와 유사한 방식으로 진행됩니다. 이미지 데이터를 일정한 포맷으로 준비해 업로드하면, 100장 이상의 이미지로도 성능을 향상시킬 수 있으며, 더 많은 데이터를 사용하면 더 큰 성능 향상을 기대할 수 있습니다.
- 적용 사례: Grab은 도로 이미지를 사용해 지도 데이터를 자동화하는데 Vision Fine-Tuning API를 사용해 차선 수 및 제한 속도 표지판의 정확도를 각각 20%, 13% 향상시켰습니다. Automat은 200장의 스크린샷을 사용해 UI 요소 식별 정확도를 272% 향상시켰습니다.
- 가격: Vision Fine-Tuning은 GPT-4o 모델에서 제공되며, 2024년 10월 31일까지 무료로 1M 토큰을 제공합니다.
OpenAI, Prompt Caching 기능 도입
링크, 2024년 10월 1일
- Prompt Caching 소개: OpenAI는 API 사용 시 자주 사용되는 프롬프트를 캐시함으로써 처리 비용과 지연 시간을 줄이는 Prompt Caching 기능을 도입했습니다. 캐시된 프롬프트는 기본 프롬프트보다 50% 할인된 비용으로 처리됩니다.
- 기술적 구현: Prompt Caching은 1,024 토큰 이상의 프롬프트에 대해 자동으로 작동하며, 최대 128개의 토큰을 추가 캐싱할 수 있습니다. 이 기능은 GPT-4o, GPT-4o mini, o1-preview 등의 모델에서 지원됩니다.
- 활용 사례: 긴 대화나 동일한 프롬프트를 반복적으로 사용하는 애플리케이션에서 성능을 크게 향상시킬 수 있으며, 프롬프트 캐싱을 통해 비용을 절감할 수 있습니다.
- 가격: 캐시된 입력 토큰은 기본 입력 토큰의 50% 가격으로 제공되며, 출력 토큰은 기존과 동일한 가격으로 처리됩니다.
OpenAI, Model Distillation 기능 발표
링크, 2024년 10월 1일
- Model Distillation 소개: 대형 모델의 출력을 사용해 더 작은 모델을 미세 조정함으로써 비용 효율적인 모델을 만드는 Model Distillation 기능이 발표되었습니다. 이를 통해 더 작은 모델에서도 대형 모델과 유사한 성능을 얻을 수 있습니다.
- 기술적 구현: Stored Completions 기능을 통해 대형 모델의 입력과 출력을 저장하고, 이를 학습 데이터로 활용해 더 작은 모델을 Fine-Tuning할 수 있습니다. 또한, Evals 기능을 사용해 모델 성능을 자동으로 평가하고, Fine-Tuning 과정의 성과를 지속적으로 모니터링할 수 있습니다.
- 적용 사례: 대규모 모델의 성능을 소형 모델로 전이시켜 비용 효율적인 운영이 가능하며, 특히 GPT-4o mini와 같은 소형 모델에 적용하면 성능 대비 비용을 최적화할 수 있습니다.
OpenAI, 10억 달러 규모의 새로운 신용 한도 확보
링크, 2024년 10월 3일
- 신용 한도: OpenAI는 66억 달러의 새로운 투자와 함께 10억 달러 규모의 신용 한도를 확보했습니다. 이를 통해 AI 연구 및 인프라 확장에 필요한 재정적 유연성을 확보할 수 있습니다.
- 기술적 의미: OpenAI는 이번 신용 한도를 통해 AI 연구 개발에 필요한 자금을 더욱 유연하게 조달할 수 있으며, 특히 인프라 확장과 새로운 프로젝트 투자에 더욱 적극적으로 나설 수 있게 되었습니다.
Black Forest Labs, FLUX1.1 [pro] 출시
링크, 2024년 10월 2일
- FLUX1.1 [pro] 소개: Black Forest Labs는 이전 모델보다 6배 빠르고 향상된 이미지 품질을 제공하는 FLUX1.1 [pro]를 발표했습니다.
- 기술적 구현: FLUX1.1 [pro]는 텍스트-이미지 모델로, 이미지 생성 속도를 크게 향상시킴과 동시에 더 나은 품질의 이미지를 생성할 수 있도록 개선되었습니다. 또한, Artificial Analysis 리더보드에서 최고 점수를 기록하며, FLUX 모델의 성능이 입증되었습니다.
- API 지원: FLUX1.1 [pro]는 Black Forest Labs의 API를 통해 제공되며, 이미지를 생성하는 데 $0.04의 비용이 청구됩니다.
Google Cloud, Vertex AI Prompt Optimizer 공개
링크, 2024년 9월 27일
- Vertex AI Prompt Optimizer 소개: Google Cloud는 Vertex AI Prompt Optimizer의 퍼블릭 프리뷰를 발표하며, 이를 통해 프롬프트를 자동으로 최적화하는 기능을 제공합니다.
- 기술적 구현: Prompt Optimizer는 LLM 간의 프롬프트를 이전하거나 최적화하는 작업을 자동화합니다. 이 기능은 Google Research의 NeurIPS 2024 논문에서 발표된 자동 프롬프트 최적화(APO) 방법을 기반으로 하며, 최적의 프롬프트를 생성하기 위해 다양한 평가 지표를 활용합니다.
- 적용 사례: AdVon Commerce는 이 기능을 사용해 상품 페이지 생성 속도를 100배 향상시켰으며, Augmedix는 의료 문서 생성에서
66%에서 86%로 성능을 크게 향상시켰습니다.
Beijing Academy of Artificial Intelligence, Emu3 발표
링크, 2024년 9월 30일
- Emu3 소개: Beijing Academy of Artificial Intelligence는 텍스트, 이미지, 비디오를 동시에 처리하는 멀티모달 모델 Emu3를 발표했습니다. 이 모델은 간단한 ‘다음 토큰 예측’ 기법을 사용해 모든 데이터 유형을 하나의 시퀀스로 처리합니다.
- 기술적 구현: Emu3는 SBER-MoVQGAN이라는 특수 토크나이저를 사용해 이미지를 4,096개의 토큰으로 변환한 후, 이를 시퀀스로 처리합니다. 이 과정에서 이미지나 텍스트를 별도로 처리할 필요 없이 하나의 시퀀스로 통합하여 처리합니다.
- 적용 사례: Emu3는 SDXL과 같은 이미지 생성 모델에 필적하는 성능을 보여주며, 비디오 생성에서도 새로운 혁신을 달성했습니다.
Salesforce, SFR-RAG 모델 발표
링크, 2024년 9월 30일
- SFR-RAG 소개: Salesforce는 검색 강화 생성(RAG)을 위한 SFR-RAG 모델을 발표했습니다. 이 모델은 9B 파라미터를 가진 모델로, 문맥 이해와 다단계 질문 응답에 특화되었습니다.
- 기술적 구현: SFR-RAG는 새로운 확장형 대화 템플릿을 사용해 문맥을 제어하며, Multi-Hop Questions와 Reliable Citations 등 다양한 데이터로 학습되었습니다.
- 적용 사례: 여러 RAG 벤치마크에서 OpenAI GPT-4o 및 Cohere Command-R+와 유사한 성능을 보여주며, 소규모 모델이 더 큰 모델을 대체할 수 있음을 입증했습니다.
Sources
This GPT assists users by creating a detailed daily newspaper in Korean based on provided links. It follows these steps: read the content, summarize each content with detailed points, and write a report. The report format is:
(today’s date in 년 월 일) AI 소식,
Summary
(overall short summary, make summary with good details. for Summary section, explain the details starting with company name, e.g. OpenAI에서는 ~~~를 발표하였습니다.)
company name, Title
링크, date
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
company name, Title
링크, date
링크, date,
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
…
1 | ### |
기술적으로 최대한 자세하게 적어. 12개의 기사가 있고 하나도 빼먹지 말고 적어.