OpenAI에서는 GPT-4o 모델에 대한 시스템 카드를 발표하며, 모델의 안전성 평가 및 잠재적 리스크 관리에 대해 설명하였습니다. 또한, Zico Kolter가 이사회의 새로운 구성원으로 합류하였으며, ChatGPT 무료 사용자들을 위한 DALL·E 3 이미지 생성 기능이 출시되었습니다. Alibaba의 Qwen 팀은 새로운 수학 특화 모델 Qwen2-Math를 공개하며, 수학적 문제 해결에 있어 GPT-4o 및 Claude 3.5 모델을 능가하는 성능을 입증하였습니다. 이 외에도 Parler TTS의 고품질 TTS 모델 공개, Mistral AI의 새로운 모델 커스터마이징 및 에이전트 기능 발표, Whisper Medusa의 고속 음성 인식 모델 발표, 그리고 SENSE 및 RAGFoundry의 최신 연구 성과 등이 포함되었습니다.
OpenAI, GPT-4o System Card 발표
링크, 2024년 8월 8일
- OpenAI, GPT-4o 모델의 시스템 카드 공개,
- GPT-4o는 텍스트, 비전, 음성 입력을 처리하고 출력할 수 있는 멀티모달 모델로, 모든 입력과 출력이 동일한 신경망에서 처리됨,
- GPT-4o 모델의 음성 모듈은 232ms에서 320ms 사이의 응답 시간을 보이며, 이는 인간의 대화 반응 시간과 유사함,
- 모델 훈련에 사용된 데이터는 2023년 10월까지의 공개 데이터와 산업 표준 머신러닝 데이터세트, 그리고 독점적인 데이터로 구성됨,
- GPT-4o는 GPT-4 Turbo 대비 비영어권 언어 처리에서 성능이 향상되었으며, 특히 음성 및 비전 이해에서 뛰어난 성능을 발휘,
- 주요 리스크 평가 항목으로는 무단 음성 생성, 스피커 식별, 근거 없는 추론, 민감한 특성 귀속, 비허용 오디오 콘텐츠 생성 등이 있으며, 이러한 리스크에 대한 모델 및 시스템 레벨의 안전 장치가 구현됨,
- Preparedness Framework의 평가에서 사이버 보안, 생물학적 위협, 모델 자율성 카테고리에서 낮은 위험도로 평가되었으며, 설득력 카테고리에서 중간 위험도로 평가됨,
- OpenAI는 GPT-4o 모델을 배포하기 전에 안전성 평가와 외부 레드팀의 테스트를 거쳤으며, 시스템 카드와 함께 Preparedness Framework의 평가 결과를 공유하여 GPT-4o의 안전성과 잠재적 리스크에 대한 종합적인 평가를 제공함.
OpenAI, Zico Kolter 이사 임명
링크, 2024년 8월 8일
- Zico Kolter, OpenAI 이사회의 새 구성원으로 합류하며, AI 안전성 및 강건성 분야에서의 깊이 있는 전문성을 제공,
- Kolter는 Carnegie Mellon University의 머신러닝 학과장이자 AI 모델의 안전성, 강건성 및 데이터 영향을 연구하는 전문가로, 다양한 딥러닝 네트워크 아키텍처와 모델의 강건성 평가 방법론을 개발해옴,
- Kolter는 AI 모델의 취약점을 자동화된 최적화 기법으로 분석하고, 딥러닝 모델에 강력한 제약 조건을 부여하는 기술을 개척,
- 최근에는 대형 언어 모델(LLM)의 안전성을 자동으로 평가하는 혁신적인 방법을 개발하였으며, 이러한 기술적 배경을 바탕으로 OpenAI의 이사회에서 AI 안전성 및 보안 관련 주요 결정을 지원할 예정.
Alibaba, Qwen2-Math 모델 발표
링크, 2024년 8월 8일
- Alibaba Qwen 팀, 수학적 문제 해결에 특화된 Qwen2-Math 모델 시리즈 발표,
- Qwen2-Math 시리즈는 1.5B, 7B, 72B 파라미터로 구성된 모델로, GPT-4o 및 Claude 3.5와 같은 최신 모델을 뛰어넘는 성능을 자랑,
- Olympiad Bench, College Math, MMLU STEM 등 다양한 수학 벤치마크에서 탁월한 성과를 기록, 특히 72B 모델은 Olympiad Bench에서 최고 성능을 달성,
- Qwen2 아키텍처 기반으로 수학적 데이터에 특화된 사전 훈련을 거쳤으며, 추가로 수학 문제를 해결하는 인스트럭션 모델(SFT)을 통해 성능을 강화,
- 이 모델은 체인-오브-생각(Chain-of-Thought) 프롬프트 방식을 활용하여 복잡한 수학 문제를 해결하며, 특히 다단계 수학 문제에서도 뛰어난 성과를 보여줌,
- Qwen2-Math 시리즈의 데이터셋은 수학적 웹 텍스트, 책, 코드, 시험 문제 등 고품질의 수학 데이터를 포함하며, 추가적으로 Qwen2에 의해 생성된 합성 데이터로 구성됨,
- 이 모델은 학습 데이터의 중복을 제거하기 위해 엄격한 데이터 필터링 방법을 적용, 예를 들어 정확한 매칭과 13-그램 중복 제거를 통해 학습 데이터의 오염을 방지.
Parler TTS, 고품질 TTS 모델 출시
링크, 2024년 8월 8일
- Parler TTS 프로젝트, 고품질 텍스트-음성 변환(TTS) 모델인 Parler TTS v1 공개,
- 두 가지 모델 크기(885M 및 2.2B 파라미터)로 제공되며, 45,000시간의 공개 음성 데이터로 훈련됨,
- Torch Compile 및 Static KV 캐시 적용으로 이전 모델 대비 최대 4배 빠른 음성 생성 속도를 자랑,
- Parler TTS Mini는 더 큰 텍스트 인코더로 훈련되었으며, Parler TTS Large는 더 큰 텍스트 및 디코더로 훈련되어 성능 향상,
- Apache 2.0 라이선스 하에 코드베이스와 가중치, 데이터세트가 모두 공개되어 오픈 소스 커뮤니티에서 자유롭게 사용할 수 있음,
- 모델은 더 나은 음성 일관성과 다양한 스피커 선택 옵션을 제공하며, 사용자가 필요에 따라 모델을 세부 조정(fine-tuning)할 수 있음, 단 몇 시간의 데이터로도 추가적인 훈련이 가능.
Mistral AI, 새로운 모델 커스터마이징 및 에이전트 기능 발표
링크, 2024년 8월 7일
- Mistral AI, La Plateforme에서의 모델 커스터마이징 기능 발표,
- 사용자는 Mistral Large 2 및 Codestral과 같은 주력 모델들을 사용자 데이터셋을 이용해 미세 조정 가능,
- 모델 커스터마이징은 기본 프롬프트, few-shot 프롬프팅, 또는 미세 조정(fine-tuning) 방법을 통해 이루어지며, 이를 통해 특정 도메인 지식, 문맥, 또는 톤을 반영한 AI 애플리케이션을 개발할 수 있음,
- 또한, 사용자들이 더 복잡한 워크플로우를 만들 수 있도록 지원하는 에이전트 기능의 초기 버전을 발표, 여러 에이전트를 사용해 조직 내에서 쉽게 공유 가능,
- Mistralai 라이브러리의 1.0 버전이 릴리스되었으며, 이는 Python 및 Typescript에서 사용 가능하고, 사용 편의성과 일관성이 크게 개선됨.
Whisper Medusa, 고속 음성 인식 모델 발표
링크, 2024년 8월 8일
- Whisper Medusa 모델, 기존 Whisper 모델을 기반으로 한 고속 음성 인식 및 번역 모델 발표,
- Medusa 헤드 구조를 통해 각 반복에서 여러 토큰을 예측하여 속도 향상 (최소한의 WER 저하),
- 이 모델은 LibriSpeech 데이터셋에서 훈련되었으며, 영어 오디오에 최적화된 성능을 제공,
- Medusa 모델은 대형 언어 모델(LLM)에서 사용된 Medusa 헤드를 ASR(Automatic Speech Recognition)에 적용하여 성능을 최적화, Whisper 모델보다 150% 더 빠른 음성 생성이 가능.
SENSE 모델, Text-to-SQL 데이터 합성 연구 발표
링크, 2024년 8월 6일
- SENSE 모델, 텍스트-데이터베
이스(SQL) 질의 변환에서 최신 성능을 기록한 연구 발표,
- 대형 모델의 합성 데이터와 작은 모델의 오류 데이터를 통합해 데이터 다양성을 강화하고, 실행 피드백을 통해 학습하는 방법론을 제안,
- 선호 학습(Preference Learning)을 활용해 올바른 샘플과 오류 샘플 모두에서 학습을 유도,
- SPIDER 및 BIRD 벤치마크에서 오픈 소스 모델과 폐쇄형 모델 간의 성능 격차를 줄이며 최신 성과 달성.
RAGFoundry, RAG 활용을 위한 오픈 소스 프레임워크 발표
링크, 2024년 8월 5일
- RAGFoundry, Retrieval-Augmented Generation (RAG) 시스템을 위한 통합 프레임워크 공개,
- 이 프레임워크는 데이터 생성, 훈련, 추론 및 평가를 하나의 워크플로우로 통합하여, 데이터 증가형 데이터셋 생성 및 평가를 가능하게 함,
- LLMs의 성능을 향상시키기 위해 다양한 RAG 기법을 신속하게 프로토타이핑하고 실험할 수 있도록 지원,
- Llama-3 및 Phi-3 모델을 RAGFoundry로 강화하여 지식 집약적 데이터셋에서 일관된 성능 개선을 달성,
- 오픈 소스로 코드가 제공되어 연구자와 개발자들이 자유롭게 활용 가능.
Sources
This GPT assists users by creating a detailed daily newspaper in Korean based on provided links. It follows these steps: read the content, summarize each content with detailed points, and write a report. The report format is:
(today’s date in 년 월 일) AI 소식,
Summary
(overall short summary, make summary with good details. for Summary section, explain the details starting with company name, e.g. OpenAI에서는 ~~~를 발표하였습니다.)
company name, Title
링크, date
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
company name, Title
링크, date
링크, date,
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
…
1 | ### |