오늘 AI 기술 분야에서는 2024년 노벨 물리학상 및 화학상 수상 소식과 함께, OpenAI, Meta, Rhymes AI, Microsoft 등의 주요 기업들이 최첨단 AI 모델과 기술을 발표하며 중요한 발전을 이루었습니다. OpenAI는 머신러닝 엔지니어링 평가를 위한 새로운 벤치마크와 다중 에이전트 시스템 프레임워크를 공개했으며, Meta는 텍스트에서 고해상도 비디오를 생성하는 Movie Gen 모델을 발표했습니다. Rhymes AI는 새로운 멀티모달 Mixture-of-Experts(MoE) 모델을 공개하여 경쟁력을 강화했으며, Microsoft는 새로운 차별화된 어텐션 메커니즘을 기반으로 하는 Transformer 모델을 선보여 주목받고 있습니다. 이 외에도 다양한 AI 모델들이 텍스트-비디오 생성, 단백질 구조 예측, 텍스트-음성 변환 등에서 혁신적인 진전을 이루며, AI 연구와 실무 적용에서 커다란 영향을 미치고 있습니다.
The Royal Swedish Academy of Sciences, 2024년 노벨 물리학상 발표
링크, 2024년 10월 8일
- 2024년 물리학상은 인공 신경망을 기반으로 한 기계 학습 기술의 발전에 크게 기여한 John J. Hopfield와 Geoffrey E. Hinton에게 수여
- Hopfield는 연상 기억(Associative Memory) 모델인 Hopfield Network를 제안, 물리학에서 스핀 시스템을 설명하는 에너지를 기반으로 이미지와 패턴을 저장하고 복원하는 방식을 제시
- Hinton은 Hopfield 네트워크를 기반으로 한 Boltzmann Machine을 통해 패턴 인식 기술을 발전시켰으며, 이는 통계 물리학의 도구를 활용하여 자율적인 데이터 학습과 패턴 인식에 중요한 기여를 함
- 두 연구자는 1980년대 이후 신경망을 이용한 인공 지능 기술의 토대를 마련하였으며, 이를 통해 현재의 심층 학습(Deep Learning)과 머신러닝 모델의 발전을 가능하게 함
The Royal Swedish Academy of Sciences, 2024년 노벨 화학상 발표
링크, 2024년 10월 9일
- David Baker는 컴퓨터 기반 단백질 설계(Computational Protein Design)로 수상, 이 설계 기술을 통해 새로운 유형의 단백질을 창조하고 그 활용 가능성을 확장
- Demis Hassabis와 John Jumper는 AlphaFold2 모델을 통해 단백질의 3D 구조를 예측하는 문제를 해결, 이는 지난 50년간 단백질 연구에서 가장 큰 난제로 여겨졌던 문제
- AlphaFold2는 AI 모델을 통해 20개의 아미노산 배열에서 단백질의 3차원 구조를 예측하며, 2020년 이후 200만 명 이상의 연구자가 이 기술을 활용해 항생제 내성 이해, 플라스틱 분해 효소 설계 등 다방면에서 연구를 진행
- AlphaFold2는 전 세계적으로 단백질 기능 연구, 신약 개발, 바이오 엔지니어링 등에서 혁신적인 기여를 하고 있음
OpenAI, MLE-bench 발표
링크, 2024년 10월 10일
- OpenAI는 머신러닝 엔지니어링 역량을 측정하기 위한 벤치마크 도구 MLE-bench를 발표
- MLE-bench는 Kaggle의 75개 대회에서 실제 ML 엔지니어링 기술을 평가하며, 데이터셋 준비, 모델 학습, 실험 실행 등 실무에서 중요한 기술들을 테스트
- OpenAI의 o1-preview 모델은 AIDE scaffolding을 사용하여 벤치마크에서 AI 에이전트가 경쟁자들과 비교하여 얼마나 효율적으로 작업을 수행할 수 있는지 평가, 16.9%의 대회에서 Kaggle 동메달 수준의 성과를 달성
- 추가적으로, 자원 스케일링(Resource Scaling) 및 사전 학습(Pre-training)에서의 오염(Contamination)이 모델 성능에 미치는 영향을 분석하여 AI 에이전트의 성능 최적화에 관한 인사이트를 제공
OpenAI, Swarm 라이브러리 출시
링크, 2024년 10월 10일
- Swarm은 다중 에이전트 시스템을 구축할 수 있는 경량 라이브러리로, 무상태(stateless) 추상화를 통해 여러 에이전트 간의 상호작용 및 제어 흐름을 관리할 수 있음
- 각 에이전트는 고유의 **역할(Role)**과 **함수 세트(Available Functions)**를 정의하고, 대화 흐름이나 특정 기준에 따라 다른 에이전트로 제어권을 동적으로 넘길 수 있음
- Context Variables를 사용하여 대화 상태를 유지하고 에이전트 간 정보 공유를 가능하게 함
- Swarm은 실시간 상호작용을 위한 스트리밍 응답을 지원하며, 다양한 에이전트의 협업 및 제어에 유연성을 제공함
- 이 라이브러리는 다양한 실험적 기능을 제공하여 다중 에이전트 시스템을 쉽게 구축하고 테스트할 수 있도록 설계됨
Meta, Movie Gen 모델 발표
링크, 2024년 10월 4일
- Meta는 고품질 1080p HD 비디오를 텍스트에서 생성할 수 있는 Movie Gen 모델을 발표
- 이 모델은 30B 파라미터를 사용하며, 최대 16초 길이의 비디오를 생성할 수 있는 73K 비디오 토큰을 활용하여 높은 해상도와 긴 문맥을 처리 가능
- 비디오 생성 외에도 사용자 이미지를 기반으로 한 개인화된 비디오 생성 및 텍스트 기반 비디오 편집 기능을 제공, 배경 변경 또는 스타일 변경과 같은 전역 편집뿐 아니라 개별 요소 추가, 제거 등 정밀한 편집이 가능
- 이 모델은 텍스트-비디오 생성, 비디오-오디오 생성, 비디오 편집 등에서 최첨단 성능을 보여주며, 다양한 연구와 창의적 작업에 활용 가능
Pyramid Flow, SD3 비디오 생성 모델 발표
링크, 2024년 10월 11일
- Pyramid Flow SD3는 2B 파라미터의 Diffusion Transformer(DiT) 모델로, 10초 길이의 768p 해상도, 24fps 비디오를 생성할 수 있는 텍스트-비디오 생성 모델을 발표
- 이 모델은 Flow Matching 기반의 효율적인 학습을 통해 기존 비디오 생성 모델 대비 빠르고 효율적인 비디오 생성을 지원
- 두 가지 변형 모델을 제공하며, MIT 라이선스 하에 공개되어 오픈 소스 커뮤니티와의 협업이 가능
- 오픈 데이터셋을 사용하여 훈련되었으며, 20.7K GPU 시간 동안 학습되어 효율성을 극대화함
Rhymes AI, Aria 모델 발표
링크, 2024년 10월 10일
- Rhymes AI는 Aria라는 첫 오픈 멀티모달 Mixture-of-Experts(MoE) 모델을 발표, 3.9B 활성 파라미터로 텍스트, 이미지, 비디오, 코드 등의 다양한 입력을 처리 가능
- 64K 토큰의 긴 문맥을 처리할 수 있으며, 256프레임 비디오를 10초 만에 캡션할 수 있는 강력한 성능을 제공
- Aria는 경쟁사 모델들(GPT-4o 및 Gemini Flash)을 뛰어넘는 성능을 자랑하며, 멀티모달 데이터를 효율적으로 처리
- 이 모델은 Apache 2.0 라이선스 하에 공개되었으며, 오픈 소스 커뮤니티에서 쉽게 확장 가능
Microsoft, Diff Transformer 발표
링크, 2024년 10월 8일
- Diff Transformer는 차별화된 어텐션 메커니즘을 도입한 새로운 Transformer 아키텍처로, 기존 self-attention 메커니즘의 한계를 극복
- **차별적 어텐션(Differential Attention)**는
두 개의 softmax 어텐션 맵 간의 차이를 계산하여 잡음을 제거하고 중요한 정보에 집중하는 **희소 어텐션 패턴(Sparse Attention Patterns)**을 생성
- 이 모델은 장문 데이터 처리(long-context modeling) 및 핵심 정보 검색에서 기존 Transformer 모델보다 우수한 성능을 발휘
- 35-40% 적은 파라미터와 학습 토큰으로 기존 Transformer 대비 유사한 성능을 발휘하며, 환각 현상 감소 및 문맥 학습 강화에 도움을 줌
- 특히 플래시 어텐션(FlashAttention) 커널을 활용하여 기존 하드웨어에서 쉽게 구현 가능
F5-TTS, 텍스트-음성 변환 모델 발표
링크, 2024년 10월 9일
- F5-TTS는 Flow Matching 기반의 비자발적(Non-Autoregressive) 텍스트-음성 변환 시스템으로, 빠르고 효율적인 음성 합성 기능을 제공
- ConvNeXt를 사용하여 텍스트 표현을 개선하고 음성과의 정렬을 쉽게 함
- 이 모델은 학습과 추론 속도에서 기존 TTS 모델보다 빠른 성능을 제공하며, 감정 기반 음성 합성, 코드 전환, 속도 제어 기능을 지원
- 100K 시간의 데이터를 바탕으로 훈련되어 자연스럽고 표현력 있는 음성 합성 성능을 자랑하며, 상업적 이용이 가능한 CC-BY 라이선스로 제공됨
Sources
This GPT assists users by creating a detailed daily newspaper in Korean based on provided links. It follows these steps: read the content, summarize each content with detailed points, and write a report. The report format is:
(today’s date in 년 월 일) AI 소식,
Summary
(overall short summary, make summary with good details. for Summary section, explain the details starting with company name, e.g. OpenAI에서는 ~~~를 발표하였습니다.)
company name, Title
링크, date
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
company name, Title
링크, date
링크, date,
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
…
1 | ### |
기술적으로 최대한 자세하게 적어. 9개의 기사가 있고 하나도 빼먹지 말고 적어.