Summary
Kyutai에서는 Moshi라는 실시간 네이티브 멀티모달 모델을 발표하였습니다. Moshi는 감정을 표현하고 이해하며, 음성을 생성하고 들을 수 있는 기능을 갖추고 있습니다. InternLM에서는 IXC-2.5라는 새로운 비전 언어 모델을 공개하였습니다. 이 모델은 고해상도 이미지 이해와 멀티턴 대화를 지원하며, 다양한 벤치마크에서 우수한 성능을 보였습니다. NVIDIA는 DoRA라는 새로운 파인튜닝 방법을 소개하였고, Meta에서는 다중 토큰 예측을 사용한 새로운 접근법을 발표하였습니다. 마지막으로 Hugging Face에서는 RT-DETR이라는 실시간 객체 탐지 모델을 지원하게 되었습니다.
Kyutai, Moshi 발표
Kyutai, 2024년 7월 3일,
Kyutai
- Kyutai는 실시간 네이티브 멀티모달 모델 Moshi를 발표
- Moshi는 감정을 표현하고 이해하는 능력 보유
- 감정을 담아 “프랑스 억양”으로 말하기 가능
- 음성 생성 및 청취 기능 제공
- 텍스트와 오디오 혼합 데이터를 공동 훈련
- Kyutai가 제작한 Helium 7B LLM의 합성 텍스트 데이터 사용
- 100k “oral-style” 합성 대화 데이터로 미세 조정
- 별도의 TTS 모델로 생성된 합성 데이터를 사용하여 음성 학습
- 200ms의 종단간 지연 시간 달성
- MacBook이나 일반 GPU에서도 실행 가능한 소형 버전 존재
- AI 생성 오디오를 감지하는 워터마킹 기능 포함
- 오픈 소스로 공개 예정
- Moshi는 오픈 연구와 AI 생태계 발전에 기여할 것
InternLM, InternLM-XComposer-2.5 공개
arXiv, 2024년 7월 3일,
InternLM
- IXC-2.5는 다양한 텍스트-이미지 이해와 작문 응용에 탁월
- 7B 파라미터를 사용하는 비전 언어 모델
- 24K의 교차 이미지-텍스트 문맥으로 훈련
- RoPE 보간 기술로 96K 긴 문맥 지원
- 고해상도 이미지와 동영상 이해 능력 제공
- 멀티턴 멀티이미지 대화 지원
- 텍스트-이미지 작문 및 웹페이지 제작에 사용
- IXC-2.5는 웹페이지 제작과 고품질 텍스트-이미지 기사 작성에 활용 가능
- 28개 벤치마크에서 기존 오픈 소스 모델을 능가하는 성능 입증
- GPT-4V 및 Gemini Pro와 유사한 성능 발휘
- 웹페이지 작성과 텍스트-이미지 기사 작성에서 특별히 설계된 Chain-of-Thought (CoT)와 Direct Preference Optimization (DPO) 기법 사용
NVIDIA, DoRA: 고성능 파인튜닝 대안
NVIDIA, 2024년 6월 28일,
NVIDIA
- DoRA는 LoRA의 대안으로 제안된 파인튜닝 방법
- LoRA보다 학습 용량과 안정성 향상
- 추가 추론 비용 없이 성능 개선
- 다양한 언어 및 비전 모델 작업에서 LoRA를 능가
- LLM 및 VLM 작업에서 공통적인 성능 향상
- 각 파라미터의 방향과 크기를 분해하여 학습
- ICML 2024에서 구술 논문으로 발표
- DoRA는 다양한 모델 아키텍처에 적용 가능
- LoRA보다 FT 학습 패턴과 유사한 학습 행동을 보임
- QLoRA와 함께 사용하여 메모리 수요 감소 가능
- Hugging Face의 DreamBooth로 텍스트-이미지 개인화에서 우수한 성능 발휘
Meta, 다중 토큰 예측 접근법 발표
Meta, 2024년 7월 4일,
Meta
- 다중 토큰 예측을 사용한 새로운 LLM 훈련 접근법 발표
- 모델 성능 및 훈련 효율성 향상
- 코드 완성을 위한 사전 훈련된 모델 공개
- Hugging Face에서 모델 이용 가능
- 200B 토큰과 1T 토큰의 코드 데이터로 훈련된 모델 포함
- 표준 Llama 2 SentencePiece 토크나이저 사용
Hugging Face, RT-DETR 실시간 객체 탐지 모델 지원
Hugging Face, 2024년 7월 5일,
Hugging Face
- RT-DETR 모델은 실시간 객체 탐지 기능 제공
- YOLO 모델보다 속도와 정확성에서 우수한 성능 발휘
- Apache 2.0 라이선스로 상업적 용도로 자유롭게 사용 가능
- Meta의 Transformer 기반 탐지 모델인 DETR의 후속작
- 하이브리드 인코더 설계를 통해 다중 스케일 특징을 신속히 처리
- 고품질 초기 쿼리를 제공하여 정확도 향상
- 다양한 시나리오에 적응할 수 있는 유연한 속도 조절 지원
- T4 GPU에서 108/74 FPS 성능 발휘
- Objects365로 사전 훈련 후 55.3%/56.2% AP 달성
Sources
This GPT assists users by creating a detailed daily newspaper in Korean based on provided links. It follows these steps: read the content, summarize each content with detailed points, and write a report. The report format is:
(today’s date in 년 월 일) AI 소식,
Summary
(overall short summary, make summary with good details. for Summary section, explain the details starting with company name, e.g. OpenAI에서는 ~~~를 발표하였습니다.)
Title,
한글제목
링크, date,
company name
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
Title,
한글제목
링크, date,
company name
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
…
1 | ### |