오늘의 AI 소식에서는 Mistral, OpenAI, NVIDIA, Apple, Microsoft 등 다양한 기업들의 최신 기술 발표가 있었습니다. Mistral은 새로운 비전 언어 모델 Pixtral 12B를 출시하여 멀티모달 AI 경쟁에서 Meta를 앞서갔습니다. OpenAI는 ChatGPT가 창작 과정에서 어떻게 활용되는지를 다룬 사례들을 공유하며, 창작자들이 AI를 어떻게 활용하고 있는지 보여주었습니다. NVIDIA는 최첨단 오디오 생성 모델 BigVGAN v2를 발표하여 오디오 합성 속도와 품질을 크게 향상시켰습니다. Apple은 iPhone 16의 새로운 온디바이스 AI 기능과 그 프롬프트 예시를 공개했습니다. Microsoft는 비정형 데이터를 효율적으로 처리할 수 있는 GraphRAG 라이브러리를 오픈소스로 출시하였고, FishAudio는 다국어 지원 텍스트-음성 모델인 Fish Speech 1.4를 출시했습니다. ICTNLP는 음성과 텍스트를 동시에 처리하는 LLaMA-3.1-8B Omni 모델을 발표했고, Arcee.ai는 Meta LLaMA 3.1 모델을 기반으로 한 SuperNova를 출시했습니다. 또한, AWS는 고성능 AI 워크로드를 위한 EC2 P5e 인스턴스를 출시하였으며, GOT 2.0은 더욱 발전된 OCR(광학 문자 인식) 기능을 선보였습니다. 마지막으로, Upstage는 단일 GPU에서 뛰어난 성능을 발휘하는 Solar Pro Preview 모델을 공개했습니다.
Mistral AI, Pixtral 12B 비전 언어 모델 출시
링크, 9월 12일 2024년
- Mistral은 Pixtral 12B라는 새로운 비전 언어 모델을 출시
- 텍스트 백본은 Mistral Nemo 12B, 비전 어댑터는 400M 파라미터 사용
- GeLU 활성화 함수와 2D RoPE가 비전 인코더에 적용
- 확장된 어휘 크기: 131,072개
- 이미지 관련 작업을 위한 새로운 토큰 3종 추가:
img
,img_break
,img_end
- 이미지 크기: 1024 x 1024 픽셀, 패치 크기: 16 x 16 픽셀
- 모델 가중치는 bf16 형식으로 제공되며, Hugging Face에서 모델 다운로드 가능
OpenAI, Writing with AI: ChatGPT 활용 사례
링크, 9월 10일 2024년
- ChatGPT를 사용하여 창작자들이 아이디어를 발전시키는 방법을 소개
- 작가들이 아이디어 구상, 스토리 컨설팅, 연구 지원, 편집 보조에 ChatGPT를 활용
- 전문 작가들은 ChatGPT를 스토리 상담자이자 피드백 제공 도구로 사용
- 창의적인 과정을 돕는 ‘반전 인터뷰’ 기법을 사용해 작가들의 내면 아이디어를 이끌어내도록 지원
- 비유와 은유, 아이디어 구상에 있어 ChatGPT의 활용이 특히 유용함
- 일부 작가들은 스토리 피드백을 통해 구체적인 줄거리 문제 해결에 사용
NVIDIA, BigVGAN v2 오디오 합성 모델 발표
링크, 9월 5일 2024년
- NVIDIA는 BigVGAN v2 모델을 발표하여 오디오 생성 분야에서 성능을 크게 향상
- 오디오 품질이 이전 모델 대비 크게 향상되었으며, 다양한 오디오 유형에서 높은 평가
- 최대 3배 빠른 오디오 합성 속도, 최적화된 CUDA 커널을 통해 실시간보다 240배 빠르게 합성 가능
- 사전 학습된 체크포인트는 다양한 오디오 구성 지원
- 44kHz 샘플링 레이트를 지원하여 인간 청각 주파수 범위 내 최고 품질의 오디오 제공
Apple, iPhone 16 온디바이스 AI 기능 발표
링크, 9월 9일 2024년
- Apple은 iPhone 16의 AI 기능을 강조한 발표
- Apple Intelligence Adapter가 온디바이스에서 동작하며, 우선 알림과 요약 기능을 지원
- 3B 크기의 온디바이스 모델이 제공되며, 지역화 적응 기능도 탑재
- 이메일 재작성, 콘텐츠 안전 분류, 우선 알림 등의 기능을 위한 프롬프트가 사용
Microsoft, GraphRAG 오픈소스 출시
링크, 9월 1일 2024년
- Microsoft는 GraphRAG라는 새로운 오픈소스 라이브러리를 공개
- GraphRAG는 비정형 텍스트 데이터를 자동으로 처리하여 지식 그래프를 추출
- LLM(대형 언어 모델)과 결합하여 비정형 데이터를 구조화된 지식으로 변환
- GraphRAG 솔루션 가속기를 사용하면 Azure 자원을 통한 손쉬운 사용 가능
FishAudio, Fish Speech 1.4 출시
링크, 9월 11일 2024년
- 700K 시간의 음성 데이터를 학습한 다국어 텍스트-음성 변환 모델 출시
- 영어, 중국어, 독일어, 일본어, 프랑스어, 스페인어, 한국어, 아랍어 등 8개 언어 지원
- 실시간 음성 클로닝과 초저지연 성능 제공
- Hugging Face에서 모델 가중치 다운로드 가능
ICTNLP, LLaMA-3.1-8B Omni 출시
링크, 9월 12일 2024년
- ICTNLP는 LLaMA-3.1-8B Omni 모델을 발표
- 이 모델은 음성과 텍스트를 동시에 생성하는 저지연 종단간 음성 모델
- Whisper Large v3와 HuBERT를 기반으로 하여 250ms 이하의 지연 시간으로 실시간 음성 처리가 가능
- Hugging Face에서 모델 체크포인트 제공
Arcee.ai, SuperNova LLaMA 3.1 출시
링크, 9월 11일 2024년
- Arcee.ai는 Meta LLaMA 3.1 405B 모델을 증류한 70B 및 8B 모델 공개
- SuperNova는 Meta의 LLaMA 3.1 70B 모델보다 뛰어난 성능을 보이는 모델로, API와 Hugging Face에서 사용 가능
- Spectrum과 Evol-Kit을 활용해 지식 증류와 강화 학습을 결합하여 모델 성능을 향상시킴
AWS, EC2 P5e 인스턴스 출시
링크, 9월 11일 2024년
- AWS는 고성능 AI 워크로드를 위한 P5e 인스턴스를 출시
- NVIDIA H200 GPU 기반으로, 메모리 대역폭이 증가해 대규모 AI 모델의 처리 성능이 크게 향상
- Meta LLaMA 3.1 70B 및 405B 모델의 추론 성능을 크게 향상시켜 최대 40%의 비용 절감 가능
- GPU 메모리 용량이 크게 증가해, 단일 인스턴스로 대규모 모델을 처리할 수 있어 복잡한 분산 시스템의 필요성 감소
GOT 2.0, 차세대 OCR 기술 발표
링크, 9월 3일 2024년
- GOT 2.0은 새로운 OCR(광학 문자 인식) 기술로 복잡한 문서 및 수식을 처리하는 모델
- Vision-Encoder와 Qwen-0.5B Decoder를 사용하여 8k 컨텍스트를 처리할 수 있음
- 공식, 수학적 표현, 다중 페이지 PDF, 동적 해상도 지원
- OCR 성능 측면에서 LLaVA-NeXT와 Qwen-VL-Max 모델을 능가
Upstage, Solar Pro Preview: 고성능 LLM 모델 발표
링크, 9월 10일 2024년
- 단일 GPU에서 동작하는 고성능 LLM 모델인 Solar Pro Preview 발표
- 22B 파라미터로, LLaMA 3.1 70B 모델과 성능이 비슷하면서도 더 작은 VRAM에서 실행 가능
- Phi-3-medium 모델을 확장하여 성능을 크게 향상시킨 모델
- November 2024에 공식 출시 예정이며, 더 넓은 언어 지원과 확장된 기능 제공 예정
Sources
This GPT assists users by creating a detailed daily newspaper in Korean based on provided links. It follows these steps: read the content, summarize each content with detailed points, and write a report. The report format is:
(today’s date in 년 월 일) AI 소식,
Summary
(overall short summary, make summary with good details. for Summary section, explain the details starting with company name, e.g. OpenAI에서는 ~~~를 발표하였습니다.)
company name, Title
링크, date
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
company name, Title
링크, date
링크, date,
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
…
1 | ### |