Meta에서는 Llama 3.1을 출시하였으며, 8B, 70B 및 405B 크기의 모델로 제공됩니다. 이 모델은 다국어 지원과 상업적 사용이 가능하며, 효율적인 추론을 위해 양자화된 버전을 제공합니다. DeepSeek에서는 DeepSeek-V2-Chat-0628 모델을 개선하여 LMSYS Chatbot Arena에서 높은 순위를 기록했습니다. OpenAI는 비용 효율적인 GPT-4o mini 모델을 발표하였으며, Apple은 7B 오픈소스 LLM을 출시하였습니다. Mistral은 12B 모델을 출시하였고, Salesforce는 xLAM 모델을 공개했습니다. NVIDIA는 Minitron 모델을 발표하여 교육 비용을 줄이면서 성능을 향상시켰습니다. Google은 새로운 RLHF 방법을 발표하였고, Apple은 LazyLLM 방법을 소개하였습니다. 최근 AI 연구 논문들도 다양하게 발표되었습니다.
Meta, Llama 3.1 출시
링크, 2024년 7월 24일
- 8B, 70B 및 405B 크기의 모델 제공
- 8개 언어 지원
- 15T 이상의 토큰으로 훈련, 25M 이상의 인간 및 합성 샘플로 미세 조정
- 상업적 사용이 가능한 라이선스 제공
- 효율적인 추론을 위한 FP8, AWQ 및 GPTQ 버전 제공
- Hugging Face Inference API 및 HuggingChat에서 사용 가능
- 128K 토큰의 컨텍스트 윈도우 지원
- 다양한 벤치마크에서 GPT-4o 수준의 성능
DeepSeek, DeepSeek-V2-Chat-0628 출시
링크, 2024년 7월 19일
- LMSYS Chatbot Arena에서 #11 순위 기록
- 코딩 능력에서 #3 순위, 어려운 문제 해결에서 #3 순위
- 이전 버전 대비 HumanEval에서 3.7% 향상
- MATH 벤치마크에서 17.1% 향상
- IFEval에서 13.8% 향상
- Arena-Hard에서 26.7% 향상
- JSON 출력 성능 7% 향상
- 시스템 영역에서 명령어 따르기 능력 최적화, 사용자 경험 향상
OpenAI, GPT-4o mini 발표
링크, 2024년 7월 18일
- 비용 효율적인 소형 모델, MMLU에서 82% 기록
- GPT-3.5 Turbo 대비 60% 저렴한 가격
- 128K 토큰의 컨텍스트 윈도우, 16K 출력 토큰 지원
- 텍스트와 비전에서 우수한 성능, 다중모드 추론 지원
- 안전 조치 내장, 포괄적인 안전성 평가 실시
- Assistants API, Chat Completions API, Batch API에서 사용 가능
- 개발자들이 더 효율적이고 저렴하게 AI 애플리케이션을 구축하고 확장할 수 있도록 지원
Apple, 7B 오픈소스 LLM 출시
링크, 2024년 7월 16일
- 2.5T 토큰으로 훈련된 7B 기본 모델
- 주로 영어 데이터를 사용, 2048 컨텍스트 윈도우 지원
- MMLU에서 0.6372 점수 기록, Mistral보다 우수
- PyTorch 및 OpenLM 프레임워크 사용
- Hugging Face 및 Transformers에서 사용 가능
Mistral, Nemo 12B 모델 출시
링크, 2024년 7월 24일
- 128K 컨텍스트 윈도우 지원, 새로운 토크나이저 Tekken 사용
- 9개 언어 지원, Apache 2.0 라이선스 제공
- Instruct 버전은 함수 호출 지원
- NVIDIA와 협력하여 개발, 3,072 H100 80GB로 훈련
- Hugging Face에서 사용 가능
Salesforce, xLAM 모델 발표
링크, 2024년 7월
- 1.35B 및 7B 모델 제공, 최대 16K 컨텍스트 길이 지원
- 자율적으로 작업을 계획하고 실행하는 기능
- GPT-4 및 Claude 3.5 수준의 성능
- DeepSeek Coder로 생성된 60K 함수 호출 데이터셋 공개
- Transformers와 호환, GGUF 지원
NVIDIA, Minitron 4B 및 8B 모델 출시
링크, 2024년 7월 24일
- 큰 LLM에서 2-4배 작은 모델로 가지치기 및 증류
- 40배 적은 교육 토큰 사용, MMLU에서 16% 향상
- 94B 교육 토큰, 256K 어휘
- Iterative pruning + distillation 방법 사용
- Hugging Face와 통합
Google, J-BOND RLHF 방법 발표
링크, 2024년 7월 20일
- Best-of-N Distillation 알고리즘 도입
- Monte Carlo 샘플링을 사용하여 보상 백분위수를 추정
- 제프리 다이버전스를 사용하여 모드 커버링과 모드 시킹 행동 균형
- 여러 벤치마크에서 효과 입증
Apple, LazyLLM 방법 발표
링크, 2024년 7월 19일
- 긴 컨텍스트 LLM 추론을 위한 동적 토큰 가지치기
- LLama 2 7B 모델에서 2.34배 속도 향상
- 정확도를 유지하면서 생성 시간 단축
AI 연구 논문
텍스트-TO-SQL 작업에 LLM을 사용하는 방법에 대한 조사
링크, 2024년 7월 21일
- 데이터베이스 액세스를 용이하게 하기 위한 텍스트-TO-SQL 변환의 중요성 강조
- LLM을 활용한 새로운 방법들 소개
- 프롬프트 엔지니어링 및 파인튜닝 방법 논의
LLM의 프롬프트 엔지니어링 방법에 대한 조사
링크, 2024년 7월 17일
- LLM을 위한 프롬프트 엔지니어링 기술의 발전 논의
- 다양한 NLP 작업에서의 프롬프트 방법들 정리
- 44개의 연구 논문 요약, 39개의 프롬프트 방법과 29개의 NLP 작업 소개
오픈 인공지능 지식 데이터셋 발표
링크, 2024년 7월 19일
- 고품질, 다양하고 윤리적으로 소싱된 데이터셋의 필요성 강조
- Wikipedia의 주요 카테고리를 기반으로 한 5억 개 이상의 토큰 데이터셋 제공
- 다양한 LLM을 사용하여 높은 지식 범위와 일관성, 정확성을 유지
이번 AI 소식에서는 주요 AI 모델 출시 및 기술적인 세부 사항과 더불어 최신 연구 논문까지 다양하게 소개되었습니다. AI 기술의 빠른 발전과 함께 이러한 정보들이 더욱 널리 활용될 수 있기를 기대합니다.
Sources
This GPT assists users by creating a detailed daily newspaper in Korean based on provided links. It follows these steps: read the content, summarize each content with detailed points, and write a report. The report format is:
(today’s date in 년 월 일) AI 소식,
Summary
(overall short summary, make summary with good details. for Summary section, explain the details starting with company name, e.g. OpenAI에서는 ~~~를 발표하였습니다.)
Title,
company name, 제목
링크, date,
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
Title,
company name, 제목
링크, date,
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
…
1 | ### |