Summary
오늘의 AI 소식에서는 GPT-2 모델의 재현, GPT-4o와 Gemini 1.5의 컨텍스트 메모리 평가, RAG 2.0의 소개, META의 비전-언어 모델의 소개, 실행 가능한 코드 액션을 통한 더 나은 LLM 에이전트, 그리고 여러 AI 및 머신러닝 관련 최신 연구 및 발표 내용을 다룹니다.
Reproducing GPT-2 (124M) in llm.c in 90 minutes for $20
https://github.com/karpathy/llm.c/discussions/481, 2024-05-29 (Karpathy)
- Karpathy는 90분 만에 $20로 llm.c를 사용하여 GPT-2 (124M) 모델을 재현하는 방법을 공유함.
- llm.c는 효율적으로 모델 FLOP 활용도를 약 60%까지 끌어올릴 수 있음.
- Lambda의 8X A100 80GB SXM 노드를 사용하여 약 90분 만에 모델 재현 가능.
- FineWeb 데이터셋에서 10억 토큰으로 학습을 수행하고, HellaSwag 정확도에서 OpenAI의 GPT-2 (124M)를 능가함.
- 필요한 환경 설정 및 하드웨어 요구사항, 세부 하이퍼파라미터 설정, 그리고 실행 방법을 상세히 설명함.
OpenAI’s GPT-4o vs. Gemini 1.5 ⭐ Context Memory Evaluation
https://medium.com/@lars.chr.wiik/openais-gpt-4o-vs-gemini-1-5-context-memory-evaluation-1f2da3e15526, 2024-05-20 (Lars Wiik)
- 긴 컨텍스트에서 정보 추출 능력을 평가하는 Needle in the Haystack 테스트 결과, OpenAI와 Google의 LLM 성능 비교.
- GPT-4o, GPT-4-turbo, GPT-4-0613이 상위 성능을 보였으며, Google의 Gemini 모델은 성능이 저조함.
- 긴 컨텍스트 윈도우에서 OpenAI 모델의 성능이 더 우수하며, 특히 8k 이상의 컨텍스트 길이에서 Gemini 모델이 50% 이하의 정확도로 하락.
- Google의 최신 모델이 100만 토큰 입력을 지원하지만, 여전히 OpenAI의 모델이 일관된 성능을 보임.
Introducing RAG 2.0
https://contextual.ai/introducing-rag2/, 2024-03-19 (Contextual AI Team)
- RAG 2.0은 엔드-투-엔드로 최적화된 시스템으로, GPT-4 기반의 기존 RAG 시스템을 크게 능가하는 성능을 보임.
- 자연어 질문 응답, 신뢰성, 최신성 등 다양한 축에서 RAG 2.0의 성능을 입증.
- 고객 작업 부하에서 기존 RAG 시스템보다 더 큰 성능 향상을 보이며, 실제 환경에서의 적용 가능성을 강조.
- Google Cloud의 최신 ML 인프라를 활용하여 RAG 2.0 모델을 훈련 및 배포함.
AI Success Depends on the CFO, Not IT | Gartner Finance Keynote
https://www.youtube.com/watch?app=desktop&v=y268jrtjako&t=1s, 2024-05-28 (Gartner)
- Gartner의 부사장 Nisha Bhandare와 수석 분석가 Clement Christensen이 AI 도입과 비용 관리에 대한 기조 연설.
- CFO가 AI 기술의 비용 초과, 의사 결정 오용, 신뢰 상실 등 일반적인 문제를 관리하는 데 중요한 역할을 해야 함을 강조.
- AI 비용과 다른 기술 비용의 차이를 이해하고, 기업 전반에 걸친 AI 이니셔티브의 가치를 평가하기 위한 프레임워크 제공.
An Introduction to Vision-Language Modeling
https://arxiv.org/abs/2405.17247, 2024-05-30 (META)
- 비전-언어 모델링(VLM)에 대한 소개, VLM의 작동 원리 및 훈련 방법 설명.
- VLM의 평가 접근 방식을 논의하며, 이미지에서 언어로의 매핑을 넘어 비디오로 확장하는 방법도 다룸.
- 언어와는 달리 비전은 더 높은 차원의 공간에서 개념이 표현되며, 이러한 모델의 신뢰성을 향상시키기 위한 도전 과제들을 설명.
Executable Code Actions Elicit Better LLM Agents
https://huggingface.co/papers/2402.01030, 2024-02-02 (Xingyao Wang et al.)
- 실행 가능한 Python 코드를 사용하여 LLM 에이전트의 행동을 통합하는 CodeAct 제안.
- 17개의 LLM을 대상으로 한 광범위한 분석에서 CodeAct가 기존 대안보다 최대 20% 높은 성공률을 기록.
- CodeActAgent는 Llama2와 Mistral에서 파인튜닝되어 고급 작업을 수행하고, 자연어를 사용하여 사용자와 협력함.
Codestral: Hello, World!
https://mistral.ai/news/codestral/, 2024-05-29 (Mistral AI team)
- Mistral AI가 코드 생성 작업을 위해 설계된 최초의 코드 모델인 Codestral 발표.
- 80개 이상의 프로그래밍 언어를 지원하며, 코드 생성 및 상호작용을 위한 API 엔드포인트 제공.
- HumanEval, MBPP, CruxEval, RepoBench 등의 벤치마크에서 우수한 성능을 보임.
Few-shot tool-use doesn’t really work (yet)
https://research.google/blog/few-shot-tool-use-doesnt-really-work-yet/, 2024-05-30 (Alon Jacovi)
- 툴 사용을 지시하는 몇 가지 데모 기반 접근법의 효과가 생각보다 낮다는 연구 결과 발표.
- 다양한 툴 사용 알고리즘에 대한 대규모 평가에서 툴을 사용하지 않은 LLM보다 성능이 향상되지 않음.
- 다양한 설정에서 툴 사용 전략의 효율성에 큰 차이가 있으며, 더 철저한 평가 체계가 필요함을 제안.
Faithful Logical Reasoning via Symbolic Chain-of-Thought
https://arxiv.org/abs/2405.18357, 2024-05-30 (Jundong Xu et al.)
- 논리적 추론 능력을 강화하기 위해 심볼릭 체인 오브 생각(SymbCoT)을 제안.
- SymbCoT는 자연어 컨텍스트를 심볼릭 형식으로 변환하고, 논리 규칙을 사용하여 문제를 해결하는 계획을 수립함.
- 5개의 표준 데이터셋 평가에서 CoT 방법에 비해 현저한 개선을 보이며, 더 신뢰성 있고 유연한 논리적 추론을 제공함.
Sources
This GPT assists users by creating a detailed daily newspaper in Korean based on provided links. It follows these steps: read the content, summarize each content with detailed points, and write a report. The report format is: # AI News for (today's date), ## Summary (overall short summary), ## Link1 Title, link, date - detailed summary1, - detailed summary2, - detailed summary..N, ## Link2 Title, link, date - detailed summary1, - detailed summary2, - detailed point..N, etc. The report should be written in Korean and use the 개조식 문체 style. give the very deep details for each link as much as possible. make summary with good details, note company name next to date if available.1 |
|