➡️ Microsoft에서는 대규모 STEM QA에 강점을 보이는 새로운 14B 파라미터 모델 Phi-4를 Apache 2.0 라이선스로 공개하였습니다.
➡️ Google에서는 500M 파라미터의 시계열 예측 모델 TimesFM-2.0을 선보였습니다.
➡️ NVIDIA는 물리적 AI 개발 가속화를 위한 Cosmos 플랫폼과 함께 ‘VILA’라는 비전-언어 모델 패밀리를 공개하였습니다.
➡️ ‘moondream’ 프로젝트에서는 초경량 2B·0.5B 파라미터 VLM을 제안하였습니다.
➡️ 1.58-bit FLUX 연구는 1.58비트 양자화로 텍스트-투-이미지 모델의 용량 감소 및 추론 효율을 대폭 높이는 기법을 발표했습니다.
➡️ 소프트웨어 공학 분야에서는 Agentless라는 간단한 접근법이 복잡한 LLM 에이전트보다 뛰어난 성능을 보일 수 있음을 보고하였고, 검색 기반 강화 프레임워크 ‘Search-o1’ 역시 LLM의 한계를 보완하는 방식을 제시했습니다.
➡️ KaLM-Embedding은 고품질 다국어 임베딩 모델로서, 적절한 데이터 필터링 기법과 프리트레인 아키텍처 변화를 통해 우수한 성능을 선보였습니다.
➡️ ProTracker 연구는 영상 내 포인트를 추적하는 고효율 방법을 내놓았습니다.
➡️ ‘Long Context vs. RAG’ 논문은 초장문 맥락 사용 vs. Retrieval-Augmented Generation 간의 장단점을 정밀 비교하였습니다.
➡️ Chip Huyen은 에이전트(Agents)의 개념과 구축 방안, 그리고 실패 모드 및 평가 방식을 심도 있게 분석하는 글을 통해 LLM 기반 에이전트 설계의 가이드라인을 제시했습니다.
Microsoft, Phi-4
링크, 1/9/25
- 14B 파라미터 규모의 STEM 특화 대규모 언어 모델 발표
- GPT-4를 능가하는 STEM QA 성능을 보였으며, reasoning, math, code generation 능력이 뛰어남
- 9.8T 토큰에 달하는 고품질 데이터와 멀티에이전트·self-revision 기반 대규모 합성 데이터 활용
- 1920대의 H100-80G GPU로 21일간 학습
- 16K 토큰 컨텍스트 및 안전성 확보를 위한 SFT·DPO 기법 적용
- English 중심 최적화로 reasoning-focused benchmark에서 우수한 결과 달성
Google, TimesFM-2.0
- 500M 파라미터 Time Series Foundation Model(TimesFM-2.0) 공개
- 4배 더 긴 최대 컨텍스트(2048 시계열 포인트)로 시계열 예측 정확도 향상
- 새로운 버전(v2.0)은 v1.0 대비 최대 25% 높은 정확도를 보임
- GIFT-Eval 리더보드에서 MASE·CRPS 측면에서 최고 성능 기록
- Fine-tuning 및 zero-shot covariate 지원 등을 통한 유연한 활용 가능
- Google Research에서 개발, ICML 2024 논문 발표 예정
NVIDIA, Cosmos
링크, 2025년 1월 6일 공개
- Physical AI 개발을 가속화하기 위한 ‘Cosmos’ 플랫폼 공개
- Text2World·Video2World 등 영상·텍스트 기반 시뮬레이션 모델(확산/오토리그레시브) 제공
- 실제 AV·로보틱스 동영상을 통해 학습된 물리 기반 환경 예측·생성 가능
- 선행 모델들 대비 오픈 라이선스(NVIDIA Open Model License)로 기업·연구자 활용에 유리
- NVIDIA NeMo 프레임워크를 이용해 후속 학습 및 파인튜닝 가능
- AV·로보틱스 업계(1X, Agility Robotics, XPENG, Uber, Waabi 등)에서 이미 사용 중
moondream 프로젝트
링크, 1/9/25
- 초경량 비전 언어 모델(VLM)인 “Moondream” 공개 (2B·0.5B 파라미터 버전)
- 이미지 캡셔닝, VQA, 객체 검출, 포인트 추론 등 다양한 비전 태스크 지원
- 8비트(int8) 및 심지어 4비트(int4) 양자화를 활용, 적은 메모리로도 구동 가능
- Edge 환경, 모바일 기기 등 제한된 자원에서 동작 가능하도록 설계
- Apache 2.0 라이선스 하에 오픈소스로 제공, PyPI 패키지로 간편 설치 가능
1.58-bit FLUX
링크, (논문 업로드일: 2025년 1월 초)
- 텍스트-투-이미지 모델 FLUX.1-dev를 약 1.58비트(±1, 0)로 양자화한 연구
- 11.9B 파라미터 중 99.5%를 1.58비트로 표현하면서도 높은 이미지 생성 성능 유지
- 7.7배의 모델 스토리지 절감, 5.1배의 GPU 메모리 사용량 절감, 추론 지연시간 개선
- Image data 없이도 self-supervision 기반 양자화가 가능함을 시사
- 합성능력과 효율성을 함께 잡은 새로운 저비트 양자화 기법
Fudan University 외, “Agentless: Demystifying LLM-based Software Engineering Agents”
링크, 2024년 7월 2일(출판일)
- SWE-bench Lite 벤치마크에서 복잡한 소프트웨어 개발 업무를 에이전트 없이 해결하는 방식 제안
- “Agentless” 접근법이 다양한 툴을 사용하는 복잡한 LLM 에이전트보다 단순하면서도 비용 및 성능 면에서 우수
- Localization-Repair 2단계 프로세스로 이루어진 간단한 모델이, 복잡한 에이전트 대비 성공률 및 경제성이 뛰어남
- 오픈소스 소프트웨어 에이전트 대비 27.33%의 높은 성능과 $0.34의 낮은 비용 달성
NVIDIA, VILA
- 비전·언어 모델(VLM)을 효율·정확도 균형 있게 설계한 “VILA” 계열 발표
- “Cosmos Nemotron VLMs”의 일부로 출시되어, 영상·다중이미지 처리 효율성 개선
- 구조적 개선(Scale-then-Compress)으로 고해상도 이미지와 긴 동영상 처리에도 효율적
- 학습·추론·파인튜닝 전 과정에서 4.5배~2.8배 효율 향상, 오픈 및 상용 VLM들과 경쟁
- 다양한 이미지·동영상 벤치마크에서 상위권 성능 기록
HIT-TMG, KaLM-Embedding
링크, 2025년 1월 2일 발표
- Qwen2-0.5B 기반으로 구축한 오픈 라이선스(MIT) 다국어 임베딩 모델
- MTEB 벤치마크에서 평균 64.53점 달성(C-MTEB 64.13, MTEB 64.94)
- 고품질·다양화된 훈련 데이터를 확보하기 위해 ranking consistency filtering 기법 도입
- Matryoshka Representation Learning으로 임베딩 차원을 유연하게 지원
- <1B 파라미터임에도 여러 언어에서 높은 성능 보임, Sentence-Transformers로 통합 사용 가능
Tsinghua University 외, “Search-o1: Agentic Search-Enhanced Large Reasoning Models”
링크, 2025년 1월 9일(논문 제출일)
- OpenAI-o1 스타일의 긴 단계 추론(Large Reasoning Model)에 검색(검색 에이전트)을 접목한 프레임워크인 “Search-o1” 발표
- 불확실한 지식 포인트에서 외부 정보를 동적으로 검색하고, Reason-in-Documents 모듈로 노이즈를 최소화
- 수학·과학·코딩 등 복잡한 reasoning 태스크 및 6가지 오픈 QA 벤치마크에서 우수한 성능
- LLM의 지식 부족을 보완하여, 추론 신뢰성과 정확성을 높임
- Agentic RAG 메커니즘을 통해 외부 문서 검색 및 문서 재정리 후 reasoning에 반영
Long Context vs. RAG for LLMs: An Evaluation and Revisits
링크, 2025년 1월 9일(논문 제출일)
- 초장문(Long Context, LC)와 Retrieval-Augmented Generation(RAG)을 통한 외부 정보 활용 방안을 비교 연구
- Wikipedia 기반 QA에서는 LC가 RAG 대비 전반적으로 더 우수한 성능을 보이는 반면, 대화형 질의 등에서는 RAG가 유리
- Summarization 기반 Retrieval이 Chunk-based Retrieval보다 성능이 높음을 검증
- LC와 RAG를 혼합하거나 적절히 선택하는 전략이 과제별로 중요함을 제안
- 기존 연구들이 놓친 ‘맥락 적합성’ 문제가 실제 성능에 매우 큰 영향을 준다고 지적
Agents (by Chip Huyen)
링크, 2025년 1월 7일
- 에이전트의 개념 정의, 도구 사용, 계획(Planning) 방식, 실패 모드, 평가 등을 체계적으로 정리
- Planning과 Execution을 분리하고, Multi-Agent 시스템 설계를 통해 복잡도를 분산시키는 방법 제시
- 에이전트가 사용할 툴을 신중히 고르는 것이 중요하며, 툴이 많아질수록 혼선이 생길 수 있음을 지적
- Reflection(자기 평가) 기법을 적용해 에이전트가 스스로 에러를 수정하고 성능을 향상할 수 있는 가능성 언급
- Anthropic의 “Building effective agents”와 유사하면서도 실행 흐름, 실패 모드 구체화에 초점
ProTracker: Probabilistic Integration for Robust and Accurate Point Tracking
링크, 2025년 1월 초(논문 제출일)
- 영상 내 임의의 포인트를 장기간 추적하기 위한 새 프레임워크 “ProTracker” 제안
- Optical Flow와 semantic feature 기반 예측을 확률적으로 통합해 정확도 및 견고성 향상
- Occlusion이나 비슷한 영역이 많은 영상에서도 드리프트 없이 지속적으로 포인트 추적
- TAP-Vid-DAVIS 등 다양한 벤치마크에서 최고 수준의 성능 달성
- Geometry-aware feature filtering, long-term keypoint relocalization 등으로 잡음 제거 및 안정성 극대화
Sources
This GPT assists users by creating a detailed daily newspaper in Korean based on provided links. It follows these steps: read the content, summarize each content with detailed points, and write a report. The report format is:
(today’s date in 년 월 일) AI 소식,
Summary
(overall short summary, make summary with good details. for Summary section, explain the details starting with company name, e.g. OpenAI에서는 ~~~를 발표하였습니다.)
company name, Title
링크, date
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
company name, Title
링크, date
링크, date,
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
…
1 | ### |
기술적으로 최대한 자세하게 적어. 12개의 기사가 있고 하나도 빼먹지 말고 적어.