META ➡️ META에서는 Llama 3.3 70B 모델을 발표하여, 초거대한 파라미터 대비 월등히 높은 성능과 128K 토큰 컨텍스트 지원을 강조하였습니다.
Microsoft ➡️ Microsoft Research에서는 Florence-VL 기반의 차세대 멀티모달 대규모 언어 모델(MLLM)을 공개하여 멀티모달 이해 및 비전-언어 정렬 능력을 한층 강화하였습니다. ➡️ Microsoft는 Florence-VL 관련 논문을 통해 제너레이티브 비전 파운데이션 모델의 우수성을 재확인하였습니다. ➡️ Microsoft는 Magentic-One이라는 다중 에이전트 시스템을 소개하여 복잡한 태스크 해결 능력과 오케스트레이션을 강조하였습니다. ➡️ Microsoft의 TRELLIS3D는 통합적인 3D 생성 모델을 발표하여 다양한 3D 출력 포맷과 멀티모달 입력 처리에 강점을 보여주었습니다.
OpenGVLab ➡️ OpenGVLab에서는 InternVL 2.5 대규모 멀티모달 모델을 발표하며 비전과 언어 간 통합 처리 성능을 선보였습니다.
DeepSeek ➡️ DeepSeek는 실시간 웹 검색 연계 및 수많은 벤치마크 성능 개선을 이룬 DeepSeek V2.5-1210 모델을 발표하였습니다.
Google ➡️ Google은 PaliGemma 2 VLM 시리즈를 출시하여 다양한 해상도와 파라미터 스케일을 지원함으로써 전이학습과 멀티태스크 적용에 용이한 기반을 제공하였습니다.
Tencent ➡️ Tencent는 HunyuanVideo 대규모 비디오 생성 모델을 오픈소스로 공개하여 고품질 비디오 생성 역량을 보여주었습니다.
AWS (Amazon) ➡️ AWS는 Amazon Bedrock Agents 정식 출시로 오케스트레이션 및 추론 과정의 투명성과 제어 용이성을 개선하였습니다. ➡️ AWS는 Amazon Nova라는 신규 파운데이션 모델 패밀리를 선보여 멀티모달·멀티태스크 능력 확장을 통한 정확도 및 활용성 향상을 제시하였습니다.
LG AI Research ➡️ LG AI Research는 EXAONE 3.5를 통해 Frontier AI급 성능 달성과 장문 컨텍스트 및 인스트럭션 수행 능력 강화에 성공하였습니다.
HuggingFace ➡️ HuggingFaceFW는 FineWeb 2.0이라는 대규모 멀티언어 프리트레이닝 데이터셋을 공개하여 다국어 모델 성능 개선에 기여할 기반을 마련하였습니다. ➡️ Huggingface는 TGI(Text Generation Inference) 3.0 업데이트로 초장문 프롬프트 처리 및 속도 향상을 이끌어내어 대규모 LLM 추론 환경을 개선하였습니다.
PyTorch 생태계 ➡️ PyTorch 생태계에는 vLLM이 합류하여 다양한 하드웨어 환경 및 대규모 LLM 서빙 효율을 높이는 방향으로 발전하고 있습니다.
META, Llama 3.3 70B Instruct 모델 발표
링크, 2024/12/06
- 128K 토큰 Context 지원: 기존 3.1 대비 컨텍스트 길이를 대폭 늘려 긴 문맥 처리 요구사항을 충족하며, 대용량 대화나 장문 분석에 적합. GQA(Grouped-Query Attention) 아키텍처 최적화를 통해 최대 128K 토큰까지 효율적으로 핸들.
- 모델 크기 대비 성능 향상: 파라미터 수(70B)는 기존 대비 크게 증가하지 않았지만, Code Generation(HumanEval, MBPP EvalPlus), Reasoning & Math(GPQA Diamond, MATH), Steerability(IFEval), Multilingual 능력(MGSM) 등 모든 지표에서 전반적 향상.
- 405B 모델 수준에 육박하는 성능: 3.3-70B 모델이 405B급 모델과 비교 가능할 정도로 효율적 파라미터 활용성 구현. 같은 CoT(Chain-of-Thought) 태스크에서 405B 모델에 비해 근접한 또는 더 나은 정답률.
- Transformer 아키텍처 최적화 & RLHF: 최적화된 Transformer 구조와 SFT(RLHF 포함)로 인스트럭션 튜닝 강화. Multilingual 대화형 환경에서 훈련, 다국어 이해 및 코드 생성 모두에서 진일보.
- Hugging Face Transformers 완전 호환: 모델 파라미터, 토크나이저, 추론 파이프라인이 모두 Hugging Face 에 통합되어 손쉬운 접근성과 활용성 제공.
Microsoft Research, Florence-VL 기반 차세대 MLLM 발표
링크, 2024/12/06
- Florence-VL: Generative Vision Foundation Model 기반 차세대 멀티모달 LLM: Florence-2라는 강력한 비전 기반 모델을 LLM(Phi 3.5, LLaMA 3 등)과 결합하여 새로운 멀티모달 대규모 언어 모델(MLLM) 시스템 구축. 기존 CLIP 스타일 대비 다양한 수준(depth)의 피처 추출과 breadth(멀티 프롬프트) 기반 피처 융합(DBFusion)을 통해 시각 정보 처리 능력을 크게 강화.
- Depth-Breadth Fusion(DBFusion) 기법: 비전 인코더(Florence-2)로부터 다양한 레이어 깊이에서 추출한 정보와 여러 형태의 프롬프트를 결합하여 세밀한 시각적 디테일과 추상적 개념 양쪽을 모두 포착. 이를 통해 단순한 이미지 캡션 생성부터 복잡한 차트 이해, 문서 OCR, 지식기반 VQA 등 고난도 비주얼-랭귀지 태스크까지 광범위한 적용 가능.
- 고품질 데이터셋 및 Instruction Tuning 적용: 사전훈련 단계에서 다양한 공개 소스 데이터 사용 후, 고품질 이미지 캡션 및 인스트럭션 튜닝용 데이터로 파인튜닝. 이를 통해 모델의 활용성, 사용자 지침 준수 능력, 헛소리(hallucination) 최소화 등 실제 서비스 환경에 적합한 기능 강화.
- SOTA 성능 달성 및 오픈소스 공개: Florence-VL은 다양한 멀티모달 및 비전 중심 벤치마크(VQA, OCR, Chart Understanding, Knowledge-intensive Understanding 등)에서 기존 SOTA 모델 대비 뛰어난 성능을 보여줌. 전체 트레이닝 레시피와 모델 체크포인트를 오픈소스로 공개하여 커뮤니티가 재현, 확장, 개선에 기여할 수 있게 함.
OpenGVLab, InternVL 2.5 MLLM 시리즈 공개
링크, 2024/12/05
- 다양한 파라미터 범위 (1B~78B) MLLM: InternViT(비전 인코더)와 Qwen2.5, InternLM 2.5 등의 LLM을 조합한 MLP Projector를 통해 다양한 스케일 제공.
- Dynamic High-Resolution 처리: 448×448 타일 방식, 픽셀 언슛플(pixle-unshuffle)로 비주얼 토큰 수 효율화. 멀티이미지·비디오 입력 처리 확장.
- 3단계 학습 파이프라인:
- Stage 1: MLP Warmup - 비전-언어 정렬 및 크로스모달 이해 기본기 마련
- Stage 1.5: 비전 인코더 Incremental Learning - 희귀 도메인(다국어 OCR, 차트) 처리 능력 증진
- Stage 2: Full Model Instruction Tuning - 노이즈 필터링 된 고품질 멀티모달 데이터 활용, LLM 성능 저하 최소화
- 데이터 필터링 & Loss Reweighting: LLM 기반 품질평가, 반복 샘플 제거, JPEG 압축 등 다양한 전처리 및 후처리 전략으로 데이터 노이즈 최소화, 학습 안정성 극대화.
- MMMU 벤치마크 70% 상회, GPT-4o 대비 경쟁력: 전세계적 최고 수준 비전-언어 태스크 수행능력으로 오픈소스 모델 생태계 강화.
DeepSeek, Inc., DeepSeek V2.5-1210 출시
링크, 2024/12/10
- 인터넷 검색 실시간 연동: https://chat.deepseek.com/ 에서 Internet Search 옵션 활성화 시 실시간으로 웹정보를 활용한 QA 및 최신정보 기반 답변 가능.
- 성능 강화: 수학(MATH-500), 코딩(LiveCodebench), 작문, 롤플레이 능력 전반 향상. HumanEval 기준 코드 성능 개선, 고품질 답변.
- 오픈소스 모델 Hugging Face 제공: 상업적 허용 라이선스로 배포, 커뮤니티 생태계 기여.
- 기능 다양화: Function Calling, JSON Output, FIM(Fill-In-the-Middle) Completion 지원으로 다양한 애플리케이션 개발 용이.
- 시리즈 종결 및 차기 모델 예고: V2 시리즈 누적 성과 기반, 차세대 파운데이션 모델 개발 계획.
Microsoft, Florence-VL 발표
링크, 2024/12/06
- 아키텍처 및 방법론 상세화: Florence-2 비전 파운데이션 모델과 Phi 3.5, LLaMA3 LLM 결합. Depth-Breadth Fusion(깊은층+여러 프롬프트)으로 다면적 시각 특성 활용.
- 고품질 지식추론 및 Hallucination 억제: 비전-랭귀지 정렬 개선으로 답변의 정확성과 사실성 강화.
- 다양한 데이터셋에서 최고 수준 성능: OCR, 차트, 지식기반 VQA 등 범용 능력. 모델, 학습 레시피 공개로 재현성 및 추가 연구 장려.
Google, PaliGemma 2 공개
링크, 2024/12/05
- 3B/10B/28B 파라미터 규모, 다양한 해상도 지원(224,448,896px): 각 모델별 해상도 세팅과 전이학습 최적화를 통해 다양한 시각 언어 태스크 지원.
- 확장된 전이학습 범위: OCR(문자인식), 테이블 구조 파악, 분자구조 인식, 음악 스코어 이해, 의료영상 리포트 생성 등 복잡한 VLM 태스크.
- SigLIP-So400m 비전 인코더 기반: 강력한 비전 인식 능력과 Gemma 2 언어모델 결합으로 멀티태스킹 전이 학습 성능.
- 오픈소스 공개 및 분석: 다양한 파인튜닝 전략 및 LLM통합 기법 실험 가능.
Tencent, HunyuanVideo 대규모 비디오 생성 모델 공개
링크, 2024/12/07
- 초대규모 비디오 생성 모델(13B+ 파라미터) 오픈소스: 비디오 콘텐츠 생성 프레임워크 제공.
- 3D VAE 기반 영상 압축·재생성: 고품질 고해상도 비디오 생성, 멀티프레임 및 멀티이미지 입력 처리.
- 멀티모달 LLM과 결합: 이미지-텍스트 정렬 강화, 비디오 설명문 생성, 영상 내 객체 추출 및 행동 이해.
- 데이터 강화 기법: 랜덤 JPEG 압축, 반복 샘플 필터링 등을 적용해 실제 환경에 강인한 비디오 생성 모델 구축.
- Runway Gen-3, Luma 1.6 등 상용모델 대비 우수한 성능: 오픈소스 형태로 커뮤니티 기여 확대.
Amazon Web Services, Amazon Bedrock Agents 정식 출시
링크, 2023/12/10
- 에이전트 기반 오케스트레이션: Bedrock용 Agents는 FM 추론을 자동으로 멀티스텝 태스크로 나누고, RAG로 확장된 지식 기반 및 API 호출 통해 문제 해결.
- 오케스트레이션 프롬프트 수정 가능: 오토메이션된 프롬프트 템플릿 수정을 통해 특화 도메인 작업 최적화.
- CoT 추론 가시화: 각 단계별 연쇄추론(Chain-of-Thought) 확인 가능, 문제 해결 과정 투명성 제고.
- API 호출 검증 및 데이터 제어: 안전한 API 연동, 프롬프트 엔지니어링 자동화, 기업 워크플로우 개선.
- 미국 동부/서부 리전 사용 가능, InvokeModel API 기준 과금: 상용 서비스 통합 쉬움.
Microsoft, Magentic-One: Multi-Agent 시스템 소개
링크, 2024/11/04
- 범용 Multi-Agent 프레임워크: Orchestrator (계획·추론) + Coder(코드생성), WebSurfer(웹이동), FileSurfer(파일 탐색), Terminal(코드실행).
- Outer/Inner Loop 관리: Outer loop에서 Task Ledger(사실, 가설, 플랜) 업데이트, Inner loop에서 Progress Ledger 관리. 정체 상태시 재계획 수립.
- GAIA, AssistantBench, WebArena 등 벤치마크 테스트: 복잡한 사용자 요청 자동 처리, 동적 계획 재수립, 성능 우수.
- PyTorch AutoGen 기반: 상호작용 모듈화 쉬우며, Agent 추가·확장 용이. 오픈소스 코드 공유.
LG AI Research, EXAONE 3.5 공개
링크, 2024/12/09
- 3개 모델(2.4B/7.8B/32B) 오픈소스: 경량 디바이스용 초소형 모델부터 Frontier급 32B 모델까지 다양한 스펙.
- 32K 토큰 Long Context 처리 강화: RAG, 대규모 문서 요약, 분석에 최적화. 실제 Effective Context Length 보장.
- Instruction Following 최상위 성능: 7개 벤치마크 평균 1위, 다국어 환경서도 우수.
- 효율적 사전·사후학습(DPO, SFT), Decontamination 실시: 중복·개인정보 제거로 안전성·신뢰도 향상.
- AI 윤리 공개: 혐오 표현 필터링 성능 우수, 지역/직업 편향 개선 필요사항 명시. 투명성 확보로 연구자 커뮤니티 기여.
Microsoft, TRELLIS3D 3D 생성 모델
링크, 2024/12/04
- Structured Latent(SLAT) 표현 도입: 3D 격자 + 시각 특징 융합해 Radiance Fields, 3D Gaussians, Meshes 등 다양한 포맷으로 디코딩 가능.
- Rectified Flow Transformers 적용: 3D latent space 상에서 안정적 학습, 대규모 50만개 3D 오브젝트로 훈련된 최대 2B 파라미터 모델.
- 멀티모달 입력(텍스트, 이미지)으로 3D 오브젝트 생성: 세밀한 형상, 텍스처 구현, 다양한 산업 분야(AR/VR, 게임, 디자인) 활용성.
- 고성능·유연한 편집 지원: 로컬부분 편집, 다양한 출력형태 지원으로 생산성 확대.
- 오픈소스: 코드·모델 공개, 3D 생성 연구 발전 기여.
HuggingFace, FineWeb 2.0 대규모 코퍼스
링크, 2024/12/09
- 8TB, 약 3조 토큰: 2013~2024년 CommonCrawl 기반, 1000+ 언어 포괄.
- 정교한 필터링 및 디듀플리케이션: 언어별 정제 프로세스, 불필요/민감한 정보 제거. 데이터 품질 극대화.
- CC-100, mC4 등 기존 코퍼스 대비 성능 향상: FineTasks 벤치마크로 입증, 다국어 모델 연구 시 최적화된 프리트레이닝 데이터 제공.
- ODC-By 1.0 라이선스: 상업용 활용 가능, 코드 공개로 재현성 및 확장성 확보.
AWS, Amazon Nova 파운데이션 모델 패밀리 공개
링크, 2024/12/04
- Nova Micro/Lite/Pro/Premier/Canvas/Reel 시리즈: 가격-성능 스펙트럼 상 다양한 선택지. 텍스트, 이미지, 비디오 입력 처리 지원.
- RAG(현실 정보 강화) 및 파인튜닝/디스틸링 지원: 고객 데이터 기반 맞춤 모델 생성, 정확도·사실성 개선.
- 멀티모달·Multilanguage 지원: 200개 언어, 영상 이해/생성, 에이전트 연동 등 확장성 높음.
- Bedrock 기반 통합: 단일 API로 다양한 FM 접근, 기업 애플리케이션 배치 용이.
- 향후 발전 방향: 음성-음성, Any-to-Any 멀티모달 모델 계획으로 전방위 AI 어시스턴트 구현 목표.
Huggingface, TGI(Text Generation Inference) 3.0 릴리즈
링크, 2024/12/10
- 3배 많은 토큰 처리 및 vLLM 대비 13배 속도 향상: 긴 프롬프트 처리 효율 대폭 개선. 대규모 토큰 문자열(200k+ 토큰) 처리 시 캐싱 활용.
- Zero Configuration 최적화: 하드웨어·모델 기반 자동 파라미터 설정으로 사용 편의성 증대.
- Flash-infer, Flash-decoding 커널 도입: Prompt ingestion 속도 증가, 메모리 사용량 감소.
- Prefix Caching 최적화: 같은 프롬프트 반복 시 응답 시간 극단적 단축, 실시간 서비스에 적합.
- 미래 계획: 특수 모델 지원, 장기 KV-cache 유지, 멀티모달 모델 호환성 개선 예정.
PyTorch, vLLM PyTorch 생태계 합류
링크, 2024/12/09
- vLLM: 고효율 LLM 서빙 엔진: PagedAttention 알고리즘 기반으로 메모리 효율적 캐시 관리, 하드웨어 가속기 전반 지원.
- 초대규모 인퍼런스 성공사례: 아마존 Prime Day기간 초대량 트래픽(3백만 토큰/분) 1초 미만 응답 지연으로 처리, 실서비스 검증.
- LLAMA, Qwen, DeepSeek 등 대형 모델 최적화: 다양한 백엔드(GPU, TPU, CPU)와 호환, 최적화된 분산 추론 제공.
- 오픈소스 기반 발전: 대형 커뮤니티 지원, PyTorch와 긴밀 결합으로 LLM 모델 효율적 서비스 배치 용이.
- PyTorch 생태계 공식 합류: PyTorch Ecosystem 프로젝트로 인정, AI 업계 표준화 기여.
Sources
This GPT assists users by creating a detailed daily newspaper in Korean based on provided links. It follows these steps: read the content, summarize each content with detailed points, and write a report. The report format is:
(today’s date in 년 월 일) AI 소식,
Summary
(overall short summary, make summary with good details. for Summary section, explain the details starting with company name, e.g. OpenAI에서는 ~~~를 발표하였습니다.)
company name, Title
링크, date
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
company name, Title
링크, date
링크, date,
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
…
1 | ### |
기술적으로 최대한 자세하게 적어. 14개의 기사가 있고 하나도 빼먹지 말고 적어.