오늘 AI 소식에서는 Google, DeepMind, Meta, Microsoft, Apple, NousResearch, Hugging Face와 같은 주요 기업들이 발표한 최신 AI 기술과 제품들을 다루었습니다. Google은 Gemini 2.0 및 Veo 2, Imagen 3과 같은 첨단 AI 모델을 공개하였으며, DeepMind는 Project Mariner를 통해 브라우저 제어 혁신을 선보였습니다. Meta는 Apollo Multimodal Models와 Meta Motivo를 발표하여 멀티모달 및 휴머노이드 제어 분야에서의 선도적인 위치를 확립하였습니다. Microsoft는 Phi-4를 출시하여 소형 언어 모델의 복잡한 추론 능력을 강화하였으며, Apple은 Apple Intelligence의 새로운 기능들을 공개하여 사용자 경험을 크게 향상시켰습니다. 또한, NousResearch와 Hugging Face는 Hermes 3 및 ProcessBench를 발표하여 AI의 효율성과 정확성을 높였고, Microsoft는 MarkItDown 라이브러리를 통해 다양한 파일 형식을 Markdown으로 변환하는 도구를 공개하였습니다.
Gemini 2.0 발표
링크, 2024년 12월 11일
- Gemini 2.0 Flash Experimental 출시: Google Labs에서 Gemini 2.0 Flash Experimental을 발표하여, 이전 버전인 Gemini 1.5 Flash 대비 두 배 빠른 속도와 강화된 멀티모달 성능을 제공.
- 멀티모달 라이브 API 도입: 실시간 오디오 및 비디오 스트리밍 입력을 지원하는 멀티모달 라이브 API를 도입하여, 개발자들이 더욱 동적이고 인터랙티브한 애플리케이션을 구축할 수 있도록 지원.
- Jules AI 코딩 에이전트: 코드 실행 도구를 갖춘 Jules라는 AI 코딩 에이전트를 도입하여, 개발자의 워크플로우를 향상시키고, 버그 수정 및 코드 리뷰를 자동화.
- Colab 데이터 과학 에이전트 통합: Colab의 데이터 과학 에이전트가 Gemini 2.0을 활용하여 자연어 명령으로 노트북을 생성하고, 데이터 분석을 자동화함으로써 연구 및 개발 시간을 대폭 단축.
- 멀티모달 출력 지원: Gemini 2.0 Flash는 텍스트, 오디오, 이미지 등 다양한 출력 모달리티를 단일 API 호출로 통합 생성 가능, SynthID 물리적 워터마크를 통해 AI 생성 콘텐츠의 출처 식별 용이.
Veo 2 및 Imagen 3 업데이트
링크, 2024년 12월 16일
- Veo 2 발표: 최신 비디오 생성 모델 Veo 2를 발표, 4K 해상도 지원 및 실시간 물리 및 인간 움직임 이해 능력 향상. 영화 촬영 언어를 이해하여 다양한 장르와 촬영 효과를 반영한 고품질 비디오 생성 가능.
- Imagen 3 개선: 이미지 생성 모델 Imagen 3을 업데이트하여 더 밝고 정교한 이미지 생성, 다양한 예술 스타일의 정확한 렌더링 및 풍부한 디테일과 텍스처 제공.
- Whisk 실험 도구 도입: 새로운 실험 도구 Whisk를 통해 이미지 기반 아이디어를 시각화하고 리믹스할 수 있는 기능을 추가, 사용자 맞춤형 디지털 플러시, 에나멜 핀, 스티커 등을 생성 가능.
- Veo 2 및 Imagen 3 통합: VideoFX, ImageFX 및 Whisk에서 Veo 2와 Imagen 3의 최신 기능을 활용할 수 있도록 지원, Google Labs에서 초기 사용자에게 공개 및 추후 제품군에 통합 예정.
DeepMind
Project Mariner 출시
링크, 2024년 12월 13일
- Project Mariner 발표: DeepMind에서 Project Mariner를 발표, Gemini 2.0을 기반으로 하는 브라우저 제어 크롬 확장 프로그램 출시.
- 브라우저 상호작용 자동화: URL 입력, 페이지 스크롤, 버튼 클릭 등 다양한 웹사이트 상호작용을 자동화하여 사용자 지시를 정확하게 수행.
- 멀티모달 이해 및 추론: 화면의 픽셀, 텍스트, 코드, 이미지, 폼 등 다양한 웹 요소를 이해하고 추론하여 복잡한 웹사이트에서도 안정적인 성능 발휘.
- WebVoyager 벤치마크 성과: Project Mariner는 WebVoyager 벤치마크에서 90.5%의 높은 성과를 기록, 실제 웹사이트에서의 높은 신뢰성과 효율성 입증.
- 연구 프로토타입 단계 유지: 현재 소규모 신뢰된 테스터 그룹에게만 공개되어 연구 프로토타입 단계로, API나 프로그램적 사용에 대한 정보는 제공되지 않음.
Meta
Apollo Multimodal Models 발표
링크, 2024년 12월 17일
- Apollo Multimodal Models 공개: Meta에서 Apollo Multimodal Models를 발표, Apache 2.0 라이선스로 공개하여 오픈 소스 커뮤니티와의 협력 강화.
- 모델 성능: Apollo-7B 모델은 Video-MME에서 61.2점, MLVU에서 70.9점, ApolloBench에서 66.3점을 기록하며, 30B+ 파라미터 모델인 Oryx-34B와 VILA1.5-40B를 능가하는 성능을 보임.
- 모델 체크포인트 제공: 1.5B, 3B, 7B 모델 체크포인트를 제공하며, transformers 라이브러리와 호환 가능하여 다양한 개발 환경에서 손쉽게 활용 가능.
- Stanford University와 협력 연구: 비디오 이해 메커니즘을 체계적으로 탐구하는 연구를 진행, 모델의 효율성과 고성능을 위한 설계 요소 분석.
- ApolloBench 벤치마크 도입: 효율적인 평가를 위한 새로운 벤치마크 ApolloBench를 도입, 비디오-언어 모델링의 성능을 체계적으로 평가 가능.
Meta Motivo 발표
링크, 2024년 12월 12일
- Meta Motivo 발표: Meta에서 Meta Motivo를 발표, 제로샷 휴머노이드 제어를 위한 행동 기초 모델로 소개.
- 알고리즘 혁신: Forward-Backward Representations with Conditional-Policy Regularization (FB-CPR) 알고리즘 도입, 비지도 강화 학습을 통한 유연한 정책 학습.
- 모델 훈련: AMASS 모션 캡처 데이터셋과 3천만 개의 온라인 상호작용 샘플을 사용하여 고차원 가상 휴머노이드 에이전트 제어 능력 강화.
- 다양한 작업 수행: 모션 트래킹, 목표 도달, 보상 최적화 등 다양한 전신 작업을 제로샷으로 수행 가능, 인간과 유사한 행동 표현 및 우수한 성과 기록.
- 새로운 휴머노이드 벤치마크: Meta Motivo는 새로운 휴머노이드 벤치마크에서 기존 비지도 RL 및 모델 기반 베이스라인을 능가하는 성과를 보임.
- 오픈 소스 발표: 사전 훈련된 모델, 휴머노이드 벤치마크, 훈련 코드를 공개하여 커뮤니티의 연구 발전 촉진.
Microsoft
Phi-4 출시
링크, 2024년 12월 13일
- Phi-4 발표: Microsoft에서 Phi-4, 140억 파라미터의 소형 언어 모델 발표, 복잡한 수학 문제 해결에 특화된 성능 제공.
- 벤치마크 성과: Phi-4는 수학 경쟁 문제에서 Gemini Pro 1.5를 능가하며, 다양한 수학 관련 추론 벤치마크에서 우수한 성과를 기록.
- Azure AI Foundry 출시: Phi-4는 현재 Azure AI Foundry에서 Microsoft Research License Agreement (MSRLA)를 통해 사용 가능, 다음 주에는 Hugging Face에서도 공개 예정.
- 책임 있는 AI 개발: Azure AI Content Safety 기능 제공, 프롬프트 보호, 보호된 자료 감지, 근거성 감지 등을 통해 AI 위험 관리 및 콘텐츠 필터링 지원.
- 데이터 품질 향상: Phi-4는 고품질 합성 데이터와 유기적 데이터의 조합, 후처리 혁신을 통해 크기 대비 뛰어난 품질과 복잡한 추론 능력 달성.
- 기술 혁신: Phi-4는 기존 Phi-3 아키텍처의 미세 조정을 통해 STEM 중심의 QA 능력 대폭 향상, 데이터 생성 및 후처리 기법을 통해 GPT-4를 능가하는 성과 제공.
MarkItDown 라이브러리 공개
링크, 2024년 12월 17일
- MarkItDown 발표: Microsoft에서 MarkItDown 라이브러리를 공개, 다양한 파일 형식을 Markdown으로 변환하는 유틸리티 도구 제공.
- 지원 파일 형식: PDF, PowerPoint (.pptx), Word (.docx), Excel (.xlsx), 이미지 (EXIF 메타데이터 및 OCR), 오디오 (EXIF 메타데이터 및 음성 전사), HTML, CSV, JSON, XML 등 다양한 형식 지원.
- 설치 및 사용: pip를 통해 간편하게 설치 가능하며, 명령줄 유틸리티 및 Docker 이미지로도 사용 가능. 예를 들어,
markitdown path-to-file.pdf > document.md
명령어로 PDF 파일을 Markdown으로 변환 가능. - LLM 통합: Large Language Models를 사용하여 이미지 설명 기능 추가 가능, OpenAI의 GPT-4o와 연동하여 이미지 설명 자동화 지원.
- 유연한 사용: API를 통해 다양한 설정 가능, Docker 이미지를 통해 컨테이너 환경에서도 손쉽게 활용 가능.
NousResearch
Hermes 3 발표
링크, 2024년 12월 15일
- Hermes 3 발표: NousResearch에서 Hermes 3 모델 발표, Llama-3.2 3B 파운데이션 모델을 기반으로 한 최신 인스트럭트 튜닝 모델.
- 모델 특징: Hermes 3 3B는 고급 에이전틱 기능, 향상된 역할 수행, 멀티턴 대화, 긴 컨텍스트 유지, 코드 생성 능력 강화.
- 훈련 세부 사항: PRM800K 데이터셋을 활용하여 세부 조정, LambdaLabs GPU 클라우드를 사용하여 H100s에서 훈련 완료.
- 벤치마크 성과: GPT-4o와 경쟁력 있는 성과를 기록하며, 기존 PRMs 대비 복잡한 문제에서 우수한 일반화 능력 보유.
- 기능 확장: Hermes 3 시리즈는 Hermes 2의 기능을 확장, 신뢰할 수 있는 함수 호출, 구조화된 출력 능력, 일반적인 어시스턴트 기능, 향상된 코드 생성 기술 포함.
- 오픈 소스 지원: Hermes 3는 Hugging Face 플랫폼에서 공개되어 개발자들이 쉽게 접근하고 활용할 수 있도록 지원.
Hugging Face
ProcessBench 공개
링크, 2024년 12월 10일
- ProcessBench 발표: Hugging Face에서 ProcessBench를 공개, 수학적 추론 과정에서 오류를 식별하기 위한 새로운 벤치마크.
- 벤치마크 구성: 3,400개의 경쟁 및 올림피아드 수준의 수학 문제 포함, 단계별 해결 과정에 오류 위치가 전문가에 의해 주석 처리됨.
- 모델 평가: Process Reward Models(PRMs)와 비평가 모델(critic models)을 통해 광범위한 평가 수행. PRMs는 복잡한 문제에서 일반화에 어려움을 겪는 반면, QwQ-32B-Preview 모델은 GPT-4o와 경쟁력 있는 성과를 보임.
- 주요 발견:
- 기존 PRMs는 GSM8K 및 MATH 외의 복잡한 수학 문제에서 일반화 능력이 떨어짐.
- 비평가 모델(일반 언어 모델)이 오류 감지에서 PRMs보다 우수한 성과를 보임.
- PRMs를 PRM800K 데이터셋으로 세부 조정할 경우 성능 향상.
- 오픈 소스 기여: ProcessBench는 연구자들이 언어 모델의 추론 과정 평가를 개선하고, 향후 AI 모델의 오류 식별 능력을 높이기 위한 연구를 촉진할 것으로 기대됨.
- 향후 계획: PRM 모델은 곧 Hugging Face에서 공개될 예정, 연구자들과 개발자들이 쉽게 접근하여 활용 가능.
Apple
Apple Intelligence 새로운 기능 발표
링크, 2024년 12월 11일
- Apple Intelligence 업데이트: iOS 18.2, iPadOS 18.2, macOS Sequoia 15.2 업데이트와 함께 Apple Intelligence의 새로운 기능 공개.
- Image Playground: 테마, 의상, 액세서리, 장소 등을 활용하여 창의적인 이미지 생성 가능. 사용자 사진을 기반으로 가족이나 친구의 모습과 유사한 이미지를 생성할 수 있으며, Animation 및 Illustration 스타일 지원.
- Genmoji 도입: 사용자가 텍스트 설명을 입력하면 다양한 옵션의 Genmoji를 생성하여 대화에서 더 재미있고 창의적인 이모지 사용 가능. 사용자 사진을 활용한 맞춤형 Genmoji도 지원.
- Writing Tools 향상: Rewrite, Proofread, Summarize 기능에 Describe Your Change 옵션 추가, 사용자가 원하는 변경 사항을 구체적으로 지정하여 텍스트 수정 가능.
- ChatGPT 통합: Siri 및 Writing Tools에 ChatGPT 통합, 사용자가 앱 간 전환 없이도 AI의 도움을 받을 수 있도록 개선. Compose 기능을 통해 글 작성 시 ChatGPT의 콘텐츠 생성 및 이미지 생성 기능 활용 가능.
- Visual Intelligence: iPhone 16 시리즈의 Camera Control을 통해 주변 환경을 실시간으로 분석, 텍스트 요약, 번역, 전화번호 및 이메일 감지, Google 검색 연동 등 다양한 기능 제공.
- 언어 확장: 호주, 캐나다, 아일랜드, 뉴질랜드, 남아프리카, 영국 등 영어 현지화 지원 확대, 추가적으로 중국어, 인도 영어, 싱가포르 영어, 프랑스어, 독일어, 이탈리아어, 일본어, 한국어, 포르투갈어, 스페인어, 베트남어 등 다양한 언어 지원 예정.
- 프라이버시 보호: Apple Intelligence는 온디바이스 처리 방식을 채택하여 사용자 데이터 보호 강화, Private Cloud Compute를 통해 클라우드에서도 데이터 저장 및 공유 없이 AI 기능 제공.
Sources
This GPT assists users by creating a detailed daily newspaper in Korean based on provided links. It follows these steps: read the content, summarize each content with detailed points, and write a report. The report format is:
(today’s date in 년 월 일) AI 소식,
Summary
(overall short summary, make summary with good details. for Summary section, explain the details starting with company name, e.g. OpenAI에서는 ~~~를 발표하였습니다.)
company name, Title
링크, date
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
company name, Title
링크, date
링크, date,
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
…
1 | ### |
기술적으로 최대한 자세하게 적어. 10개의 기사가 있고 하나도 빼먹지 말고 적어.