Anthropic에서는 AI 비서 Claude가 사람처럼 컴퓨터를 직접 사용할 수 있는 새로운 기능을 개발하여, 사용자 명령에 따라 화면에서 커서를 이동하고 클릭하며, 가상 키보드를 통해 정보를 입력할 수 있게 되었다고 발표하였습니다. 또한 Claude.ai에 새로운 분석 도구를 도입하여 Claude가 JavaScript 코드를 작성하고 실행할 수 있게 되어, 데이터 처리와 실시간 인사이트 제공이 가능해졌습니다. META에서는 Llama 3.2 모델을 출시하여 엣지 및 모바일 장치에 적합한 경량 텍스트 전용 모델(1B 및 3B)과 시각적 LLM(11B 및 90B)을 포함한다고 발표하였습니다. Cohere에서는 23개 언어를 지원하는 Aya Expanse 8B 및 32B 모델을 출시하여 멀티링구얼 모델의 성능을 크게 향상시켰습니다. Hugging Face에서는 Diffusers 라이브러리에 Stable Diffusion 3.5 Large 모델을 추가하여 개선된 이미지 생성 기능을 제공하며, AutoTrain Advanced를 소개하여 다양한 작업에 대해 모델을 훈련하거나 미세 조정할 수 있는 오픈 소스, 코드 없는 도구를 제공한다고 발표하였습니다. 또한 Inference Endpoints를 통해 Speech-to-Speech 기능을 배포할 수 있게 되어, 고성능 애플리케이션을 위한 솔루션을 제공합니다. Genmo에서는 고품질 비디오 생성 모델인 Mochi 1을 공개하여 일관된 인간의 동작과 표현을 생성할 수 있게 되었습니다. Microsoft에서는 UI 스크린샷을 구조화된 요소로 해석하는 OmniParser를 발표하여 GPT-4V와 같은 강력한 LLM이 인터페이스의 관심 영역을 정확하게 파악할 수 있게 되었습니다. OpenAI에서는 연속시간 일관성 모델(sCM)에 대한 새로운 접근 방식을 공유하여 두 단계의 샘플링만으로도 선도적인 확산 모델과 견줄 만한 샘플 품질을 달성할 수 있다고 발표하였습니다. 연구자들은 LLM을 위한 데이터 합성과 증강에 대한 종합적인 설문조사를 발표하여 데이터 효율성을 높이고 새로운 데이터 소스를 탐색하는 방법을 논의하였습니다.
Anthropic, “Developing a computer use model”
링크, 2024년 10월 23일
- Claude 3.5 Sonnet은 이제 컴퓨터 화면을 보고 마우스와 키보드를 사용하여 사람처럼 컴퓨터를 조작할 수 있음
- 이 기능은 현재 공개 베타 버전으로 제공되며, AI의 중요한 진전으로 간주됨
- 컴퓨터 사용 모델 개발을 위한 연구 과정에서 이미지 이해와 도구 사용 능력을 결합함
- 간단한 소프트웨어에 대한 훈련으로부터 Claude가 빠르게 일반화함을 발견함
- OSWorld 평가에서 14.9%의 성능을 달성하여 현재 최고 수준을 달성함
- 안전성 측면에서 프롬프트 인젝션 공격과 같은 새로운 위험을 식별하고 완화 조치를 마련함
- 미래에는 더 빠르고 신뢰할 수 있으며 유용한 컴퓨터 사용 기능을 개발할 계획임
Anthropic, “Introducing the analysis tool in Claude.ai”
링크, 2024년 10월 25일
- Claude.ai에 분석 도구를 도입하여 Claude가 JavaScript 코드를 작성하고 실행할 수 있게 함
- 이제 Claude는 데이터 처리, 분석 수행 및 실시간 인사이트 제공이 가능함
- 분석 도구는 모든 Claude.ai 사용자에게 기능 미리보기로 제공됨
- 내장된 코드 샌드박스로서 복잡한 수학 계산, 데이터 분석 및 아이디어 반복이 가능함
- CSV 파일에서 데이터 분석 및 시각화 지원
- 마케팅, 영업, 제품 관리, 엔지니어링, 금융 팀이 활용할 수 있는 다양한 예시 제공
- 시작하려면 Claude.ai에 로그인하여 기능 미리보기를 활성화하면 됨
META, “Llama 3.2: Revolutionizing edge AI and vision with open, customizable models”
링크, 2024년 9월 25일
- Llama 3.2를 출시하여 엣지 및 모바일 장치에 적합한 경량 텍스트 모델(1B 및 3B)과 비전 LLM(11B 및 90B)을 포함함
- 1B 및 3B 모델은 128K 토큰의 컨텍스트 길이를 지원하며 온디바이스 요약, 지시 따르기, 재작성 작업에 적합함
- 11B 및 90B 비전 모델은 텍스트 모델과 호환되며 이미지 이해 작업에서 우수한 성능을 보임
- Llama Stack 배포판을 처음으로 공개하여 다양한 환경에서 Llama 모델 작업을 단순화함
- AWS, Databricks, Dell Technologies 등과 협력하여 Llama Stack 배포판을 구축함
- 모델 평가에서 Llama 3.2 비전 모델이 Claude 3 Haiku와 같은 폐쇄형 모델과 경쟁함을 보여줌
- 안전성을 위해 Llama Guard 3 11B Vision 및 Llama Guard 3 1B를 도입하여 안전 조치를 강화함
Cohere, “Cohere releases Aya 8B & 32B: SOTA multilingual models for 23 languages!”
링크, 2024년 10월 25일
- Cohere는 Aya Expanse 8B 및 32B 모델을 출시하여 23개 언어에 대한 최첨단 멀티링구얼 모델을 제공함
- 합성 데이터를 사용하여 모델 붕괴를 방지하기 위해 “데이터 중재” 기법을 도입함
- 여러 교사 모델로부터 전략적으로 샘플링하여 성능 향상
- 언어별로 모델을 훈련한 후 병합하는 모델 병합 기술 사용
- Aya Expanse 8B는 Gemma 2 9B, Llama 3.1 8B, Mistral 8B 등을 능가함
- Aya Expanse 32B는 Gemma 2 27B, Mistral 8x22B, Llama 3.1 70B보다 우수한 성능을 보임
- 모델은 오픈 가중치로 제공되지만 CC-by-NC 비상업용 라이선스를 따름
Stability AI, “🧨 Diffusers welcomes Stable Diffusion 3.5 Large”
링크, 2024년 10월 22일
- Stable Diffusion 3.5는 Stable Diffusion 3의 개선된 버전으로 Hugging Face Hub에서 사용할 수 있음
- 두 개의 체크포인트를 제공함: 대형(8B) 모델과 시간 단계 증류된 대형(8B) 모델로, 몇 단계의 추론을 가능하게 함
- SD3.5의 트랜스포머 아키텍처는 SD3(중형)와 유사하지만 QK 정규화 및 이중 어텐션 레이어 등 몇 가지 변경 사항이 있음
- 나머지 세부 사항은 SD3 Medium과 동일함
Genmo, “Introducing Mochi 1: The best open source video generation model”
링크, 2024년 10월 22일
- Mochi 1은 세계 최고의 오픈 비디오 생성 모델의 연구 프리뷰로 공개됨
- 고품질의 비디오와 강력한 프롬프트 준수를 제공함
- 일관된 인간의 동작과 표현을 생성하여 불쾌한 골짜기를 넘어섬
- Apache 2.0 라이선스로 제공되며 Hugging Face Hub에서 모델 사용 가능
Hugging Face, “AutoTrain: No-code training for state-of-the-art models”
링크, 2024년 10월 21일
- AutoTrain Advanced를 소개하여 최첨단 모델을 위한 코드 없는 훈련을 가능하게 함
- LLM 미세 조정, 텍스트 분류/회귀, 토큰 분류, 시퀀스-투-시퀀스 작업, 문장 변환기 미세 조정, VLM 미세 조정, 이미지 분류/회귀, 표 형식 데이터의 분류 및 회귀 작업 지원
- AutoTrain Advanced는 https://github.com/huggingface/autotrain-advanced 에서 오픈 소스로 제공됨
- 완전히 로컬 모드 또는 클라우드 머신에서 사용할 수 있으며 Hugging Face Hub에 공유된 모델들과 함께 작동함
Hugging Face, “Deploying Speech-to-Speech on Hugging Face”
링크, 2024년 10월 22일
- Hugging Face의 Inference Endpoints를 사용하여 Speech-to-Speech를 배포할 수 있게 됨
- L4 GPU에서 시간당 $0.80으로 초저지연 성능을 제공함
- 낮은 지연 시간을 위한 맞춤형 Docker 이미지를 생성하고 솔루션을 오픈 소스로 공개함
- 고성능 애플리케이션을 위한 솔루션을 제공하여 복잡한 서버 설정이나 클라우드 제공자 문제 없이 빠른 지연 시간을 달성함
Microsoft, “OmniParser: Screen Parsing tool for Pure Vision Based GUI Agent”
링크, 2024년 10월 25일
- OmniParser는 사용자 인터페이스 스크린샷을 구조화된 요소로 파싱하는 도구로 순수 비전 기반의 GUI 에이전트를 위해 개발됨
- OpenAI의 GPT-4V가 컴퓨터를 조작할 수 있도록 지원함
- 강력한 LLM이 인터페이스의 관심 영역을 정확하게 파악할 수 있게 함
- YOLOv8와 BLIP-2 모델을 미세 조정한 버전을 포함함
- 다양한 스크린샷을 구조화된 형식으로 변환하여 AI 에이전트의 효율성을 향상시킴
연구자 그룹, “A Survey on Data Synthesis and Augmentation for Large Language Models”
링크, 2024년 10월 16일
- LLM을 위한 데이터 합성과 증강에 대한 종합적인 설문 조사를 발표함
- 훈련 데이터셋의 확장이 고품질 데이터의 성장 속도를 앞지르면서 데이터 고갈 위기가 다가오고 있음을 강조함
- LLM의 수명 주기 전반에 걸친 데이터 생성 기술을 검토하고 요약함
- 이러한 방법이 직면한 현재의 제약과 향후 개발 및 연구를 위한 잠재적 경로를 조사함
- 연구자들이 LLM 구축에서 적절한 데이터 생성 전략을 신속하게 식별할 수 있도록 돕고자 함
OpenAI, “Simplifying, stabilizing, and scaling continuous-time consistency models”
링크, 2024년 10월 23일
- OpenAI는 연속시간 일관성 모델(sCM)에 대한 새로운 접근 방식을 공유함
- 이 접근 방식은 이론적 공식화를 단순화하고 훈련 과정을 안정화하여 대규모 데이터셋으로의 확장을 가능하게 함
- 두 단계의 샘플링만으로 선도적인 확산 모델과 견줄 만한 샘플 품질을 달성함
- sCM은 사전 훈련된 확산 모델로부터 지식을 증류함
- 이미지, 오디오, 비디오 등 다양한 도메인에서 실시간 생성의 가능성을 열어줌
- 더 나은 추론 속도와 샘플 품질을 가진 생성 모델 개발을 지속할 계획임
Sources
This GPT assists users by creating a detailed daily newspaper in Korean based on provided links. It follows these steps: read the content, summarize each content with detailed points, and write a report. The report format is:
(today’s date in 년 월 일) AI 소식,
Summary
(overall short summary, make summary with good details. for Summary section, explain the details starting with company name, e.g. OpenAI에서는 ~~~를 발표하였습니다.)
company name, Title
링크, date
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
company name, Title
링크, date
링크, date,
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
…
1 | ### |
기술적으로 최대한 자세하게 적어. 11개의 기사가 있고 하나도 빼먹지 말고 적어.