- Amazon에서는 새로운 파운데이션 모델 Amazon Nova를 발표하였습니다. 이 모델은 Amazon Bedrock을 통해 독점적으로 제공되며, 텍스트부터 비디오 생성까지 다양한 기능을 지원합니다.
- Meta AI와 난양기술대학교 연구팀은 EfficientTAM을 공개하였습니다. 이는 경량의 Vision Transformer를 사용하여 비디오 객체 분할 및 추적의 효율성을 높였습니다.
- IDEA Research에서는 DINO-X를 발표하였습니다. 이는 개방형 객체 감지와 이해를 위한 세계 최고의 비전 모델로, 다양한 입력 프롬프트와 다중 레벨의 출력 표현을 지원합니다.
- 베이징교통대학 연구팀은 O1-CODER를 소개하였습니다. 이는 OpenAI의 O1 모델을 복제하여 코딩 작업에 특화된 시스템입니다.
- Google DeepMind에서는 Generative Omnimatte를 발표하였습니다. 이 기술은 비디오를 레이어로 분해하여 객체와 그에 따른 효과를 분리합니다.
- Tencent 연구팀은 HiFiVFS를 선보였습니다. 이는 고품질의 비디오 얼굴 교체를 가능하게 하는 프레임워크로, 복잡한 조건에서도 우수한 성능을 보여줍니다.
- 싱가포르 국립대학교와 Microsoft 연구팀은 ShowUI를 공개하였습니다. 이는 어떤 UI에서도 동작할 수 있는 작은 종단 간 에이전트입니다.
- Pydantic 팀은 PydanticAI를 출시하였습니다. 이는 Pydantic을 활용하여 LLM과 함께 사용할 수 있는 에이전트 프레임워크입니다.
- Quivr에서는 MegaParse를 소개하였습니다. 이는 모든 유형의 문서를 처리할 수 있는 강력한 파서입니다.
- Google Research에서는 LLM 임베딩을 활용한 회귀 분석에 대한 연구를 발표하였습니다.
- Adobe 연구팀은 DynaSaur를 발표하였습니다. 이는 사전 정의된 액션을 넘어서는 대형 언어 모델 에이전트입니다.
- ConsisID는 일관성 있는 아이덴티티 보존 텍스트-비디오 생성 모델을 제안하였습니다.
- Hugging Face에서는 ShowUI-2B 모델을 공개하였습니다.
- DataLab은 LLM을 활용한 비즈니스 인텔리전스를 위한 통합 플랫폼을 소개하였습니다.
Amazon, Amazon Nova 파운데이션 모델 발표
링크, 2024년 12월 3일
- Amazon은 새로운 세대의 최첨단 파운데이션 모델인 Amazon Nova를 발표함.
- Amazon Nova는 Amazon Bedrock을 통해 독점적으로 제공되며, 다양한 생성 AI 작업을 지원함.
- Understanding Models와 Creative Content Generation Models의 두 가지 카테고리로 구성됨.
- Understanding Models는 텍스트, 이미지, 비디오 입력을 받아 텍스트 출력을 생성하며, Micro, Lite, Pro, Premier의 네 가지 모델로 구성됨.
- Amazon Nova Micro: 텍스트 전용 모델로, 128K 토큰의 컨텍스트 길이를 지원하며, 낮은 지연 시간과 비용으로 텍스트 요약, 번역, 분류 등에 최적화됨.
- Amazon Nova Lite: 멀티모달 모델로, 최대 300K 토큰의 컨텍스트 길이를 지원하며, 이미지, 비디오, 텍스트 입력을 처리하여 텍스트 출력을 생성함.
- Amazon Nova Pro: 고성능 멀티모달 모델로, 복잡한 추론 및 에이전트 워크플로우를 지원하며, 300K 토큰의 컨텍스트 길이를 가짐.
- Amazon Nova Premier: 가장 강력한 멀티모달 모델로, 2025년에 출시 예정임.
- Creative Content Generation Models는 텍스트 및 이미지 입력을 받아 이미지 또는 비디오 출력을 생성함.
- Amazon Nova Canvas: 스튜디오 품질의 이미지를 생성하며, 인페인팅, 아웃페인팅, 배경 제거 등의 편집 기능을 제공함.
- Amazon Nova Reel: 텍스트 프롬프트와 이미지를 통해 전문적인 품질의 비디오를 생성함.
- 모든 모델은 내장된 안전 제어 및 워터마크 기능을 포함하여 책임 있는 AI 사용을 촉진함.
- Amazon Bedrock을 통해 사용자 지정 및 미세 조정이 가능하며, Retrieval-Augmented Generation(RAG), 함수 호출, 에이전트 응용 프로그램에 탁월한 성능을 보임.
- 현재 미국 내 AWS 리전에서 제공되며, 가격은 모델과 사용량에 따라 다름.
Meta AI 및 난양기술대학교, EfficientTAM 발표
링크, 2024년 12월 5일
- **EfficientTAM(Efficient Track Anything Model)**을 공개함.
- 경량의 Vision Transformer(ViT)를 사용하여 비디오 객체 분할 및 추적의 효율성을 향상시킴.
- iPhone 15에서 초당 10프레임 이상의 실시간 성능을 달성함.
- **SAM 2(Segment Anything Model 2)**와 비교하여 유사한 성능을 유지하면서도 속도와 효율성을 향상시킴.
- 효율적인 메모리 크로스 어텐션을 도입하여 메모리 계산을 최적화하고, 메모리 공간 임베딩의 강력한 지역성을 활용함.
- 여러 비디오 세분화 벤치마크(예: Semi-supervised VOS, Promptable Video Segmentation)에서 우수한 성능을 입증함.
- 다양한 프롬프트(포인트, 박스, 세그먼트 등)를 지원하며, 이미지 세분화에서도 향상된 성능을 보임.
- 경량의 ViT와 효율적인 메모리 모듈을 결합하여 모델 크기와 지연 시간을 줄임.
IDEA Research, DINO-X 발표
링크, 2024년 11월 25일
- DINO-X는 개방형 객체 감지 및 이해를 위한 최첨단 비전 모델임.
- 이전 버전인 Grounding DINO 1.5 및 1.6 대비 성능을 크게 향상시킴.
- COCO, LVIS-minival, LVIS-val 등의 제로샷 객체 감지 벤치마크에서 새로운 최고 성능을 달성함.
- 특히 LVIS의 희귀 클래스에서 이전 모델 대비 5.8 AP 및 5.0 AP의 성능 향상을 보임.
- 다양한 입력 프롬프트(텍스트, 비주얼, 사용자 정의)를 지원하며, 바운딩 박스, 세그멘테이션 마스크, 포즈 키포인트, 객체 캡션 등 다중 레벨의 출력 표현을 제공함.
- 개방형 객체 감지, 프레이즈 그라운딩, 비주얼 카운팅, 포즈 추정, 프롬프트 없는 객체 감지 및 인식 등 다양한 실용적인 작업을 지원함.
- Grounding DINO와 **SAM(Segment Anything Model)**의 조합인 Grounded SAM과 비교하여 통합된 비전 모델로서 효율성과 성능을 향상시킴.
베이징교통대학, O1-CODER 소개
링크, 2024년 12월 4일
- O1-CODER는 OpenAI의 O1 모델을 코딩 작업에 특화하여 복제한 시도임.
- 강화 학습(RL)과 몬테카를로 트리 탐색(MCTS)을 통합하여 모델의 시스템 2 사고 능력을 향상시킴.
- **테스트 케이스 생성기(TCG)**를 훈련하여 표준화된 코드 테스트를 수행함.
- 자체 플레이와 강화 학습을 통해 모델이 추론 프로세스를 포함한 코드 데이터를 생성하고, 정책 모델을 반복적으로 최적화함.
- 모델은 초기에는 의사 코드(pseudo-code)를 생성하고, 이후에 전체 코드를 생성하도록 훈련됨.
- 실제 응용에서의 기회와 도전을 다루며, 시스템 2 패러다임으로의 전환을 제안함.
- 모든 소스 코드, 데이터셋 및 모델을 공개할 예정임.
Google DeepMind, Generative Omnimatte 발표
링크, 2024년 12월 3일
- Generative Omnimatte는 비디오를 레이어로 분해하여 각 객체와 그에 관련된 효과(그림자, 반사 등)를 분리하는 기술임.
- 기존 방법들은 정적인 배경이나 단일 객체에 제한되었으나, 이 기술은 동적인 배경, 가려짐, 다중 객체의 효과 연관을 처리할 수 있음.
- 사용자에게 다양한 비디오 편집 기능을 제공하여 객체 제거, 효과 제거 등의 작업을 가능하게 함.
- 두 단계의 프로세스를 사용함:
- Stage 1: 객체 및 효과 제거 모델인 Casper를 사용하여 클린 플레이트 배경과 단일 객체 비디오를 생성함.
- Stage 2: 테스트 시 최적화를 통해 솔로 비디오와 배경 비디오에서 오미매트 레이어를 재구성함.
- 자기 주의(attention) 메커니즘을 활용하여 효과 연관을 시각화하고, 모델의 내부 이해를 분석함.
- 사용자 지정 트리마스크(trimask)를 통해 결과를 개선하고, 다중 객체 시나리오에서 더 정확한 결과를 얻을 수 있음.
Tencent, HiFiVFS 공개
링크, 2024년 12월 1일
- HiFiVFS는 고품질 비디오 얼굴 교체를 위한 프레임워크임.
- **Stable Video Diffusion(SVD)**를 기반으로 하며, 시간적 안정성을 유지하면서 얼굴 교체를 수행함.
- **세밀한 속성 학습(FAL)**을 통해 아이덴티티 비민감화와 적대적 학습을 통해 속성을 분리하고 강화함.
- **상세한 아이덴티티 학습(DIL)**을 통해 더 얼굴 교체에 적합한 ID 특징을 사용하여 아이덴티티 유사성을 향상시킴.
- 복잡한 조명 조건, 극단적인 포즈, 가려짐, 다른 얼굴 형태 등의 어려운 시나리오에서도 우수한 성능을 보임.
- 기존 방법들과 비교하여 새로운 최고 성능(SOTA)을 달성하였으며, 추가적인 후처리 없이도 고품질의 얼굴 교체 영상을 생성함.
싱가포르 국립대학교 및 Microsoft, ShowUI 발표
링크, 2024년 12월 5일
- ShowUI는 어떤 UI에서도 동작할 수 있는 경량의 종단 간 에이전트임.
- Qwen-2-VL-2B 모델을 기반으로 하여 작은 모델로도 GPT-4V와 같은 더 큰 모델을 능가하는 성능을 보임.
- UI 스크린샷을 최대한 단순화하여 효율성을 높이고, 패치를 그룹화하여 시각적 복잡성을 줄임.
- 데스크톱, 안드로이드, 웹 등 다양한 플랫폼에서 작동하며, 추가적인 텍스트 정보 없이도 UI를 탐색하고 작업을 수행함.
- 다양한 데이터셋(OmniAct, Mind2Web, AMEX 등)을 통합하여 일반적인 UI 에이전트를 훈련함.
- 에이전트가 자체적으로 도구를 정의하고, 이를 재사용하여 보다 유연한 문제 해결이 가능함.
- **OOTB(Out-of-the-box)**를 통해 로컬에서 쉽게 실행할 수 있음.
Pydantic, PydanticAI 출시
링크, 2024년 12월 2일
- PydanticAI는 Pydantic을 활용하여 LLM과 함께 사용할 수 있는 에이전트 프레임워크임.
- 파이썬으로 제어 흐름과 구성을 수행하며, 별도의 DSL이나 복잡한 추상화가 필요 없음.
- 타입 안전성을 제공하며, IDE 지원과 정적 타입 검사를 통해 개발 생산성을 향상시킴.
- OpenAI, Gemini, vLLM, TGI 등 다양한 모델을 지원하며, 모델에 종속되지 않는 구조를 가짐.
- 구조화된 응답 검증과 스트리밍 응답을 지원하여 안정적인 응용 프로그램 구축이 가능함.
- 동적 런타임 컨텍스트 및 종속성 주입을 지원하여 테스트와 반복적인 개발을 용이하게 함.
- Logfire 통합을 통해 LLM 기반 응용 프로그램의 디버깅과 성능 모니터링을 지원함.
Quivr, MegaParse 소개
링크, 2024년 12월 4일
- MegaParse는 모든 유형의 문서를 처리할 수 있는 강력하고 다재다능한 파서임.
- 정보 손실 없이 문서를 파싱하는 데 중점을 두며, 텍스트, PDF, 파워포인트, 워드, 엑셀, CSV 등 다양한 파일 형식을 지원함.
- 빠르고 효율적인 성능을 제공하며, 오픈 소스로 자유롭게 사용할 수 있음.
- UnstructuredParser, MegaParseVision, LlamaParser 등 다양한 파서 모듈을 제공하여 사용자 필요에 따라 선택 가능함.
- MegaParse Vision은 멀티모달 모델(예: GPT-4V, Claude 4)을 활용하여 이미지와 PDF의 파싱 성능을 향상시킴.
- API로도 사용할 수 있으며, 간단한 설치와 사용법을 제공함.
- 벤치마크 결과에서 기존의 파서보다 높은 유사도 비율을 달성하여 정확성을 입증함.
Google Research, LLM 임베딩을 활용한 회귀 분석 연구 발표
링크, 2024년 12월 2일
- LLM 임베딩을 회귀 분석의 특징(feature)으로 사용하는 방법을 종합적으로 조사함.
- LLM 임베딩을 특징으로 사용할 경우, 고차원 회귀 작업에서 전통적인 특징 공학보다 더 나은 성능을 보일 수 있음을 실험적으로 보여줌.
- LLM 임베딩이 특징 공간에서 리프시츠 연속성(Lipschitz continuity)을 보존한다는 것을 발견함.
- 모델 크기와 언어 이해 능력이 회귀 성능 향상에 항상 기여하지는 않는다는 것을 관찰함.
- 다양한 모델 효과(모델 크기, 언어 이해 등)의 기여도를 정량화하여 회귀 분석에서 LLM 임베딩의 활용 가능성을 제시함.
Adobe, DynaSaur 발표
링크, 2024년 12월 2일
- DynaSaur는 사전 정의된 액션을 넘어서는 대형 언어 모델(LLM) 에이전트임.
- 기존의 에이전트 시스템은 고정되고 사전 정의된 액션 세트에서 선택하지만, DynaSaur는 코드 생성을 통해 새로운 액션을 동적으로 생성하고 구성할 수 있음.
- 에이전트가 파이썬 코드를 작성하여 프로그램을 실행하고, 생성된 액션을 축적하여 향후 재사용 가능함.
- 코드로 행동함으로써 에이전트가 튜링 완전한 문제를 해결할 수 있으며, 일반성과 구성 가능성을 향상시킴.
- GAIA 벤치마크에서 최고 성능을 달성하였으며, 기존의 정해진 액션 세트 기반의 방법보다 유연하고 강력한 문제 해결 능력을 보임.
- 코드 에이전트의 성능이 크게 향상되었으며, 특히 예기치 않은 엣지 케이스나 새로운 상황에서 회복 능력이 뛰어남.
- 오픈 소스로 코드가 공개되어 있으며, 다양한 응용 분야에서 활용 가능함.
ConsisID, 아이덴티티 보존 텍스트-비디오 생성 모델 제안
링크, 2024년 12월 1일
- ConsisID는 일관성 있는 아이덴티티 보존 텍스트-비디오 생성 모델임.
- 주파수 분해를 활용하여 얼굴 특징을 저주파(global features)와 고주파(intrinsic features)로 분리함.
- 글로벌 얼굴 추출기를 통해 참조 이미지와 얼굴 키포인트를 인코딩하여 저주파 정보를 포함한 특징을 추출함.
- 로컬 얼굴 추출기를 통해 고주파 세부 정보를 캡처하고, 트랜스포머 블록에 주입하여 아이덴티티 보존 능력을 향상시킴.
- 계층적 학습 전략을 통해 주파수 정보를 활용하여 아이덴티티를 보존함.
- 튜닝 없이 단일 이미지와 텍스트 프롬프트만으로 고품질의 아이덴티티 일관성을 가진 비디오를 생성함.
- 다양한 벤치마크에서 우수한 성능을 입증하였으며, Apache 2.0 라이선스로 공개되어 있음.
Hugging Face, Showlab의 ShowUI-2B 모델 공개
링크, 2024년 12월 5일
- ShowUI-2B는 경량의 비전-언어-액션 모델로, GUI 에이전트임.
- Qwen-2-VL-2B 모델을 기반으로 하여 다양한 UI에서 동작함.
- 웹, 데스크톱, 안드로이드 등 다양한 인터페이스에서 작동하며, 추가적인 텍스트 정보 없이도 UI를 탐색하고 작업을 수행함.
- UI 스크린샷을 최대한 단순화하여 시각적 복잡성을 줄이고, 패치를 그룹화하여 효율성을 높임.
- 다양한 데이터셋을 통합하여 일반적인 UI 에이전트를 훈련하였으며, GPT-4V와 같은 더 큰 모델을 능가하는 성능을 보임.
- 에이전트가 자체적으로 도구를 정의하고, 이를 재사용하여 유연한 문제 해결이 가능함.
- **OOTB(Out-of-the-box)**를 통해 로컬에서 쉽게 실행할 수 있음.
DataLab, LLM 기반 비즈니스 인텔리전스 플랫폼 발표
링크, 2024년 12월 3일
- DataLab은 LLM 기반 에이전트를 통합한 통합 비즈니스 인텔리전스(BI) 플랫폼임.
- 자연어 쿼리를 기반으로 자동으로 작업 계획, 추론, 실행을 수행하며, 데이터 분석 업무를 간소화함.
- 다양한 BI 작업을 단일 환경에서 지원하여 데이터 전문가들이 여러 도구를 전환하지 않고도 작업 가능함.
- 도메인 지식 통합 모듈을 설계하여 기업별 BI 작업을 지원하고, LLM이 기업 특유의 용어와 데이터에 적응할 수 있게 함.
- 에이전트 간 통신 메커니즘을 통해 BI 워크플로우에서 정보 공유를 촉진하고, 협업을 강화함.
- 셀 기반 컨텍스트 관리 전략을 도입하여 노트북 환경에서의 컨텍스트 활용을 최적화하고, 긴 컨텍스트 문제를 해결함.
- 다양한 BI 작업에서 기존의 방법보다 우수한 성능을 보였으며, 실제 기업 데이터셋에서도 높은 효과와 효율성을 입증함.
- Tencent의 실제 데이터에서 최대 58.58%의 정확도 향상과 61.65%의 토큰 비용 절감을 달성함.
Sources
This GPT assists users by creating a detailed daily newspaper in Korean based on provided links. It follows these steps: read the content, summarize each content with detailed points, and write a report. The report format is:
(today’s date in 년 월 일) AI 소식,
Summary
(overall short summary, make summary with good details. for Summary section, explain the details starting with company name, e.g. OpenAI에서는 ~~~를 발표하였습니다.)
company name, Title
링크, date
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
company name, Title
링크, date
링크, date,
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
…
1 | ### |
Then your system executes this and appends the observation to the agent’s memory.
Why is this code formulation better than classical tool use formulation as JSON? The paper explains:
“Most existing work uses text or JSON as the representation of actions, which significantly lacks the two criteria mentioned earlier: generality and composability. In contrast, DynaSaur can utilize available actions or create new ones if necessary, using code as a unified representation. In principle, acting with code enables agents to solve any Turing-complete problem.”
The idea of using code is not new: in fact, we do it in transformers.agents (thus the citation that I got). They implementation adds further refinements, like using RAG to retrieve relevant functions before generating an action, which increases performance further.
And they observe that code agents perform much better, reaching the top of GAIA leaderboard! 🥇
Go take a look, it’s really clear and informative!
https://github.com/Francis-Rings/StableAnimator
🛟🛟 StableAnimator: HQ ID-aware Humans 🛟🛟
👉StableAnimator: first e2e ID-preserving diffusion for HQ videos without any post-processing. Input: single image + sequence of poses. Training, pre-processing, eval-dataset & pro-model announced. Code & base-model released💙
𝐇𝐢𝐠𝐡𝐥𝐢𝐠𝐡𝐭𝐬:
✅First E2E ID-preserving human animation
✅Global content-aware Face Encoder + ID-Adapter
✅Incorporate face embeddings maintaining fidelity
✅Novel HJB equation-based face optimization
✅Authors: CS-FUDAN, CMIC, #Microsoft, Huya & CMU
#artificialintelligence #machinelearning #ml #AI #deeplearning #computervision #AIwithPapers #metaverse #LLM #tiktok
StableAnimator
StableAnimator: High-Quality Identity-Preserving Human Image Animation
Shuyuan Tu1, Zhen Xing1, Xintong Han3, Zhi-Qi Cheng4, Qi Dai2, Chong Luo2, Zuxuan Wu1
[1Fudan University; 2Microsoft Research Asia; 3Huya Inc; 4Carnegie Mellon University]
Pose-driven Human image animations generated by StableAnimator, showing its power to synthesize high-fidelity and ID-preserving videos. All animations are directly synthesized by StableAnimator without the use of any face-related post-processing tools, such as the face-swapping tool FaceFusion or face restoration models like GFP-GAN and CodeFormer.
Comparison results between StableAnimator and state-of-the-art (SOTA) human image animation models highlight the superior performance of StableAnimator in delivering high-fidelity, identity-preserving human image animation.
Overview
model architecture
The overview of the framework of StableAnimator.
Current diffusion models for human image animation struggle to ensure identity (ID) consistency. This paper presents StableAnimator, the first end-to-end ID-preserving video diffusion framework, which synthesizes high-quality videos without any post-processing, conditioned on a reference image and a sequence of poses. Building upon a video diffusion model, StableAnimator contains carefully designed modules for both training and inference striving for identity consistency. In particular, StableAnimator begins by computing image and face embeddings with off-the-shelf extractors, respectively and face embeddings are further refined by interacting with image embeddings using a global content-aware Face Encoder. Then, StableAnimator introduces a novel distribution-aware ID Adapter that prevents interference caused by temporal layers while preserving ID via alignment. During inference, we propose a novel Hamilton-Jacobi-Bellman (HJB) equation-based optimization to further enhance the face quality. We demonstrate that solving the HJB equation can be integrated into the diffusion denoising process, and the resulting solution constrains the denoising path and thus benefits ID preservation. Experiments on multiple benchmarks show the effectiveness of StableAnimator both qualitatively and quantitatively.
News
[2024-12-4]:🔥 We are thrilled to release an interesting dance demo (🔥🔥APT Dance🔥🔥)! The generated video can be seen on YouTube and Bilibili.
[2024-11-28]:🔥 The data pre-processing codes (human skeleton extraction) are available! Other codes will be released very soon. Stay tuned!
[2024-11-26]:🔥 The project page, code, technical report and a basic model checkpoint are released. Further training codes, data pre-processing codes, the evaluation dataset and StableAnimator-pro will be released very soon. Stay tuned!
https://cxcx1996.github.io/HiFiVFS/
HiFiVFS: High Fidelity Video Face Swapping
Xu Chen*,1, Keke He*,1, Junwei Zhu†,1, Yanhao Ge2, Wei Li2, Chengjie Wang1
1Tencent, 2VIVO
12/1/24
*Indicates Equal Contribution †Corresponding Author
Special makeup
Different face shape
Complicated occlusion
Complex lighting conditions
Extreme poses
Special makeup
Different face shape
Complicated occlusion
Complex lighting conditions
Extreme poses
Special makeup
Different face shape
Complicated occlusion
Abstract
Face swapping aims to generate results that combine the identity from the source with attributes from the target. Existing methods primarily focus on image-based face swapping. When processing videos, each frame is handled independently, making it difficult to ensure temporal stability. From a model perspective, face swapping is gradually shifting from generative adversarial networks (GANs) to diffusion models (DMs), as DMs have been shown to possess stronger generative capabilities. Current diffusion-based approaches often employ inpainting techniques, which struggle to preserve fine-grained attributes like lighting and makeup. To address these challenges, we propose a high fidelity video face swapping (HiFiVFS) framework, which leverages the strong generative capability and temporal prior of Stable Video Diffusion (SVD). We build a fine-grained attribute module to extract identity-disentangled and fine-grained attribute features through identity desensitization and adversarial learning. Additionally, We introduce detailed identity injection to further enhance identity similarity. Extensive experiments demonstrate that our method achieves state-of-the-art (SOTA) in video face swapping, both qualitatively and quantitatively.
Comparisons in the wild
Method Overview
HiFiVFS
Pipeline of our proposed HiFiVFS, including training and inference phases. HiFiVFS is primarily trained based on the SVD framework, utilizing multi-frame input and a temporal attention to ensure the stability of the generated videos. In the training phase, HiFiVFS introduces fine-grained attribute learning (FAL) and detailed identity learning (DIL). In FAL, attribute disentanglement and enhancement are achieved through identity desensitization and adversarial learning. DIL uses more face swapping suited ID features to further boost identity similarity. In the inference phase, FAL only retains Eatt for attribute extraction, making the testing process more convenient. It is noted that HiFiVFS is trained and tested in the latent space, but for visualization purposes, we illustrate all processes in the original image space.
👺👺 HiFiVFS: Extreme Face Swapping 👺👺
👉#Tencent unveils a novel video face swapping method called HiFiVFS, which can consistently generate HQ face swapping videos even in extremely challenging scenarios (occlusion, makeup, lights, extreme poses, etc.). Impressive results, no code announced😢
𝐇𝐢𝐠𝐡𝐥𝐢𝐠𝐡𝐭𝐬:
✅HiFiVFS: high-fidelity video face swapping
✅Temporal stability within the face swapping
✅FAL: Fine-grained Attributes Learning
✅DIL: Detailed Identity Learning preservation
✅It’s the new SOTA, especially with extreme clips
#artificialintelligence #machinelearning #ml #AI #deeplearning #computervision #AIwithPapers #metaverse #LLM
https://huggingface.co/showlab/ShowUI-2B
𝗦𝗵𝗼𝘄𝗨𝗜: 𝗮 𝘀𝗺𝗮𝗹𝗹 𝗲𝗻𝗱-𝘁𝗼-𝗲𝗻𝗱 𝗮𝗴𝗲𝗻𝘁 𝘁𝗵𝗮𝘁 𝗰𝗮𝗻 𝗻𝗮𝘃𝗶𝗴𝗮𝘁𝗲 𝗮𝗻𝘆 𝗨𝗜 𝗮𝗻𝗱 𝗼𝘂𝘁𝗽𝗲𝗿𝗳𝗼𝗿𝗺𝘀 𝗺𝘂𝗰𝗵 𝗯𝗶𝗴𝗴𝗲𝗿 𝘀𝘆𝘀𝘁𝗲𝗺𝘀! 📲
12/5/24
A team from National University of Singapore and Microsoft just released an agent that can act on any UI (Desktop, Android, Web) without needing additional text information. It works extremely well : they applied their method on a tiny Qwen2-VL-2B, and they managed to beat methods that use either much more powerful vision models (like GPT-4V) without using any additional info (e.g. leveraging the DOM of a webpage) like previous methods did ! 👏👏
🧑🏫 Reminder: definition of an “Agent”: this is really a bloated word by now. It would be more precise to talk of “agency”, defined as “the ability to for an LLM to execute actions on its environment”. Just parsing an LLM output and using it to determine the workflow of your code could be called an “agent” already.
Anyway, they started from the idea that most existing methods rely heavily on text, which makes them less generalizable, while letting aside rich UI structure that user actually rely on when navigating this interfaces.
⚙️ They put several good ideas to work:
💡 Simplify screenshots to the max:
They prune a lot the heavy visual content of UI screenshots, by removing cloned image patches (like any vast patch of the same color will be reduced to a small patch, while maintaining positional embeddings), then group patches from the same GUI elements together to simplify even further
💡 Build a truly generalist dataset:
To train a general UI agent, you need trajectories from each possible UI, and express them in a common language. Authors merge datasets like OmniAct for Desktop, Mind2Web for websites, AMEX for Android trajectories to create a high-quality and diverse dataset.
➡️ Nice results ensued:
They fine-tune a tiny Qwen-2-VL-2B on their method, and it reaches SOTA on several task (element identification, web navigation), even beating methods that either use additional info from the DOM or use much bigger VLMS like GPT-4v! 🏆
And performance could certainly jump with a slightly bigger vision model. Let’s hope the community builds this soon! 🚀
howUI is a lightweight vision-language-action model for GUI agents.
You can easily run this model on Windows and macOS using OOTB!
model arXiv demo dataset X (formerly Twitter) URL Hits
If you like our project, please give us a star ⭐ for the latest update.
📢 News
[2024.11.16] showlab/ShowUI-2B is available at huggingface.
[2024.11.27] We release the arXiv paper, HF Spaces demo and ShowUI-desktop-8K.
[2024.12.1] We support iterative refinement to improve grounding accuracy. Try it at HF Spaces demo.
[2024.12.5] Major Update: ShowUI is integrated into OOTB for local run!
https://github.com/ADaM-BJTU/O1-CODER
O1-CODER: AN O1 REPLICATION FOR CODING
Yuxiang Zhang, Shangxi Wu, Yuqi Yang, Jiangming Shu, Jinlin Xiao, Chao Kong & Jitao Sang ∗
12/4/24
School of Computer Science and Technology
Beijing Jiaotong University
Beijing, China
{yuxiangzhang, wushangxi, yqyang, jiangmingshu, jinlinx, 23120361,
jtsang}@bjtu.edu.cn
ABSTRACT
The technical report introduces O1-CODER, an attempt to replicate OpenAI’s o1
model with a focus on coding tasks. It integrates reinforcement learning (RL)
and Monte Carlo Tree Search (MCTS) to enhance the model’s System-2 thinking capabilities. The framework includes training a Test Case Generator (TCG)
for standardized code testing, using MCTS to generate code data with reasoning
processes, and iteratively fine-tuning the policy model to initially produce pseudocode, followed by the generation of the full code. The report also addresses the
opportunities and challenges in deploying o1-like models in real-world applications, suggesting transitioning to the System-2 paradigm and highlighting the imperative for environment state updates. Updated model progress and experimental
results will be reported in subsequent versions. All source code, curated datasets,
as well as the derived models will be disclosed at https://github.com/ADaMBJTU/O1-CODER .
Overview
O1-CODER is an attempt to replicate OpenAI’s O1 model, focused on coding tasks. The approach combines Reinforcement Learning (RL) and Monte Carlo Tree Search (MCTS) to enhance the model’s System-2 thinking capabilities, aiming to generate more efficient and logical code.
Method
The core components of O1-CODER are:
Test Case Generator (TCG): Automatically generates standardized test cases to evaluate the correctness of the generated code.
Self-Play and Reinforcement Learning: The model generates reasoning data through self-play, and uses RL and MCTS to iteratively optimize the policy model。 These methods work in an iterative cycle, continuously refining the model to improve systematic reasoning and optimization in coding tasks.
https://gen-omnimatte.github.io/
Generative Omnimatte
Learning to Decompose Video into Layers
Yao-Chih Lee1,2 Erika Lu1 Sarah Rumbley1 Michal Geyer1,3 Jia-Bin Huang2 Tali Dekel1,3 Forrester Cole1
1Google DeepMind 2University of Maryland College Park 3Weizmann Institute of Science
12/3/24
This AI Learned to Turn a Video Into Layers 🖼️
✨ Developed by Google DeepMind, this new method decomposes a video into complete layers, including objects and their associated effects (e.g., shadows, reflections). 🎬
🤔 Previous methods coulnd’t handle:
- dynamic backgrounds
- occlusions
- effect association for multi objects
Video is liquid 💦
Input video
Omnimatte layers
lego
Our method decomposes a video into a set of RGBA omnimatte layers,
where each layer consists of a fully-visible object and its associated effects like shadows and reflections.
Our omnimattes enable a wide range of video editing for users.
(Scroll to view more videos)
Comparisons on Omnimattes
Input
Omnimatte
Omnimatte3D
OmnimatteRF
Ours
We compare our method with existing omnimatte methods (Omnimatte, Omnimatte3D, OmnimatteRF, and FactorMatte). Existing methods rely on restrictive motion assumptions, such as stationary background, resulting in dynamic background elements becoming entangled with foreground object layers. Omnimatte3D and OmnimatteRF may also produce blurry background layers (e.g., horses) because their 3D-aware background representations are sensitive to camera pose estimation quality. Furthermore, these methods lack a generative and semantic prior for completing occluded pixels and accurately associating effects with their corresponding objects.
Comparisons on Object and Effect Removal
Input & object to remove
ProPainter
Lumiere-Inpainting
ObjectDrop
Ours
We compare our object-effect-removal model, Casper, with existing methods for object removal. Video inpainting models (ProPainter and Lumiere-Inpainting) fail to remove soft shadows and reflections outside the input masks. ObjectDrop is an image-based model, and thus, it processes each video frame independently and inpaints regions without global context and temporal consistency. We use the same ratio of mask dilation for all the methods.
Method
Given an input video and binary object masks, we first apply our object-effect-removal model, Casper, to generate a clean-plate background and a set of single-object (solo) videos applying different trimask conditions. The trimasks specify regions to preserve (white), remove (black), and regions that potentially contain uncertain object effects (gray). In Stage 2, a test-time optimization reconstructs the omnimatte layers Oi from pairs of solo video and background video.
Object and Effect Removal with Trimask Condition
We use different trimask conditions for an input video to obtain a set of single-object (solo) videos and a clean-plate background video (bottom row). Note that we do not cherry pick the random seeds for the Casper model. We use the same random seed (=0) for all different input videos.
Input
Trimask
Output removal
Training data
We collect omnimatte results from existing omnimatte methods (Omnimatte, Omnimatte3D, and OmnimatteRF) to provide examples of cause-and-effect relationships in real videos.
Ablation Study on Training data of Casper
Input
Trimask
Omnimatte-only
- Tripod
- Kubric
- Object-Paste (full)
We assess the individual contributions of each dataset category to our model’s performance by incrementally adding each category to the training set. While the Omnimatte data provides basic examples of shadows in real-world videos, it primarily features static backgrounds and single objects. The Tripod data provides additional real-world scenarios to handle better water effects, such as reflections and boat wakes. Our Kubric synthetic data strengthens the models’ ability to handle multi-object scenes. Finally, the Object-Paste data reduces undesired background changes and improves inpainting quality.
Ablation Study on Input Condition of Casper
Input
Masked RGB + binary mask
Unmasked RGB + binary mask
Unmasked RGB + Trimask (ours)
Our proposed trimask explicitly defines the regions to be removed or preserved, thereby enabling more accurate handling of multi-object scenarios. In contrast, the model trained on binary masks is susceptible to ambiguity, potentially leading to undesired removal of objects meant to be preserved.
Our Limitations
Input
Trimask
Output removal
The removal model may not always produce the desired outcome, particularly in challenging multi-object cases.
User-specified trimask
We observe some cases where Casper will associate unrelated dynamic background effects with a foreground layer, such as the waves in the below example. To mitigate this, our system allows the user to modify the trimask by specifying a coarse preservation region to preserve the background waves better.
Visualization of Effect Association in the Self-Attention of Video Generator
Input & target object
for visualization metric
Lumiere T2V
output & attention
Lumiere Inpainting
output & attention
Our Casper
output & attention
To investigate the inherent understanding of object-effect associations in the text-to-video (T2V) Lumiere generation model, we analyze its self-attention patterns during the denoising process using SDEdit. We hypothesize that the T2V model possesses an intrinsic understanding of effect associations, allowing us to train an effective object-effect-removal model with a relatively small dataset.
We further compare the attention behaviors of the original T2V model, the Lumiere-Inpainting model, and our Casper model, which is sequentially fine-tuned from the T2V model. To ensure accurate attention measurement, we do not dilate the input mask conditions for both Inpainting and Casper models.
The visualized value of each pixel indicates the strength of association between its query token and the key tokens in the target object mask region. We visualize the first, middle, and final attention blocks of the U-Net architecture at the sampling step t=0.125. For a detailed description of the attention visualization metric, please refer to Section 3.3 of our main paper.
We observe that the T2V model’s object query tokens exhibit a strong focus on the object itself, as its primary task is to generate the object and its effects. This tendency may also be present in the Inpainting model when it attempts to fill the mask region with another object to justify shadows. In contrast, Casper’s object query tokens show less self-attention and more attention to the background region, suggesting a focus on background completion rather than object and effect generation.
In multi-object scenarios (boys-beach, five-beagles), the T2V and Inpainting models may associate different, similar objects with the target object. Our Casper model, however, demonstrates a lower attention response (darker) to similar objects, indicating a stronger ability to isolate individual objects.
We also analyzed the attention patterns of the failure case, five-beagles, where our Casper model did not remove the corresponding shadow completely. We hypothesize that the effect association is already weak in the T2V model, and our Casper model, inheriting knowledge from the pretrained models, struggles to handle such challenging cases.
https://arxiv.org/pdf/2412.02205
[Submitted on 3 Dec 2024 (v1), last revised 4 Dec 2024 (this version, v2)]
DataLab: A Unified Platform for LLM-Powered Business Intelligence
Luoxuan Weng, Yinghao Tang, Yingchaojie Feng, Zhuo Chang, Peng Chen, Ruiqin Chen, Haozhe Feng, Chen Hou, Danqing Huang, Yang Li, Huaming Rao, Haonan Wang, Canshi Wei, Xiaofeng Yang, Yuhui Zhang, Yifeng Zheng, Xiuqi Huang, Minfeng Zhu, Yuxin Ma, Bin Cui, Wei Chen
Business intelligence (BI) transforms large volumes of data within modern organizations into actionable insights for informed decision-making. Recently, large language model (LLM)-based agents have streamlined the BI workflow by automatically performing task planning, reasoning, and actions in executable environments based on natural language (NL) queries. However, existing approaches primarily focus on individual BI tasks such as NL2SQL and NL2VIS. The fragmentation of tasks across different data roles and tools lead to inefficiencies and potential errors due to the iterative and collaborative nature of BI. In this paper, we introduce DataLab, a unified BI platform that integrates a one-stop LLM-based agent framework with an augmented computational notebook interface. DataLab supports a wide range of BI tasks for different data roles by seamlessly combining LLM assistance with user customization within a single environment. To achieve this unification, we design a domain knowledge incorporation module tailored for enterprise-specific BI tasks, an inter-agent communication mechanism to facilitate information sharing across the BI workflow, and a cell-based context management strategy to enhance context utilization efficiency in BI notebooks. Extensive experiments demonstrate that DataLab achieves state-of-the-art performance on various BI tasks across popular research benchmarks. Moreover, DataLab maintains high effectiveness and efficiency on real-world datasets from Tencent, achieving up to a 58.58% increase in accuracy and a 61.65% reduction in token cost on enterprise-specific BI tasks.
https://ai.pydantic.dev/
PydanticAI
Agent Framework / shim to use Pydantic with LLMs
12/2/24
A New Agent Framework from Pydantic looks like a combination of instructor and the OpenAI swarm concept! It’s simple, model-agnostic, type-safe, and without complex abstractions!
TL;DR:
🔧 Uses Python for control flow and composition - no special DSL or patterns
🔍 Type-safe by design with full IDE support and static type-checking
📈 Model-agnostic, supports OpenAI, Gemini, and open models from vLLM or TGI
📚 Structured response validation with Pydantic
🌊 Supports streaming responses with validation
🎮 Dynamic runtime context/dependencies, e.g. customer data
🧪 Dependency injection for testing and iterative development.
🤖 Supports function tools, reflection, and self-correction.
CI Coverage PyPI versions license
When I first found FastAPI, I got it immediately. I was excited to find something so innovative and ergonomic built on Pydantic.
Virtually every Agent Framework and LLM library in Python uses Pydantic, but when we began to use LLMs in Pydantic Logfire, I couldn’t find anything that gave me the same feeling.
PydanticAI is a Python Agent Framework designed to make it less painful to build production grade applications with Generative AI.
Why use PydanticAI
Built by the team behind Pydantic (the validation layer of the OpenAI SDK, the Anthropic SDK, LangChain, LlamaIndex, AutoGPT, Transformers, CrewAI, Instructor and many more)
Model-agnostic — currently OpenAI, Gemini, and Groq are supported, Anthropic is coming soon. And there is a simple interface to implement support for other models.
Type-safe
Control flow and agent composition is done with vanilla Python, allowing you to make use of the same Python development best practices you’d use in any other (non-AI) project
Structured response validation with Pydantic
Streamed responses, including validation of streamed structured responses with Pydantic
Novel, type-safe dependency injection system, useful for testing and eval-driven iterative development
Logfire integration for debugging and monitoring the performance and general behavior of your LLM-powered application
https://github.com/quivrhq/megaparse
12/4/24
MegaParse - Your Parser for every type of documents
Quivr-logo
MegaParse is a powerful and versatile parser that can handle various types of documents with ease. Whether you’re dealing with text, PDFs, Powerpoint presentations, Word documents MegaParse has got you covered. Focus on having no information loss during parsing.
Key Features 🎯
Versatile Parser: MegaParse is a powerful and versatile parser that can handle various types of documents with ease.
No Information Loss: Focus on having no information loss during parsing.
Fast and Efficient: Designed with speed and efficiency at its core.
Wide File Compatibility: Supports Text, PDF, Powerpoint presentations, Excel, CSV, Word documents.
Open Source: Freedom is beautiful, and so is MegaParse. Open source and free to use.
Support
Files: ✅ PDF ✅ Powerpoint ✅ Word
Content: ✅ Tables ✅ TOC ✅ Headers ✅ Footers ✅ Images
Example
megaparse.mp4
Installation
pip install megaparse
Usage
Add your OpenAI or Anthropic API key to the .env file
Install poppler on your computer (images and PDFs)
Install tesseract on your computer (images and PDFs)
If you have a mac, you also need to install libmagic brew install libmagic
from megaparse import MegaParse
from langchain_openai import ChatOpenAI
from megaparse.parser.unstructured_parser import UnstructuredParser
parser = UnstructuredParser()
megaparse = MegaParse(parser)
response = megaparse.load(“./test.pdf”)
print(response)
megaparse.save(“./test.md”)
Use MegaParse Vision
Change the parser to MegaParseVision
from megaparse import MegaParse
from langchain_openai import ChatOpenAI
from megaparse.parser.megaparse_vision import MegaParseVision
model = ChatOpenAI(model=”gpt-4o”, api_key=os.getenv(“OPENAI_API_KEY”)) # type: ignore
parser = MegaParseVision(model=model)
megaparse = MegaParse(parser)
response = megaparse.load(“./test.pdf”)
print(response)
megaparse.save(“./test.md”)
Note: The model supported by MegaParse Vision are the multimodal ones such as claude 3.5, claude 4, gpt-4o and gpt-4.
(Optional) Use LlamaParse for Improved Results
Create an account on Llama Cloud and get your API key.
Change the parser to LlamaParser
from megaparse import MegaParse
from langchain_openai import ChatOpenAI
from megaparse.parser.llama_parser import LlamaParser
parser = LlamaParser(api_key = os.getenv(“LLAMA_CLOUD_API_KEY”))
megaparse = MegaParse(parser)
response = megaparse.load(“./test.pdf”)
print(response)
megaparse.save(“./test.md”) #saves the last processed doc in md format
Use as an API
There is a MakeFile for you, simply use : make dev at the root of the project and you are good to go.
See localhost:8000/docs for more info on the different endpoints !
BenchMark
Parser similarity_ratio
megaparse_vision 0.87
unstructured_with_check_table 0.77
unstructured 0.59
llama_parser 0.33
Higher the better
Note: Want to evaluate and compare your Megaparse module with ours ? Please add your config in evaluations/script.py and then run python evaluations/script.py. If it is better, do a PR, I mean, let’s go higher together .
In Construction 🚧
Improve table checker
Create Checkers to add modular postprocessing ⚙️
Add Structured output, let’s get computer talking 🤖
Star History
https://arxiv.org/abs/2411.14708
[Submitted on 22 Nov 2024 (v1), last revised 2 Dec 2024 (this version, v2)]
Understanding LLM Embeddings for Regression
Eric Tang, Bangding Yang, Xingyou Song
Google Research
With the rise of large language models (LLMs) for flexibly processing information as strings, a natural application is regression, specifically by preprocessing string representations into LLM embeddings as downstream features for metric prediction. In this paper, we provide one of the first comprehensive investigations into embedding-based regression and demonstrate that LLM embeddings as features can be better for high-dimensional regression tasks than using traditional feature engineering. This regression performance can be explained in part due to LLM embeddings over numeric data inherently preserving Lipschitz continuity over the feature space. Furthermore, we quantify the contribution of different model effects, most notably model size and language understanding, which we find surprisingly do not always improve regression performance.
1 |
|