NAVER에서는 HyperCLOVA X Vision을 발표하며, 텍스트와 이미지 처리가 가능한 대규모 비전-언어 모델을 소개하였습니다. 또한, 오토브라우징 기술을 통해 LLM의 실시간 정보 수집과 처리 능력을 강화하는 방법도 제시하였습니다. Google은 세 가지 새로운 Gemini 모델을 출시하여 고성능과 효율성을 동시에 갖춘 AI 모델을 선보였습니다. NVIDIA는 NIM Agent Blueprints를 통해 기업들이 맞춤형 AI 애플리케이션을 손쉽게 구축할 수 있는 기반을 마련했습니다. Cartesia는 SSM 기반의 소형 언어 모델 Rene를 발표하여 온디바이스 AI의 효율성을 극대화하였으며, Tsinghua 대학은 CogVideoX라는 텍스트-비디오 생성 모델을 공개하였습니다. Meta는 LLM의 사이버 보안 능력을 평가하기 위한 CYBERSECEVAL 3 벤치마크를 발표하였고, LLM-as-Judge 접근법 및 Anchored Preference Optimization(APO) 기법을 포함한 새로운 AI 정렬 및 평가 방법에 대한 종합적인 분석도 소개되었습니다.
NAVER, HyperCLOVA X Vision 발표
링크, 2024년 8월 19일
- HyperCLOVA X Vision은 기존의 대규모 언어 모델(LLM)에서 확장된 대규모 비전-언어 모델(LVLM)로, 텍스트와 이미지를 동시에 이해할 수 있는 능력을 갖춤.
- 이 모델은 한국어에 특화된 데이터셋으로 학습되었으며, NAVER의 우수한 OCR 기술을 통해 한국어와 손글씨 텍스트 인식에서 높은 정확성을 보임.
- 주요 기능: 문서 인식, 이미지 내 텍스트 이해, 차트 및 표 이해, 문화적 맥락 및 유머 이해, 수식 이해, 창의적 글쓰기 등.
- 성능 평가에서는 SEEDv1, TextVQA, DocVQA, ChartQA 등 30개 이상의 벤치마크에서 GPT-4V와 비교하여 대부분의 지표에서 우위를 점함.
- 특히 한국어 일반 교육 개발(K-GED) 테스트에서 GPT-4o보다 높은 83.8%의 정답률을 기록, 한국어 처리 능력에서 탁월한 성능을 입증함.
- HyperCLOVA X Vision은 앞으로 영상 스트림 처리와 고해상도 처리 능력을 추가하는 등 지속적인 업데이트가 예정되어 있으며, 향후 로봇 및 독립형 에이전트에 활용될 가능성도 있음.
NAVER, 오토브라우징 기술로 LLM의 한계를 극복
링크, 2024년 8월 26일
- 오토브라우징은 웹 탐색 기술과 AI를 결합한 형태로, AI가 웹을 자율적으로 탐색하여 실시간으로 정보를 수집하고 처리할 수 있게 함.
- 이 기술은 동적 콘텐츠와 로그인 필요한 페이지 접근이 가능하며, 기존 웹 탐색 기술의 한계를 극복함.
- 오토브라우징은 AI가 실시간으로 정보를 탐색하여 수집된 데이터를 바탕으로 사용자에게 최적화된 응답을 제공할 수 있게 함.
- NAVER의 Project CONNECT X에서는 이 기술을 활용해 기업의 내부 데이터와 시스템을 통합하여 업무 자동화와 효율성을 높임.
- RPA(Robotic Process Automation)와 RAG(Retrieval-Augmented Generation) 기술과 비교하며, 오토브라우징이 어떻게 실시간 정보 반영 문제를 해결하고, 비정형 데이터에 대한 처리 능력을 확장하는지 설명함.
- 소버린 AI와 결합하여 특정 국가나 문화권에 맞춘 AI 시스템 구축이 가능해질 것으로 기대됨.
Google, 새로운 Gemini 모델 세 가지 출시
링크, 2024년 8월 27일
- Gemini 1.5 Flash 8B: 8억 매개변수를 가진 모델로, 멀티모달 작업과 장문 요약에 최적화된 성능을 제공. 특히 대량의 데이터를 빠르게 처리할 수 있는 효율적인 구조로 설계됨.
- Enhanced Gemini 1.5 Pro: 복잡한 프롬프트 처리와 코딩 작업에 강점을 가진 모델로, 이전 버전보다 모든 측면에서 성능이 개선됨. 특히 고난이도 작업에서 뛰어난 성능을 발휘.
- Improved Gemini 1.5 Flash: 속도와 효율성에 중점을 둔 모델로, Google의 내부 벤치마크에서 성능이 크게 향상된 것으로 보고됨. 이 모델은 빠른 처리와 고품질 결과를 동시에 제공.
- 이들 모델은 Google AI Studio와 Gemini API를 통해 무료로 제공되며, 개발자들이 실험적으로 사용해볼 수 있음. Google은 이 모델들을 통해 실제 환경에서의 피드백을 받아 향후 개선에 반영할 계획.
NVIDIA, NIM Agent Blueprints 발표
링크, 2024년 8월 27일
- NIM Agent Blueprints는 사전 학습된 AI 워크플로우 카탈로그로, 고객 서비스 아바타, 약물 발견, PDF 데이터 추출 등 다양한 AI 애플리케이션을 위한 블루프린트를 제공.
- 이 블루프린트는 NVIDIA NeMo와 NIM 마이크로서비스를 통합하여 사용자 데이터를 바탕으로 맞춤형 AI 애플리케이션을 개발하고 운영할 수 있게 함.
- 디지털 휴먼 NIM Agent Blueprint는 고객 서비스에 사용될 수 있는 3D 애니메이션 아바타 인터페이스를 제공하여, 기존 고객 서비스 옵션보다 더 매력적인 사용자 경험을 제공함.
- 멀티모달 PDF 데이터 추출 워크플로우는 대규모 기업 PDF 데이터를 분석하여, 정확하고 포괄적인 응답을 생성할 수 있게 함.
- 약물 발견 가상 스크리닝 워크플로우는 3D 단백질 구조 예측, 분자 생성 및 도킹을 가속화하여 신약 후보 물질의 발굴을 지원함.
- NVIDIA의 글로벌 파트너들과 함께 기업들이 이 블루프린트를 통해 AI 솔루션을 신속하게 구축하고 배포할 수 있도록 지원하고 있음.
- 추가적인 블루프린트는 매월 출시될 예정이며, 고객 경험, 콘텐츠 생성, 소프트웨어 엔지니어링 및 제품 연구개발 등 다양한 분야에 적용될 수 있음.
Cartesia, Rene 1.3B 모델 발표
링크, 2024년 8월 27일
- Rene 1.3B는 1.3억 매개변수를 가진 소형 언어 모델로, 온디바이스에서 효율적으로 실행될 수 있도록 설계된 SSM(State Space Model) 기반의 모델.
- Mamba-2와 MLP 레이어를 결합한 하이브리드 구조로, Sliding Window Attention(SWA) 레이어를 통해 고정된 메모리 풋프린트를 유지하며, 리소스 제약이 있는 환경에서 안정적으로 실행 가능.
- 1.5T 토큰으로 훈련되었으며, Apple의 OpenELM과 Google의 Gemma 2B와 같은 유사 크기의 모델들에 비해 뛰어난 성능을 발휘.
- Cartesia는 또한 Sonic On-Device라는 초저지연 음성 생성 모델을 공개, 이 모델은 실시간 스트리밍과 음성 복제를 지원하며 다양한 디바이스에서 실행 가능.
- Edge 라이브러리를 통해 SSM 기반 모델의 연구와 배포를 지원하며, Apple 하드웨어에서 최적화된 Metal 커널을 제공.
- Cartesia는 향후 SSM 기술이 에지 컴퓨팅과 온디바이스 AI의 주요 요소로 자리 잡을 것으로 기대하며, 이를 통해 개인 비서, 로봇, 게임, 보안, 의료 등 다양한 응용 분야에서 혁신을 추구하고 있음.
Tsinghua 대학, CogVideoX 5B 모델 발표
링크, 2024년 8월 23일
- CogVideoX 5B는 텍스트에서 비디오로 변환하는 대규모 디퓨전 모델로, 3D 변량 오토인코더(VAE)를 활용하여 비디오 데이터를 효율적으로 압축.
- 텍스트와 비디오 간의 깊은 융합을 위해 전문가 변환기와 전문가 적응형 LayerNorm을 도입, 텍스트-비디오 정렬 성능을 개선.
- 프로그레시브 학습 기법을 통해 긴 영상에서 일관성 있는 움직임과 높은 질의 비디오 생성 가능.
- 이 모델은 Luma, Runway, Pika와 같은 모델들과 비교하여 최첨단 성능을 보이며, 기계 및 인간 평가에서 우수한 성적을 기록.
- CogVideoX는 비디오 생성 품질과 의미적 정렬 모두에서 뛰어난 성과를 보여줌.
Meta, CYBERSECEVAL 3 벤치마크 발표
링크, 2024년 8월 2일
- Meta는 LLM의 사이버 보안 능력을 평가하기 위한 새로운 벤치마크 CYBERSECEVAL 3을 발표.
- 이 벤치마크는 LLM의 사이버 보안 위험과 능력을 평가하는 8가지 다른 위험 요소를 포함, 특히 자동화된 사회공학, 사이버 공격 확장, 자율적 사이버 공격 등 새로운 영역을 다룸.
- CYBERSECEVAL 3은 Llama 3 모델과 다양한 최신 LLM에 적용되어, 완화 조치가 있는 상태와 없는 상태에서의 위험을 비교하여 평가.
- Meta는 이 연구를 통해 LLM의 사이버 보안 위험 평가에 대한 논의를 이어가고자 함.
LLM-as-Judge 접근법 종합 분석
링크, 2024년 8월 14일
- LLM-evaluators, 또는 LLM-as-Judge는 다른 LLM의 응답을 평가하는 모델로, 최근 복잡하고 개방형 작업에서 사용이 증가하고 있음.
- 평가 접근법: 직접 평가(Direct Scoring), 쌍비교(Pairwise Comparison), 참조 기반 평가(Reference-based Evaluation) 등 세 가지 주요 접근법이 있음.
- 직접 평가: 단일 응답을 평가하며, 객관적인 평가에 적합.
- 쌍비교: 두 개의 응답을 비교하여 더 나은 것을 선택, 주관적인 평가에 적합.
- 참조 기반 평가: 생성된 응답을 골드 표준과 비교하여 평가.
- 평가 메트릭: Cohen’s kappa, Kendall’s tau, Spearman’s rho 등 다양한 상관 메트릭이 사용되며, 각각의 데이터 유형에 맞는 메트릭 선택이 중요함.
- LLM-as-Judge는 특히 사람 평가자와의 상관성을 높이기 위해 여러 가지 기법을 사용하며, 성능과 신뢰성을 향상시키는 다양한 방법들이 연구되고 있음.
Anchored Preference Optimization 및 Contrastive Learning from AI Revisions (CLAIR) 기법 발표
링크, 2024년 8월 13일
- **Anchored Preference Optimization (APO)**는 대조적 선호 최적화를 통해 모델의 정렬 성능을 향상시키는 새로운 RLHF(보상 강화 학습) 기법.
- APO-zero: 선호하는 출력이 더 나을 경우, 그 출력을 강화하고 부정적 출력을 억제하는 방식.
- APO-down: 모델이 선호하는 출력보다 일반적으로 더 나은 경우, 전체적으로 억제하되 부정적 출력을 더 강하게 억제하는 방식.
- **Contrastive Learning from AI Revisions (CLAIR)**은 GPT-4 터보 모델을 사용하여 각 프롬프트/응답 쌍에 대해 최소한의 수정된 출력을 생성, 대조적 데이터셋을 만들어 성능을 향상시키는 기법.
- CLAIR와 APO-zero를 결합하여 Llama 3-8B-Instruct 모델의 성능을 7.65% 향상시켰으며, GPT-4 터보와의 성능 격차를 45% 줄임.
- 이 기법들은 MixEval-Hard에서 성능이 검증되었으며, 추후 더 다양한 데이터셋과 모델에서의 평가가 기대됨.
Sources
This GPT assists users by creating a detailed daily newspaper in Korean based on provided links. It follows these steps: read the content, summarize each content with detailed points, and write a report. The report format is:
(today’s date in 년 월 일) AI 소식,
Summary
(overall short summary, make summary with good details. for Summary section, explain the details starting with company name, e.g. OpenAI에서는 ~~~를 발표하였습니다.)
company name, Title
링크, date
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
company name, Title
링크, date
링크, date,
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
…
1 | ### |