Mistral AI에서는 새로운 AI 어시스턴트인 ‘Le Chat’을 출시하여 웹 검색, 비전 이해, 아이디어 생성, 코딩 등 다양한 기능을 무료로 제공하고 있습니다. 또한 멀티모달 모델인 ‘Pixtral Large’를 공개하여 최첨단 성능을 달성하였습니다. Nexusflow는 GPT-4o와 경쟁할 수 있는 Athene v2 72B 모델을 발표하여 챗봇, 코드 생성, 수학 분야에서 우수한 성능을 보이고 있습니다. 북경대학교의 PKU-YuanGroup은 GPT-o1 수준의 자발적이고 체계적인 추론 능력을 갖춘 LLaVA-o1 모델을 발표하였습니다. 칭화대학교 연구팀은 Transformer의 어텐션 메커니즘을 가속화하는 4/8비트 양자화 방법인 SageAttention을 제안하였습니다. Fixie AI는 실시간 음성 처리를 지원하는 오픈 소스 멀티모달 모델 Ultravox v0.4.1을 출시하였습니다. Etched는 Transformer 아키텍처를 직접 실리콘에 구현한 ASIC 칩 ‘Sohu’를 개발하여 GPU 대비 10배 이상의 성능 향상을 이뤘습니다. 애플은 작은 언어 모델의 지식을 큰 모델로 확장하는 HyperCloning 기법을 소개하여 훈련 시간을 단축하였습니다. 마이크로소프트는 100만 개의 합성 명령어 쌍을 공개하고, LLM 기반 멀티에이전트 시뮬레이션 라이브러리인 TinyTroupe를 발표하였습니다. OpenDataLab은 PDF를 기계가 읽을 수 있는 형식으로 변환하는 MinerU 도구를 소개하였습니다. Adaptive ML은 LLM을 효과적으로 튜닝하기 위한 PPO 알고리즘에 대한 심층적인 가이드를 제공하였습니다. Harbor는 k6를 사용하여 LLM 애플리케이션의 부하 테스트를 지원하는 기능을 추가하였습니다. 메타는 인간-AI 간의 이미지 이해 대화를 위한 안전장치인 Llama Guard 3 Vision과 경량화된 Llama Guard 3-1B-INT4 모델을 발표하였습니다.
Mistral AI, 새로운 AI 어시스턴트 ‘Le Chat’ 출시
링크, 2024년 11월 18일
- ‘Le Chat’ 출시: Mistral AI는 무료로 제공되는 생성형 AI 워크 어시스턴트 ‘Le Chat’을 출시했습니다. 이는 사용자들이 창의적인 작업, 코딩, 아이디어 생성 등을 도울 수 있는 도구입니다.
- 웹 검색 기능 통합: ‘Le Chat’은 웹 검색 기능을 통합하여 최신 정보에 액세스할 수 있으며, 검색 결과에 대한 출처를 인용하여 신뢰성을 높였습니다.
- 캔버스(Canvas) 기능 도입: 새로운 인터페이스인 캔버스 기능을 통해 사용자는 아이디어를 시각적으로 정리하고, 인라인 편집 및 결과물을 다양한 형식으로 내보낼 수 있습니다.
- 이미지 생성 기능 추가: Black Forest Labs의 ‘Flux Pro’를 활용하여 고품질의 이미지 생성 기능을 제공합니다.
- 응답 속도 향상: Speculative decoding 기술을 도입하여 응답 속도를 향상시켰으며, 이를 통해 사용자 경험을 개선했습니다.
- 경쟁력 비교: ‘Le Chat’은 경쟁 서비스인 ChatGPT, Perplexity, Claude 등에 비해 웹 검색, 캔버스 기능, 멀티모달 이해 등에서 우위를 점하고 있습니다.
Mistral AI, 멀티모달 모델 ‘Pixtral Large’ 공개
링크, 2024년 11월 18일
- 모델 개요: ‘Pixtral Large’는 124B 파라미터를 가진 멀티모달 모델로, Mistral Large 2를 기반으로 구축되었습니다.
- 최첨단 성능 달성: MathVista, DocVQA, VQAv2 등 다양한 멀티모달 벤치마크에서 최고 수준의 성능을 달성했습니다.
- 구성: 123B 파라미터의 멀티모달 디코더와 1B 파라미터의 비전 인코더로 구성되어 있습니다.
- 컨텍스트 윈도우 확장: 128K의 컨텍스트 윈도우를 지원하여 최소 30개의 고해상도 이미지를 한 번에 처리할 수 있습니다.
- 텍스트 성능 유지: 멀티모달 입력을 처리하면서도 텍스트 전용 모델인 Mistral Large 2의 성능을 유지하도록 설계되었습니다.
- 오픈 소스 라이선스: Mistral Research License(MRL)로 공개되어 연구 및 교육 목적으로 사용할 수 있습니다.
- API 및 다운로드: 모델은 API를 통해 ‘pixtral-large-latest’로 사용할 수 있으며, 직접 다운로드하여 자체 배포도 가능합니다.
Nexusflow, ‘Athene v2 72B’ 모델 발표
링크, 2024년 11월 14일
- 모델 개요: ‘Athene v2 72B’는 Qwen 2.5 72B 모델을 기반으로 한 대형 언어 모델로, GPT-4o와 경쟁할 수 있는 성능을 갖추었습니다.
- 성능 벤치마크: Arena Hard에서 GPT-4o(84.9점)에 근접한 77.9점을 기록하고, Bigcode-Bench Hard에서는 GPT-4o(30.8점)를 넘어서는 31.4점을 달성했습니다.
- 수학 능력 향상: MATH 벤치마크에서 GPT-4o(76.6점)보다 높은 83점을 기록하여 수학 문제 해결 능력을 향상시켰습니다.
- RLHF 적용: 인간의 피드백을 활용한 강화 학습(RLHF)과 정교한 데이터 파이프라인을 통해 모델의 특정 능력을 강화했습니다.
- 심층 커스터마이제이션: 에이전트 구축 및 실제 생산 환경에서의 활용을 위해 깊은 수준의 커스터마이제이션을 지원합니다.
- 오픈 소스 공개: 모델은 Hugging Face를 통해 공개되어 있으며, Transformers 라이브러리와 호환됩니다.
PKU-YuanGroup, ‘LLaVA-o1’ 모델 발표
링크, 2024년 11월 20일
- 모델 특징: ‘LLaVA-o1’은 11B 파라미터를 가진 비주얼 언어 모델로, GPT-o1 수준의 자발적이고 체계적인 추론 능력을 보유하고 있습니다.
- 성능 비교: 여섯 개의 멀티모달 벤치마크에서 Gemini-1.5-pro, GPT-4o-mini, Llama-3.2-90B-Vision-Instruct를 능가하는 성능을 보여주었습니다.
- 멀티모달 처리: 이미지와 텍스트를 동시에 처리하여 복잡한 멀티모달 작업을 수행할 수 있습니다.
- 모델 공개: 사전 훈련된 가중치가 Hugging Face를 통해 공개되었으며, 연구자들이 자유롭게 활용할 수 있습니다.
- 코드 및 앱 출시 예정: 코드와 Gradio 애플리케이션이 곧 공개될 예정이며, 사용자들이 직접 모델을 체험해 볼 수 있습니다.
칭화대학교, Transformer 가속화 위한 ‘SageAttention’ 제안
링크, 2024년 11월 20일
- 양자화 기법: ‘SageAttention’은 Transformer의 어텐션 메커니즘을 가속화하기 위한 4/8비트 양자화 방법입니다.
- API 호환성: PyTorch의 Scaled Dot-Product Attention(SDPA, 일명 Flash Attention)에 대한 드롭인 대체 API를 제공합니다.
- 속도 향상: Flash Attention 2 대비 최대 3배의 속도 향상을 이루었으며, 원래 모델의 99%에 달하는 정확도를 유지합니다.
- 양자화 적용 방식: Q와 K 행렬에 INT4/8 양자화를 적용하고, P와 V에는 FP8/16을 적용하여 연산 효율을 높였습니다.
- 동적 양자화: 시간 단계와 레이어에 따라 양자화 수준을 동적으로 조절하는 메커니즘을 도입하여 성능을 최적화했습니다.
- 코드 공개: ‘SageAttention 1’의 코드는 이미 공개되어 있으며, ‘SageAttention 2’의 코드는 곧 공개될 예정입니다.
Fixie AI, 실시간 음성 처리 모델 ‘Ultravox v0.4.1’ 출시
링크, 2024년 11월
- 모델 개요: ‘Ultravox v0.4.1’은 음성 입력을 직접 처리하여 텍스트를 생성하는 멀티모달 LLM입니다.
- 모델 구조: Whisper 인코더와 Llama 3.1 등의 LLM을 디코더로 사용하여 별도의 음성 인식 단계 없이 음성을 직접 처리합니다.
- 성능 비교: Llama 3.1 70B 버전은 CoVoST-2 벤치마크에서 OpenAI GPT-4o와 경쟁하는 성능을 보여줍니다.
- 실시간 처리 능력: A100-40GB GPU에서 Llama 3.1 8B 모델 기준으로 초당 약 50~100개의 토큰을 생성하며, 첫 토큰 응답 시간은 약 150ms입니다.
- 다국어 지원: 15개 이상의 언어를 지원하며, 음성-텍스트 변환뿐만 아니라 향후 음성-음성 변환도 지원할 예정입니다.
- 오픈 소스 및 라이선스: 모델과 코드는 MIT 라이선스로 Hugging Face에 공개되어 있으며, 누구나 자유롭게 사용할 수 있습니다.
- 데모 및 API 제공: 실시간 데모를 제공하며, 관리형 API를 통해 음성, 도구 호출, 전화 통신 등을 지원합니다.
Etched, Transformer 전용 ASIC 칩 ‘Sohu’ 개발
링크, 2024년 6월 25일
- ASIC 칩 ‘Sohu’ 발표: Etched는 Transformer 아키텍처를 직접 실리콘에 구현한 ASIC 칩 ‘Sohu’를 개발하여 발표했습니다.
- 성능 향상: GPU 대비 10배 이상의 속도와 비용 효율성을 달성하였으며, Llama 70B 모델에서 초당 500,000 토큰 이상의 처리 속도를 지원합니다.
- 전용 아키텍처: ‘Sohu’는 Transformer에 특화된 설계로, CNN, RNN 등 다른 모델은 실행할 수 없지만, 모든 최신 Transformer 기반 모델을 지원합니다.
- 하드웨어 사양: 칩당 144GB의 메모리를 갖추고 있어 최대 100조 개의 파라미터를 가진 모델까지 처리할 수 있습니다.
- 고급 기능 내장: 스펙큘레이티브 디코딩, 빔 서치, 몬테카를로 트리 서치(MCTS), 전문가의 혼합(MoE) 등 고급 기능을 하드웨어 수준에서 지원합니다.
- 제작 및 파트너십: TSMC의 4nm 공정을 사용하여 제작되었으며, 대량 생산을 위한 공급망과 파트너십을 구축했습니다.
- 오픈 소스 소프트웨어: 완전한 오픈 소스 소프트웨어 스택을 제공하여 개발자들이 자유롭게 활용하고 커스터마이즈할 수 있습니다.
애플, 작은 모델로 큰 모델 초기화하는 ‘HyperCloning’ 기법 발표
링크, 2024년 9월 20일
- ‘HyperCloning’ 소개: 작은 언어 모델의 파라미터를 큰 모델로 확장하여 초기화하는 혁신적인 기법을 발표했습니다.
- 훈련 시간 단축: 큰 언어 모델의 사전 훈련 시간을 최대 2~4배 가속화하여 비용과 시간을 절감할 수 있습니다.
- 지식 이전: 작은 모델의 지식과 기능을 큰 모델로 이전하여 초기부터 높은 정확도를 달성할 수 있습니다.
- 기술 상세: 선형 계층의 파라미터를 확장하고, 하이퍼네트워크를 활용하여 큰 모델의 파라미터를 초기화합니다.
- 지원 모델: OPT, Pythia, OLMo, Gemma, Llama 등 다양한 모델 아키텍처에 적용 가능하며, 호환성이 높습니다.
- 코드 및 라이브러리: 코드가 공개되어 있으며, 연구자들이 쉽게 적용하고 실험할 수 있습니다.
마이크로소프트, 100만 개의 합성 명령어 쌍 공개
링크, 2024년 11월 15일
- 데이터셋 개요: AgentInstruct 프레임워크를 사용하여 생성된 100만 개의 합성 명령어 쌍을 공개했습니다.
- 합성 데이터 특징: 프롬프트와 응답 모두가 인공적으로 생성된 완전한 합성 데이터셋으로, 웹에서 공개적으로 이용 가능한 텍스트를 시드로 사용했습니다.
- 다양한 기능 포함: 텍스트 편집, 창의적 글쓰기, 코딩, 독해 등 다양한 작업을 포괄하며, 명령어 튜닝에 활용될 수 있습니다.
- 모델 성능 향상: 이 데이터셋을 사용하여 Mistral-7b 모델을 후훈련한 결과, AGIEval, MMLU, GSM8K, BBH, AlpacaEval 등 여러 벤치마크에서 최대 54%의 성능 향상을 확인했습니다.
- 사용 및 라이선스: 연구 및 교육 목적으로 사용 가능하며, Hugging Face를 통해 데이터셋에 접근할 수 있습니다.
마이크로소프트, LLM 기반 멀티에이전트 시뮬레이션 ‘TinyTroupe’ 발표
링크, 2024년 11월 15일
- ‘TinyTroupe’ 소개: LLM을 활용한 멀티에이전트 시뮬레이션 라이브러리로, 다양한 성격과 목표를 가진 인공 에이전트를 생성할 수 있습니다.
- 시뮬레이션 기능: 에이전트들은 서로 상호작용하며, 광고 평가, 소프트웨어 테스트, 제품 기획 등 다양한 시나리오를 시뮬레이션할 수 있습니다.
- 사용 사례: 광고 효과 예측, 제품 아이디어 브레인스토밍, 고객 인터뷰 시뮬레이션 등 비즈니스 인사이트를 얻기 위한 도구로 활용될 수 있습니다.
- 개발자 친화성: 파이썬으로 작성되어 있으며, 사용자 정의가 용이하고, 개발자들이 쉽게 확장하여 사용할 수 있습니다.
- 오픈 소스 및 커뮤니티: 초기 버전으로 공개되어 있으며, 사용자들의 피드백과 기여를 통해 발전시키고자 합니다.
OpenDataLab, PDF를 변환하는 ‘MinerU’ 도구 출시
- 도구 개요: ‘MinerU’는 PDF 문서를 기계가 읽을 수 있는 형식으로 변환하는 오픈 소스 도구입니다.
- 텍스트 추출 최적화: 헤더, 푸터, 페이지 번호, 각주 등을 제거하여 의미 있는 텍스트를 추출하고, 텍스트의 읽기 순서를 보존합니다.
- 구조 보존: 문서의 구조를 유지하여 제목, 단락, 목록 등 원본 문서의 형식을 보존합니다.
- 이미지 및 수식 처리: 이미지, 이미지 설명, 표, 표 제목, 각주 등을 추출하며, 수식은 LaTeX 형식으로 변환합니다.
- 표 변환: 표는 LaTeX 또는 HTML 형식으로 변환하여 활용도를 높였습니다.
- OCR 지원: 스캔된 PDF나 손상된 PDF를 처리하기 위한 OCR 기능을 제공하며, 84개 언어를 지원합니다.
- 출력 형식 다양화: 마크다운, JSON 등 다양한 출력 형식을 지원하여 사용자의 필요에 따라 활용할 수 있습니다.
- 시각화 기능: 레이아웃 시각화 및 스팬 시각화를 통해 출력 결과의 품질을 쉽게 확인할 수 있습니다.
- 플랫폼 호환성: CPU와 GPU 환경 모두에서 작동하며, Windows, Linux, Mac 등 다양한 플랫폼을 지원합니다.
- Gradio 앱 제공: Gradio 기반의 애플리케이션 인터페이스를 제공하여 사용자가 직접 도구를 체험할 수 있습니다.
Adaptive ML, LLM 튜닝을 위한 PPO 알고리즘 가이드 제공
링크, 2024년 11월 19일
- 가이드 개요: LLM의 도움말 생성 능력을 향상시키기 위한 PPO(Proximal Policy Optimization) 알고리즘에 대한 심층적인 가이드를 제공했습니다.
- 학습 과정 설명: Supervised Fine-tuning(SFT)에서 시작하여 REINFORCE, Advantage Actor-Critic(A2C), PPO로 이어지는 단계별 학습 과정을 상세히 설명합니다.
- RLHF 활용: 인간의 피드백을 활용한 강화 학습(RLHF)을 통해 LLM의 유용성, 무해성, 정직성을 향상시키는 방법을 소개합니다.
- PPO의 원리: PPO 알고리즘의 작동 원리와 정책 모델(Actor), 가치 함수 모델(Critic), 보상 모델 간의 상호작용을 기술적으로 설명합니다.
- 실전 적용 방법: 실제로 PPO를 활용하여 LLM을 튜닝하는 방법과 주의해야 할 사항을 제시합니다.
- 추가적인 고려사항: 오버피팅 방지, 보상 모델의 한계, 정책 이동의 제약 등 현실적인 문제에 대한 해결책을 논의합니다.
Harbor, k6를 통한 LLM 부하 테스트 지원 추가
링크, 2024년 11월 19일
- 부하 테스트 도구 통합: Harbor는 부하 테스트 도구인 k6에 OpenAI 호환 클라이언트를 추가하여 LLM 애플리케이션의 부하 테스트를 지원합니다.
- 성능 모니터링: 사전 구성된 InfluxDB와 Grafana 대시보드를 제공하여 테스트 중인 애플리케이션의 성능을 실시간으로 모니터링할 수 있습니다.
- OpenAI 호환성: OpenAI 호환 API 클라이언트 및 사용자 지정 데이터셋에 대한 내장 도우미를 제공하여 테스트 스크립트를 쉽게 작성할 수 있습니다.
- 호환 모델: Hugging Face의 Text Generation Inference(TGI), vLLM, Ollama 등과 호환되며, 다양한 LLM 서비스의 성능을 비교 및 테스트할 수 있습니다.
- 예제 스크립트 제공: 빠른 시작을 위해 예제 스크립트와 엔드포인트를 제공하여 사용자가 쉽게 테스트를 시작할 수 있습니다.
- 독립적인 설정: Docker Compose를 사용하여 독립적으로 환경을 설정할 수 있으며, 코드와 문서가 GitHub를 통해 공개되어 있습니다.
메타, 멀티모달 안전장치 ‘Llama Guard 3 Vision’ 발표
링크, 2024년 11월 20일
- 안전장치 소개: ‘Llama Guard 3 Vision’은 멀티모달 대화에서 안전성을 보장하기 위한 LLM 기반의 안전장치입니다.
- 이미지 이해 대화 지원: 이미지와 텍스트를 모두 처리하여 멀티모달 입력에 대한 유해 콘텐츠를 감지하고 차단합니다.
- 프롬프트 및 응답 분류: 멀티모달 LLM 입력(프롬프트)과 출력(응답)에 대한 유해성 분류를 수행합니다.
- 벤치마크 성능: MLCommons의 분류 체계를 사용하여 내부 벤치마크에서 우수한 성능을 달성하였습니다.
- 강인성 테스트: 적대적 공격에 대한 강인성을 테스트하여 모델의 안정성과 신뢰성을 확인하였습니다.
- 멀티모달 안전성 연구 기여: 멀티모달 AI 시스템에서의 안전한 인간-AI 대화를 지원하기 위한 기반을 마련하였습니다.
메타, 경량화된 안전장치 모델 ‘Llama Guard 3-1B-INT4’ 공개
링크, 2024년 11월 20일
- 모델 개요: ‘Llama Guard 3-1B-INT4’는 INT4 양자화를 적용한 1B 파라미터의 경량화된 안전장치 모델입니다.
- 성능 및 효율성: 안드로이드 모바일 CPU에서 초당 30 토큰 이상의 처리 속도와 2.5초 이하의 첫 토큰 응답 시간을 달성하여, 자원 제한적인 환경에서도 효율적으로 동작합니다.
- 안전성 유지: 모델 크기가 약 7배 감소(440MB)했음에도 불구하고, 기존 Llama Guard 3-1B와 동등하거나 더 나은 안전성 분류 성능을 제공합니다.
- 배포 용이성: 작은 모델 크기와 낮은 연산 요구량으로 모바일 기기나 임베디드 시스템 등 다양한 플랫폼에서 쉽게 배포할 수 있습니다.
- 오픈 소스 공개: 모델은 오픈 소스로 공개되어 있으며, 연구자와 개발자들이 활용하여 안전한 AI 대화 시스템을 구축할 수 있습니다.
Sources
This GPT assists users by creating a detailed daily newspaper in Korean based on provided links. It follows these steps: read the content, summarize each content with detailed points, and write a report. The report format is:
(today’s date in 년 월 일) AI 소식,
Summary
(overall short summary, make summary with good details. for Summary section, explain the details starting with company name, e.g. OpenAI에서는 ~~~를 발표하였습니다.)
company name, Title
링크, date
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
company name, Title
링크, date
링크, date,
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
…
1 | ### |
기술적으로 최대한 자세하게 적어. 16개의 기사가 있고 하나도 빼먹지 말고 적어.