Nvidia는 고성능 소형 언어 모델인 Mistral-NeMo-Minitron 8B를, AI21 Labs는 긴 문맥 처리에 특화된 Jamba 1.5 모델을 선보였습니다. 또한, Jina AI는 장문 임베딩 모델의 새로운 처리 방법을 소개하였으며, Meta는 인간 중심 비전 작업을 위한 새로운 모델 패밀리인 Sapiens를 발표했습니다. LinkedIn과 Neural Magic도 AI 모델의 효율성을 극대화하기 위한 새로운 도구를 공개하였고, KB금융그룹은 AI 기술을 과장하여 홍보하는 ‘AI 워싱’의 문제점을 경고했습니다.
Nvidia, Mistral-NeMo-Minitron 8B: 소형 언어 모델 출시
링크, 2024년 8월 21일
- Nvidia는 Mistral NeMo 12B 모델을 소형화한 Mistral-NeMo-Minitron 8B를 출시함
- 이 모델은 높은 정확도를 유지하면서도 낮은 컴퓨팅 비용으로 실행 가능
- Pruning과 Distillation 기법을 결합하여 모델 크기를 줄이면서도 성능을 최적화
- 소형 언어 모델 중 최고 성능을 자랑하며, 다양한 AI 작업에서 활용 가능
- 해당 모델은 Nvidia RTX 워크스테이션에서 실시간으로 구동 가능하며, Hugging Face에서도 다운로드 가능
- 모델은 9가지 주요 벤치마크에서 우수한 성능을 기록하며, 언어 이해, 상식 추론, 수학적 추론, 요약, 코딩 및 진실한 답변 생성 능력을 입증함
- Nvidia AI Foundry 플랫폼을 통해 모델을 더욱 소형화하여 스마트폰이나 로봇 등 임베디드 장치에 적합한 버전으로도 활용 가능
AI21 Labs, Jamba 1.5 모델 출시
링크, 2024년 8월 22일
- AI21 Labs는 새로운 Jamba 1.5 모델 시리즈를 발표함
- Jamba 1.5 모델은 SSM-Transformer 아키텍처를 사용하여 긴 문맥 처리와 속도, 효율성을 극대화
- Jamba 1.5 모델은 256K의 긴 문맥 창을 지원하여 대형 문서 요약, 분석, 에이전트 및 RAG(리트리벌 증강 생성) 워크플로우에 적합
- Jamba 1.5 Mini와 Large 모델은 각각 Arena Hard 벤치마크에서 최고 성능을 기록함
- 모델은 다중 언어를 지원하며, 구조화된 JSON 출력, 함수 호출, 문서 객체 처리, 인용 생성 기능을 제공
- AI21 Studio, Google Cloud Vertex AI, Microsoft Azure, Nvidia NIM 등 다양한 클라우드 플랫폼에서 즉시 사용할 수 있으며, Amazon Bedrock, Databricks Marketplace, Snowflake Cortex 등에서도 곧 출시 예정
- ExpertsInt8라는 새로운 양자화 기술을 통해 MoE(Mixture of Experts) 모델에서 메모리 사용량을 줄이고, 단일 8 GPU 노드에서 모델을 실행 가능
Jina AI, 장문 임베딩 모델을 위한 ‘Late Chunking’ 기술 발표
링크, 2024년 8월 23일
- Jina AI는 긴 문맥을 다루는 임베딩 모델을 위한 새로운 처리 방법인 ‘Late Chunking’ 기술을 발표함
- 이 방법은 문서의 긴 문맥을 효과적으로 처리하여, RAG(리트리벌 증강 생성) 시스템에서 보다 나은 검색 성능을 제공
- ‘Late Chunking’ 기술은 문서를 미리 분할하는 대신, 임베딩 모델의 트랜스포머 레이어를 사용해 문서 전체를 처리한 후, 각 청크에 문맥 정보를 반영한 임베딩을 생성
- 이 기술은 긴 문서에서 문맥 정보를 더욱 효과적으로 유지하며, BEIR 벤치마크에서 높은 성능을 보임
- Late Chunking은 긴 문맥을 효과적으로 처리하여, 기존의 청킹 방식보다 검색 정확도를 크게 개선
Meta, 인간 중심 비전 작업을 위한 ‘Sapiens’ 모델 발표
링크, 2024년 8월 23일
- Meta는 인간 중심 비전 작업을 위한 Sapiens 모델 패밀리를 발표함
- 이 모델은 2D 포즈 추정, 신체 부위 분할, 깊이 추정, 표면 법선 예측 등 4가지 핵심 작업을 지원
- 1K 해상도에서의 추론을 기본적으로 지원하며, 개별 작업에 맞게 간단히 미세 조정 가능
- 3억 개 이상의 인류 이미지 데이터셋을 기반으로 자가 학습을 통해 성능을 크게 향상
- Sapiens 모델은 다양한 인간 중심 벤치마크에서 기존 최고 성능을 초과 달성
- Humans-5K, Humans-2K, Hi4D, THuman2 등에서 상대적 RMSE 및 각도 오류를 크게 개선
LinkedIn, Liger-Kernel 출시
링크, 2024년 8월 23일
- LinkedIn의 LLM 연구팀은 멀티 GPU 파인 튜닝을 위한 새로운 효율적 GPU 커널인 Liger-Kernel을 출시함
- 이 커널은 멀티 GPU 환경에서 20%의 처리량 증가와 60%의 메모리 감소를 제공
- Flash Attention, PyTorch FSDP, Microsoft DeepSpeed와 호환 가능하며, 다양한 LLM 모델에 적용 가능
- Hugging Face 호환 RMSNorm, RoPE, SwiGLU, CrossEntropy, FusedLinearCrossEntropy 등을 지원
- Triton 커널을 사용하여 정확한 계산을 수행하며, 더 긴 문맥 길이와 더 큰 배치 크기를 처리 가능
- 이 커널은 단일 라인 코드로 쉽게 적용 가능하며, 오픈 소스로 커뮤니티 주도의 개발을 유도
Neural Magic, LLM Compressor 프레임워크 공개
링크, 2024년 8월 14일
- Neural Magic은 LLM Compressor라는 오픈 소스 프레임워크를 공개하여, LLM(대형 언어 모델)의 압축과 성능 향상을 지원
- 이 프레임워크는 다양한 양자화 기술과 희소성 옵션을 제공하여 LLM 모델의 유연성을 극대화
- Neural Magic 팀은 이 도구를 사용하여 Llama 3.1 405B 모델을 포함한 다양한 모델을 성공적으로 압축
- Activation Quantization을 통해 INT8 또는 FP8 텐서 코어를 활용하여 최대 3배 더 빠른 서버/처리량 배치를 실현
- LLM Compressor는 vLLM과 완벽하게 통합되어 바로 사용 가능하며, AI 연구자와 기업들에게 최적화된 모델 생성 및 사용을 지원
KB금융그룹, AI 워싱 경고
링크, 2024년 8월 19일
- KB금융그룹은 AI 기술을 실제로 사용하지 않으면서 마치 사용하는 것처럼 홍보하는 ‘AI 워싱’의 위험성을 경고함
- AI 워싱은 소비자 신뢰 저하, 투자 자원의 낭비, 과도한 기대 유발 등의 부작용을 초래할 수 있음
- 아마존의 무인 매장 ‘아마존고’와 채용 스타트업 ‘준코’ 등 다수의 사례가 AI 워싱으로 지적됨
- AI 워싱에 대한 규제를 강화하고, 투명한 기술 사용과 정보 제공이 필요하다고 강조
- 소비자와 투자자들에게는 AI 기술에 대한 비판적 시각과 투명한 설명을 요구할 것을 권장
Sources
This GPT assists users by creating a detailed daily newspaper in Korean based on provided links. It follows these steps: read the content, summarize each content with detailed points, and write a report. The report format is:
(today’s date in 년 월 일) AI 소식,
Summary
(overall short summary, make summary with good details. for Summary section, explain the details starting with company name, e.g. OpenAI에서는 ~~~를 발표하였습니다.)
company name, Title
링크, date
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
company name, Title
링크, date
링크, date,
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
…
1 | ### |