Summary

오늘의 소식에서는 인공지능 모델 GLM-4-9B의 성능과 다언어 지원, 트랜스포머의 알고리즘적 추론 능력, 한국어 RAG 평가 데이터셋, 인텔의 제온6 프로세서 출시, 엔비디아의 차세대 AI 전용칩, AMD의 새로운 라이젠 AI 300 칩, LLM의 신뢰도 표현 개선 연구, 그리고 Skywork-MoE 모델의 최신 업데이트에 대해 다룹니다.

GLM-4-9B 모델 소개

링크
2024-06-04, Zhipu AI

  • GLM-4-9B는 Zhipu AI에서 출시한 최신 프리트레인 모델 시리즈의 오픈소스 버전.
  • 의미, 수학, 추론, 코드 및 지식 데이터셋 평가에서 Llama-3-8B보다 우수한 성능을 보임.
  • GLM-4-9B-Chat 버전은 웹 브라우징, 코드 실행, 맞춤형 도구 호출, 긴 텍스트 추론 등의 고급 기능을 포함.
  • 26개 언어를 지원하며, GLM-4V-9B는 다이얼로그 능력을 갖춘 멀티모달 모델.
  • GLM-4V-9B는 GPT-4-turbo-2024-04-09, Gemini 1.0 Pro, Qwen-VL-Max, Claude 3 Opus보다 뛰어난 성능을 입증.

Understanding Transformer Reasoning Capabilities via Graph Algorithms

링크
2024-05-28, Google Research

  • 트랜스포머 기반 신경망의 알고리즘적 추론 능력에 대한 이론적 이해를 조사.
  • 네트워크 깊이, 폭, 추가 토큰 수에 따른 알고리즘 문제 해결 능력을 분석.
  • 그래프 연결성 같은 과제에 대해 로그 깊이가 필요하며, 작은 임베딩 차원의 단일 레이어 트랜스포머가 컨텍스트 검색 작업을 해결 가능.
  • GraphQA 벤치마크를 사용한 실증적 증거 제시.

Allganize RAG 리더보드

링크
2024-06-04, Allganize

  • 5개 도메인(금융, 공공, 의료, 법률, 커머스)에 대한 한국어 RAG 성능 평가.
  • 기존 RAG는 테이블과 이미지에 대한 질문 답변에 취약.
  • Allganize는 RAG 평가 데이터를 공개하여 도메인 맞춤형 성능 평가 가능.
  • 문서 업로드 후 자체 질문 사용해 성능 측정.

Fine-tune Embedding models for RAG

링크
2024-06-04, Phil Schmid

  • RAG 애플리케이션을 위한 임베딩 모델 커스터마이징 방법 소개.
  • Matryoshka Representation Learning을 활용하여 효율성 증대.
  • 금융 RAG 애플리케이션을 위한 임베딩 모델 파인튜닝 과정 설명.
  • 새로운 Sentence Transformers 3 릴리스로 인해 파인튜닝이 더욱 간편해짐.

인텔, 제온6 ‘시에라 포레스트’ 출시

링크
2024-06-04, 디지털데일리

  • 인텔, 타이베이에서 데이터센터 및 AI 생태계 혁신 기술 공개.
  • 제온 6 프로세서, E-코어 및 P-코어 모델 설계로 고밀도 스케일아웃 워크로드 처리 가능.
  • 인텔 제온 6 E-코어, 전력 비용 절감과 효율적 컴퓨팅 제공.
  • DDR5, PCIe 5.0, UPI 및 CXL 기술 지원.

엔비디아 차세대 AI 전용칩 공개

링크
2024-06-04, 김정우 기자

  • 뱅크오브아메리카, 엔비디아 목표가 1500달러로 상향.
  • 엔비디아의 차차세대 AI 전용칩 발표로 시장 지배력 강화 예상.
  • 엔비디아 주가 1154달러로 최고치 경신.

NVIDIA Collaborates with Hugging Face to Simplify Generative AI Model Deployments

링크
2024-06-03, NVIDIA

  • NVIDIA, Hugging Face와 협력하여 생성 AI 모델 배포 간소화.
  • NVIDIA NIM, 저지연, 고처리량 AI 추론 제공.
  • Llama 3 8B 및 Llama 3 70B 모델 Hugging Face에서 몇 번의 클릭으로 배포 가능.

xAI, 시리즈 B 펀딩에서 60억 달러 조달

2024-06-04

  • xAI, 시리즈 B 펀딩 라운드에서 60억 달러 조달, 기업가치 180억 달러로 평가.
  • 펀딩 자금은 첫 제품 출시, 고급 인프라 구축, 연구 개발 가속화에 사용될 예정.
  • OpenAI, Anthropic, ScaleAI와 경쟁.

AMD, 새로운 라이젠 AI 300 칩 공개

링크
2024-06-03, Windows Central

  • AMD, 컴퓨텍스 2024에서 라이젠 AI 300 모바일 프로세서 공개.
  • 새로운 Zen 5 아키텍처 기반, Copilot+ 호환.
  • 라이젠 AI 9 HX 370 및 라이젠 AI 9 365, 각각 50 TOPS 성능 제공.
  • Acer, ASUS, HP, Lenovo, MSI의 다양한 노트북 모델에 채택될 예정.

SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales

링크
2024-05-31, Tianyang Xu 외

  • SaySelf는 LLM이 정확한 신뢰도 추정치를 표현하도록 교육하는 프레임워크.
  • 강화 학습을 통해 신뢰도 추정치를 보정, 과도한 신뢰도 패널티 부여.
  • 실험 결과, 신뢰도 보정 오류 감소 및 작업 성능 유지.

Skywork-MoE 모델 업데이트

링크
2024-06-03, SkyworkAI

  • Skywork-MoE는 1460억 개의 파라미터와 22억 개의 활성화된 파라미터를 가진 모델.
  • 전문가 다변화를 촉진하는 Gating Logit Normalization과 보조 손실 계수 조정을 위한 Adaptive Auxiliary Loss Coefficients 도입.
  • Grok-1, DBRX, Mistral 8*22, Deepseek-V2보다 우수한 성능을 발휘.
Sources This GPT assists users by creating a detailed daily newspaper in Korean based on provided links. It follows these steps: read the content, summarize each content with detailed points, and write a report. The report format is: # AI News for (today's date), ## Summary (overall short summary), ## Link1 Title, link, date - detailed summary1, - detailed summary2, - detailed summary..N, ## Link2 Title, link, date - detailed summary1, - detailed summary2, - detailed point..N, etc. The report should be written in Korean and use the 개조식 문체 style. give the very deep details for each link as much as possible. make summary with good details, note company name next to date if available.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
###
https://github.com/THUDM/GLM-4
GLM-4
🤗 HF Repo • 🤖 ModelScope • 🐦 Twitter • 👋 Join Slack and WeChat

📍Experience and use a larger-scale GLM business model on the Zhipu AI Open Platform

Model Introduction
GLM-4-9B is the open-source version of the latest generation of pre-trained models in the GLM-4 series launched by Zhipu AI. In the evaluation of data sets in semantics, mathematics, reasoning, code, and knowledge, GLM-4-9B and its human preference-aligned version GLM-4-9B-Chat have shown superior performance beyond Llama-3-8B. In addition to multi-round conversations, GLM-4-9B-Chat also has advanced features such as web browsing, code execution, custom tool calls (Function Call), and long text reasoning (supporting up to 128K context). This generation of models has added multi-language support, supporting 26 languages including Japanese, Korean, and German. We have also launched the GLM-4-9B-Chat-1M model that supports 1M context length (about 2 million Chinese characters) and the multimodal model GLM-4V-9B based on GLM-4-9B. GLM-4V-9B possesses dialogue capabilities in both Chinese and English at a high resolution of 1120*1120. In various multimodal evaluations, including comprehensive abilities in Chinese and English, perception & reasoning, text recognition, and chart understanding, GLM-4V-9B demonstrates superior performance compared to GPT-4-turbo-2024-04-09, Gemini 1.0 Pro, Qwen-VL-Max, and Claude 3 Opus.

###
https://arxiv.org/abs/2405.18512
google research
[Submitted on 28 May 2024]
Understanding Transformer Reasoning Capabilities via Graph Algorithms
Clayton Sanford, Bahare Fatemi, Ethan Hall, Anton Tsitsulin, Mehran Kazemi, Jonathan Halcrow, Bryan Perozzi, Vahab Mirrokni
Which transformer scaling regimes are able to perfectly solve different classes of algorithmic problems? While tremendous empirical advances have been attained by transformer-based neural networks, a theoretical understanding of their algorithmic reasoning capabilities in realistic parameter regimes is lacking. We investigate this question in terms of the network's depth, width, and number of extra tokens for algorithm execution. Our novel representational hierarchy separates 9 algorithmic reasoning problems into classes solvable by transformers in different realistic parameter scaling regimes. We prove that logarithmic depth is necessary and sufficient for tasks like graph connectivity, while single-layer transformers with small embedding dimensions can solve contextual retrieval tasks. We also support our theoretical analysis with ample empirical evidence using the GraphQA benchmark. These results show that transformers excel at many graph reasoning tasks, even outperforming specialized graph neural networks.

###
https://huggingface.co/datasets/allganize/RAG-Evaluation-Dataset-KO
Allganize RAG Leaderboard
Allganize RAG 리더보드는 5개 도메인(금융, 공공, 의료, 법률, 커머스)에 대해서 한국어 RAG의 성능을 평가합니다.
일반적인 RAG는 간단한 질문에 대해서는 답변을 잘 하지만, 문서의 테이블과 이미지에 대한 질문은 답변을 잘 못합니다.

RAG 도입을 원하는 수많은 기업들은 자사에 맞는 도메인, 문서 타입, 질문 형태를 반영한 한국어 RAG 성능표를 원하고 있습니다.
평가를 위해서는 공개된 문서와 질문, 답변 같은 데이터 셋이 필요하지만, 자체 구축은 시간과 비용이 많이 드는 일입니다.
이제 올거나이즈는 RAG 평가 데이터를 모두 공개합니다.

RAG는 Parser, Retrieval, Generation 크게 3가지 파트로 구성되어 있습니다.
현재, 공개되어 있는 RAG 리더보드 중, 3가지 파트를 전체적으로 평가하는 한국어로 구성된 리더보드는 없습니다.

Allganize RAG 리더보드에서는 문서를 업로드하고, 자체적으로 만든 질문을 사용해 답변을 얻었습니다.
생성한 답변과 정답 답변을 자동 성능 평가 방법을 적용해 각 RAG 방법별 성능 측정을 했습니다.

###
https://www.philschmid.de/fine-tune-embedding-model-for-rag
Fine-tune Embedding models for Retrieval Augmented Generation (RAG)
June 4, 2024
11 minute read
View Code
Embedding models are crucial for successful RAG applications, but they're often trained on general knowledge, which limits their effectiveness for company or domain specific adoption. Customizing embedding for your domain specific data can significantly boost the retrieval performance of your RAG Application. With the new release of Sentence Transformers 3, it's easier than ever to fine-tune embedding models.

In this blog, we'll show you how to fine-tune an embedding model for a financial RAG applications using a synthetic dataset from the 2023_10 NVIDIA SEC Filing. We'll also leverage Matryoshka Representation Learning to boost efficiency. In the blog, we are going to:

Create & Prepare embedding dataset
Create baseline and evaluate pretrained model
Define loss function with Matryoshka Representation
Fine-tune embedding model with SentenceTransformersTrainer
Evaluate fine-tuned model against baseline
🪆 Matryoshka Embeddings

Matryoshka Representation Learning (MRL) is a technique designed to create embeddings that can be truncated to various dimensions without significant loss of performance. This approach frontloads important information into earlier dimensions of the embedding, allowing for efficient storage and processing while maintaining high accuracy in downstream tasks such as retrieval, classification, and clustering.

For example, a Matryoshka model can preserve ~99.9% of its performance while needing 3x less storage. This is particularly useful for applications where storage and processing resources are limited, such as on-device applications or large-scale retrieval systems.

Note: This blog was created to run on consumer size GPUs (24GB), e.g. NVIDIA A10G or RTX 4090/3090, but can be easily adapted to run on bigger GPUs.

###
https://m.ddaily.co.kr/page/view/2024060408520160213
PC/프린팅/디바이스
인텔, 제온6 ‘시에라 포레스트’ 전격 출시…전력효율 최대 [컴퓨텍스 2024]
디지털데일리 발행일 2024-06-04 12:00:00
타이베이(대만)=김문기 기자
팻 겔싱어 인텔 CEO가 기존 대비 코어수가 2배 증가한 인텔 제온 시에라 포레스트 실물을 공개한 모습
팻 겔싱어 인텔 CEO가 기존 대비 코어수가 2배 증가한 인텔 제온 시에라 포레스트 실물을 공개한 모습
[디지털데일리 김문기 기자] 인텔(대표 팻 겔싱어)은 4일(현지시간) 대만 타이베이에서 진행된 컴퓨텍스 2024에서 데이터센터, 클라우드와 네트워크에서 에지 및 PC에 이르기까지 AI 생태계를 획기적으로 가속화할 최첨단 기술 및 아키텍처를 공개했다.

겔싱어 CEO와 업계 리더들은 인텔이 AI 혁신을 이끌고 차세대 기술을 예정보다 앞서 제공하고 있다는 점을 분명히 했다. 인텔은 불과 6개월 만에 5세대 인텔 제온(5th Gen Intel Xeon) 프로세서를 출시한데 이어 제온 6 첫 제품을 선보였으며, 가우디 AI 가속기를 선공개하고 기업 고객에게 비용 효율적인 고성능 생성형 AI 훈련 및 추론 시스템을 제공했다.

이러한 발전을 통해 인텔은 실행 속도를 가속화하는 동시에 혁신과 생산 속도의 한계를 넘어 AI를 대중화하고 업계를 활성화하고 있다 인텔 제온 6 프로세서를 통해 고밀도 스케일아웃 워크로드를 위한 성능 및 전력 효율성을 향상시켰다.

디지털 혁신이 가속화됨에 따라 기업들은 노후화된 데이터센터 시스템을 교체해 비용 절감, 지속 가능성 목표 달성, 물리적 공간 및 랙 공간 활용 극대화하고 기업 전반에 걸쳐 새로운 디지털 역량을 창출해야 한다는 압박에 직면해 있다.

이에 따라 모든 제온 6 플랫폼 및 프로세서 제품군은 이러한 과제를 해결할 목적으로 E-코어(Efficient -core) 및 P-코어(Performance-core) 모델이 설계됐다. AI 및 기타 고성능 컴퓨팅 요구사항부터 확장 가능한 클라우드 네이티브 애플리케이션에 이르기까지 광범위한 워크로드 및 사용 사례를 처리할 수 있다. E-코어와 P-코어는 모두 공통의 소프트웨어 스택과 하드웨어 및 소프트웨어 공급업체의 개방형 생태계와 호환 가능한 아키텍처를 기반으로 구축됐다.

가장 먼저 출시되는 제온 6 프로세서는 인텔 제온 6 E-코어 기반 코드명 ‘시에라 포레스트’다. 당장 사용이 가능하다.

고집적도 코어 및 뛰어난 와트당 성능을 갖춘 인텔 제온 6 E-코어는 전력 비용을 크게 낮추면서 효율적인 컴퓨팅을 제공한다. 향상된 성능 및 전력 효율성은 클라우드 네이티브 애플리케이션 및 콘텐츠 전송 네트워크, 네트워크 마이크로서비스, 소비자 디지털 서비스 등 가장 까다로운 고밀도 스케일아웃 워크로드에 적합하다. 와트당 최대 2.7배 높은 5G 사용자 평면 기능(5G-User Plane Function) 성능 및 와트당 최대 3.5배 높은 차세대 방화벽 성능3을 제공한다. 이는 인텔 이더넷 800 시리즈(Intel Ethernet 800 Series)로 테스트한 결과다.

또한, 제온 6 E-코어는 집적도가 매우 뛰어나 랙 수준을 3대 1로 통합할 수 있어 미디어 트랜스코딩 워크로드에서 2세대 인텔 제온 프로세서 대비 최대 4.2배의 랙 레벨 성능 향상과 최대 2.6배의 와트당 성능 향상을 고객에게 제공할 수 있다. 더 적은 전력과 랙 공간을 사용하는 제온 6 프로세서는 혁신적인 새로운 AI 프로젝트를 위한 컴퓨팅 용량과 인프라를 확보한다.

인텔 제온 6 프로세서는 동일한 하드웨어 플랫폼과 소프트웨어 스택을 공유하는 6700 시리즈 및 6900 시리즈 플랫폼으로 제공된다. 이와 더불어 DDR5, PCIe 5.0, UPI 및 CXL 등 관련 기술의 세대별 성능 향상이 포함된다

6700 시리즈는 P-코어의 MCR DIMM과 함께 최대 1.4배 더 커진 메모리 대역폭을 제공해 한 번에 더 많은 데이터를 처리할 수 있으며, 5세대 인텔 제온 프로세서 대비 최대 1.1배 증가한 입출력(I/O) 대역폭을 제공해 데이터 입력 및 출력 시스템의 속도와 효율을 높인다.

6900 시리즈는 5세대 인텔 제온 프로세서 대비 최대 1.8배 늘어난 소켓 간 대역폭을 제공한다. 이는 시스템 상 다양한 부분 간 더 빠르고 효율적인 통신을 가능하게 해, 특히 높은 성능을 필요로 하는 까다로운 작업에서 효과적이라는 설명이다.

6700 및 6900 시리즈 모두 CXL 2.0를 지원한다. 두 시리즈가 세운 새 기준은 가속기, 메모리 확장기 및 기타 장치와 같은 추가 구성 요소와 컴퓨터 간 연결과 통신을 지원한다.

한편, 제온 6 P-코어 기반 코드명 그래나이트 래피즈는 4분기 출시될 예정이다.

###
https://n.news.naver.com/article/050/0000075863?cds=news_edit
천비디아’도 옛말...엔비디아 목표가 1500달러로 상향
입력2024.06.04. 오전 9:19 기사원문
김정우 기자
김정우 기자
3
8
텍스트 음성 변환 서비스 사용하기
글자 크기 변경하기
SNS 보내기
인쇄하기
엔비디아, 차세대 인공지능(AI) 전용칩 공개
“신제품 효과로 시장 지배력 더욱 강화”



미국의 투자은행 뱅크오브아메리카(BoA)가 엔비디아의 목표가를 1500달러로 상향했다. 엔비디아가 차세대 인공지능(AI) 전용칩을 발표한 데 따른 것이다.

BoA는 3일(현지시간) 보고서를 내고 엔비디아의 목표가를 기존의 1320달러에서 1500달러로 조정했다. 월가의 투자은행 중 가장 높은 목표가다.

현재 엔비디아 주가가 약 1150달러선인 것을 감안하면 향후 30% 더 상승한다는 의미다.

BoA는 “엔비디아가 차차세대 AI 전용칩 계획을 발표, 시장 지배력이 더욱 강화될 것”이라며 목표가 상향 이유를 설명했다.

한편 엔비디아 주가는 지난달 30일 1154달러까지 치솟아 사상 최고치를 경신한 바 있다.

###
https://developer.nvidia.com/blog/nvidia-collaborates-with-hugging-face-to-simplify-generative-ai-model-deployments/?ncid=so-link-334086&=&linkId=100000264631409/
Generative AI
NVIDIA Collaborates with Hugging Face to Simplify Generative AI Model Deployments
Jun 03, 2024
By Jig Bhadaliya, Rohit Taneja and Chintan Patel

+4
Like
Discuss (0)

LTFRE
As generative AI experiences rapid growth, the community has stepped up to foster this expansion in two significant ways: swiftly publishing state-of-the-art foundational models, and streamlining their integration into application development and production.

NVIDIA is aiding this effort by optimizing foundation models to enhance performance, allowing enterprises to generate tokens faster, reduce the costs of running the models, and improve end user experience with NVIDIA NIM.

NVIDIA NIM
NVIDIA NIM inference microservices are designed to streamline and accelerate the deployment of generative AI models across NVIDIA accelerated infrastructure anywhere, including cloud, data center, and workstations.

NIM leverages TensorRT-LLM inference optimization engine, industry-standard APIs, and prebuilt containers to provide low-latency, high-throughput AI inference that scales with demand. It supports a wide range of LLMs including Llama 3, Mixtral 8x22B, Phi-3, and Gemma, as well as optimizations for domain-specific applications in speech, image, video, healthcare, and more.

NIM delivers superior throughput, enabling enterprises to generate tokens up to 5x faster. For generative AI applications, token processing is the key performance metric, and increased token throughput directly translates to higher revenue for enterprises.

By simplifying the integration and deployment process, NIM enables enterprises to rapidly move from AI model development to production, enhancing efficiency, reducing operational costs, and allowing businesses to focus on innovation and growth.

And now, we’re going a step further with Hugging Face to help developers run models in a matter of minutes.

Deploy NIM on Hugging Face with a few clicks
Hugging Face is a leading platform for AI models and has become the go-to destination for AI developers as it enhances the accessibility of AI models.

Leverage the power of seamless deployment with NVIDIA NIM, starting with Llama 3 8B and Llama 3 70B, on your preferred cloud service provider, all directly accessible from Hugging Face.

NIM delivers superior throughput and achieves near-100% utilization with multiple concurrent requests, enabling enterprises to generate text 3x faster. For generative AI applications, token processing is the key performance metric, and increased token throughput directly translates to higher revenue for enterprises.

The Llama 3 NIM is performance optimized to deliver higher throughput, which translates to higher revenue and lower TCO. The Llama 3 8B NIM processes ~9300 tokens per second compared to the non-NIM version which processes ~2700 tokens per second on HF Endpoints.
Figure 1. Llama 3 8B NIM on Hugging Face achieves 3x throughput
The dedicated NIM endpoint on Hugging Face spins up instances on your preferred cloud, automatically fetches and deploys the NVIDIA optimized model, and enables you to start inference with just a few clicks, all in a matter of minutes.

###
BREAKING: Elon Musk’s
OpenAI
Rival,
xAI
, Raises $6 Billion At $18 Billion Valuation — Funding Secured 🤯

xAI has announced their Series B funding round of $6 billion at a $18 billion pre-money valuation.

The round includes investors like:
Valor Equity Partners
,
Andreessen Horowitz
&
Sequoia Capital
amongst others.

What are they going to do with the money?

“The funds from the round will be used to take xAI’s first products to market, build advanced infrastructure, and accelerate the research and development of future technologies.”

For comparison, OpenAI is valued at $86 billion and has 100m active users.

Other AI competitors
Anthropic
and ScaleAI are valued at $18.4 billion and $13.8 billion respectively.

Funding secured.

###
https://www.windowscentral.com/hardware/laptops/amd-ryzen-ai-300-announce
AMD just toppled Snapdragon X NPU dominance with its Ryzen AI 300 chips ready for Copilot+
News
By Cale Hunt published 2 days ago
Zen 5 is here.



Comments (1)
AMD Ryzen AI 300 press image
A render of AMD's Ryzen AI 300 chip (Image credit: AMD)
What you need to know
AMD unveiled new Ryzen AI 300 mobile processors for laptops at Computex 2024.
The new chips are built on AMD's new "Zen 5" architecture and are compatible with Copilot+.
The Ryzen AI 9 HX 370 and Ryzen AI 9 365 each have an NPU with 50 TOPS performance for local AI acceleration.
Acer, ASUS, HP, Lenovo, and MSI have stated that the new Ryzen AI chips are coming to AI laptops.
Computex 2024 is underway in Taipei, Taiwan, and AMD was one of the first to unveil a bunch of new hardware at its keynote address. Alongside the new Zen 5 Ryzen 9000 desktop processors (CPU), AMD took the wrapping off of its Ryzen AI 300 chips. These are the long-rumored "Strix Point" APUs complete with Zen 5 CPU cores, RDNA 3.5 graphics, and XDNA 2 Neural Processing Unit (NPU) for localized AI acceleration.

The big news here if you're following the emerging world of AI PCs is AMD's offering of 50 TOPS (Trillion Operations Per Second) of power from the NPU, making it more than capable enough to handle the new Copilot+ AI features coming to Windows 11. That also makes it more powerful than the Hexagon NPU in Qualcomm's Snapdragon X Elite and Snapdragon X Plus chips, which comes in at 45 TOPS.

For anyone interested in Copilot+ without Windows on ARM, this is our first official look at what AMD has cooked up.

Strix Point has arrived with a rebrand
AMD Ryzen AI 300 breakdown

A slide from AMD showing a breakdown of the Ryzen AI 300 chip. (Image credit: AMD)
AMD unveiled two new chips from its Ryzen AI 300 series, which has been rebranded to hopefully help avoid some confusion when shopping for a new laptop.

The Ryzen AI 9 HX 370 is the more powerful chip, offering a total of 12 cores and 24 threads. The cores are split into four standard Zen 5 and eight Zen 5c, which are essentially smaller Zen cores that are more efficient at the cost of overall performance, freeing up space for the GPU and NPU. The Ryzen AI 9 HX 370 has a base TDP of 28W, but the configurable TDP (cTDP) ranges from 15W to 54W.

Header Cell - Column 0 Cores/Threads Base/Boost Freq. NPU TOPS TDP/cTDP Graphics
AMD Ryzen AI 9 HX 370 12 / 24 2.0GHz / 5.1GHz 50 28W / 15-54W AMD Radeon 890M
AMD Ryzen AI 9 365 10 / 20 2.0GHz / 5.0GHz 50 28W / 15-54W AMD Radeon 880M
The Ryzen AI 9 365 is a tier below the flagship HX 370 model, offering 10 cores (four Zen 5 and six Zen 5c), 20 threads, and a boost clock up to 5.0GHz. It has the same 28W base TDP and wide configurable TDP range.

AMD Ryzen AI 300 GPU performance

A slide from AMD showing Ryzen AI 9 HX 370 integrated GPU performance compared to Intel's Arc graphics. (Image credit: AMD)
The Ryzen AI 9 HX 370 has the new RDNA 3.5 Radeon 890M integrated GPU with 16 Compute Units (CU), while the Ryzen AI 9 365 has a Raden 880M with 12 CUs. AMD claims up to an average of 36% better gaming performance compared to Intel's integrated Arc graphics in its Core Ultra 185H CPU. That, of course, is comparing the top-tier Radeon 890M GPU. The Ryzen AI 9 365's integrated GPU with fewer CUs will come in with lower performance.

Get the Windows Central Newsletter
All the latest news, reviews, and guides for Windows and Xbox diehards.

Your Email Address
Contact me with news and offers from other Future brands
Receive email from us on behalf of our trusted partners or sponsors
By submitting your information you agree to the Terms & Conditions and Privacy Policy and are aged 16 or over.
AMD Ryzen AI 300 chips have the fastest NPU so far
AMD Ryzen AI 300 NPU performance slide

An AMD slide showing Ryzen AI 300 NPU performance compared to Qualcomm, Intel, and Apple. (Image credit: AMD)
What I'm most excited about is the Ryzen AI NPU that AMD says can hit up to 50 TOPS. May 20, 2024, was a huge day in the world of Windows laptops thanks to Qualcomm, Microsoft, and major laptop brands teaming up to deliver a long list of new Copilot+ PCs.

Windows Central Editor-in-Chief Daniel Rubino called the combination of ARM64 and AI a "Great Reset" for Windows PCs, and we can't wait to get our hands on new laptops with Snapdragon X chips to test their power and efficiency.

A big part of Qualcomm's magic is its NPU with 45 TOPS of power for local AI acceleration. Until today this was the most powerful NPU available in a laptop chip, and it was the only entry into the world of Copilot+. AMD has now pulled ahead in the TOPS race, and it has opened up new laptop options for those who don't want a system running Windows on ARM.

Copilot+ requires an AI PC with Windows 11 and an NPU with at least 40 TOPS of power. That leaves, at this time, Qualcomm and AMD as your only announced options. It's said that Intel's next-gen "Lunar Lake" mobile chips will have an NPU with 45 TOPS, but that still leaves AMD in the lead.

Copilot+ features include Windows Recall, Live Caption, Windows Studio Effects improvements, Co-Creator local image and text creation, and more.

AMD Ryzen AI 300 performance chart

An AMD slide comparing Snapdragon X Elite and Ryzen AI 9 HX 370 performance. (Image credit: AMD)
How much of a difference the extra 5 TOPS will make in local AI work remains to be seen, and AMD isn't talking much about efficiency compared to Qualcomm's ARM64 chips. AMD did, however, show off some graphs comparing the Snapdragon X Elite (no mention of SKU used to compare) and the Ryzen AI 9 HX 370 in a number of benchmarks.

Part of AMD's Ryzen AI 300 announcement includes quotes from major laptop brands like Acer, ASUS, HP, Lenovo, and MSI. We know that Acer's Swift series will see the new Ryzen AI 300 chips, as will a wide range of ASUS laptops from the ROG Zephyrus, ProArt, Vivobook, Zenbook, and TUF Gaming brands.

Furthermore, HP says an OmniBook AI PC is getting Ryzen AI 300. Lenovo also plans on adding Ryzen AI 300 chips to its Yoga, ThinkPad, and ThinkBook stables. Finally, MSI says its Stealth, Summit, Prestige, and Creator laptops will get the chips later this year.

###
https://arxiv.org/abs/2405.20974v1
[Submitted on 31 May 2024]
SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales
Tianyang Xu, Shujin Wu, Shizhe Diao, Xiaoze Liu, Xingyao Wang, Yangyi Chen, Jing Gao
Large language models (LLMs) often generate inaccurate or fabricated information and generally fail to indicate their confidence, which limits their broader applications. Previous work elicits confidence from LLMs by direct or self-consistency prompting, or constructing specific datasets for supervised finetuning. The prompting-based approaches have inferior performance, and the training-based approaches are limited to binary or inaccurate group-level confidence estimates. In this work, we present the advanced SaySelf, a training framework that teaches LLMs to express more accurate fine-grained confidence estimates. In addition, beyond the confidence scores, SaySelf initiates the process of directing LLMs to produce self-reflective rationales that clearly identify gaps in their parametric knowledge and explain their uncertainty. This is achieved by using an LLM to automatically summarize the uncertainties in specific knowledge via natural language. The summarization is based on the analysis of the inconsistency in multiple sampled reasoning chains, and the resulting data is utilized for supervised fine-tuning. Moreover, we utilize reinforcement learning with a meticulously crafted reward function to calibrate the confidence estimates, motivating LLMs to deliver accurate, high-confidence predictions and to penalize overconfidence in erroneous outputs. Experimental results in both in-distribution and out-of-distribution datasets demonstrate the effectiveness of SaySelf in reducing the confidence calibration error and maintaining the task performance. We show that the generated self-reflective rationales are reasonable and can further contribute to the calibration. The code is made public at \url{this https URL}.

###
https://github.com/SkyworkAI/Skywork-MoE/tree/main
English | 简体中文


🤗 Hugging Face • 🤖 ModelScope • 👾 Wisemodel • 💬 WeChat• 📜Tech Report

GitHub Stars GitHub Forks

Project Introduction
Skywork-MoE is a high-performance mixture-of-experts (MoE) model with 146 billion parameters, 16 experts, and 22 billion activated parameters. This model is initialized from the pre-existing dense checkpoints of our Skywork-13B model.

We introduce two innovative techniques: Gating Logit Normalization, which enhances expert diversification, and Adaptive Auxiliary Loss Coefficients, which allow for layer-specific adjustment of auxiliary loss coefficients.

Skywork-MoE demonstrates comparable or superior performance to models with more parameters or more activated parameters, such as Grok-1, DBRX, Mistral 8*22, and Deepseek-V2.

News and Updates
2024.6.3 We release the Skywork-MoE-Base model.