요약
오늘 AI 소식에서는 마이크로소프트의 새로운 대규모 언어 모델인 Phi-3의 출시와 Chatbot Arena의 새로운 “Hard Prompts” 카테고리 도입, 그리고 Anthropic의 Claude 3 Sonnet에 대한 심층 분석 결과가 발표되었습니다. Phi-3은 Meta의 Llama 3 및 Mistral, OpenAI GPT-3.5 및 Cohere Command R+를 능가하는 성능을 보여주며, 128k 토큰까지의 긴 맥락을 처리할 수 있습니다. Chatbot Arena에서는 사용자 제출 프롬프트를 기반으로 모델의 복잡한 문제 해결 능력을 평가하는 “Hard Prompts” 카테고리를 도입했습니다. Anthropic에서는 Claude 3 Sonnet 모델의 내부 작동 방식을 분석하여 수백만 개의 기능을 추출하고 이를 통해 모델의 작동 원리를 이해하고 안전성을 향상시키는 방법을 연구했습니다.
Phi-3 - 마이크로소프트의 새로운 대규모 언어 모델
https://huggingface.co/microsoft/Phi-3-medium-128k-instruct,
2024년 5월 21일
- 마이크로소프트는 새로운 대규모 언어 모델 Phi-3의 소형(7B) 및 중형(14B) 버전을 MIT 라이선스 하에 공개했습니다.
- Phi-3 소형 모델은 Meta의 Llama 3 및 Mistral을 능가하는 성능을 보여주며, Phi-3 중형 모델은 OpenAI GPT-3.5 및 Cohere Command R+를 능가하는 것으로 알려졌습니다.
- Phi-3은 4.8조 토큰으로 훈련되었으며, 합성 데이터와 필터링된 공개적으로 사용 가능한 웹 사이트 데이터를 포함합니다.
- 다국어 지원을 위해 훈련 데이터의 10%가 다국어로 구성되었습니다.
- SFT(Supervised Fine-Tuning) 및 DPO(Direct Preference Optimization)를 사용하여 미세 조정되었습니다.
- 모델은 HuggingFace, Azure AI 및 ONNX에서 사용할 수 있습니다.
Hard Prompts - Chatbot Arena의 새로운 난이도 높은 프롬프트 카테고리
https://lmsys.org/blog/2024-05-17-category-hard/
2024년 5월 20일
- Chatbot Arena는 모델의 성능을 더욱 엄격하게 평가하기 위해 “Hard Prompts” 카테고리를 새롭게 도입했습니다.
- “Hard Prompts” 카테고리에는 특정 도메인 지식, 복잡성, 문제 해결 능력 등을 요구하는 난이도 높은 프롬프트가 포함됩니다.
- Llama-3-8B-Instruct는 기존의 영어 프롬프트 기준에서는 GPT-4-0314와 비슷한 성능을 보였지만, “Hard Prompts” 카테고리에서는 성능이 크게 저하되었습니다.
- 반면 Claude-3-Opus와 Phi-3는 “Hard Prompts” 카테고리에서 상대적으로 좋은 성능을 보였습니다.
- Chatbot Arena는 사용자들이 더욱 난이도 높은 프롬프트를 제출하도록 장려하고 있습니다.
Claude 3 Sonnet - Anthropic의 대규모 언어 모델의 내부 작동 방식 분석
https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html
2024년 5월 21일
- Anthropic은 자사의 대규모 언어 모델인 Claude 3 Sonnet의 내부 작동 방식을 심층 분석하여 수백만 개의 기능을 추출했습니다.
- 이러한 기능들은 매우 추상적인 개념을 나타내며, 다국어, 다모달 및 구체적인 예와 추상적인 참조 사이의 일반화를 포함합니다.
- 특히 안전과 관련된 기능들이 발견되었는데, 이는 코드의 취약점, 편향, 거짓말, 아첨, 위험한 콘텐츠와 관련된 기능입니다.
- 이러한 기능들은 모델의 안전성을 평가하고 개선하는 데 사용될 수 있습니다.
- 모델의 안전성을 확보하기 위해서는 기능이 활성화되는 시점을 파악하고, 이러한 기능들이 참여하는 회로를 이해해야 합니다.
OpenAI 안전 업데이트 - AI Seoul Summit에서 공유된 OpenAI의 안전 관행
https://openai.com/index/openai-safety-update/
2024년 5월 21일
- OpenAI는 모델의 안전성을 최우선으로 생각하며, 모델의 능력과 안전성을 모두 향상시키기 위해 노력하고 있습니다.
- OpenAI는 모델의 안전성을 평가하고 개선하기 위해 다양한 방법을 사용하고 있으며, 이는 모델 훈련 전부터 배포 후까지 모든 단계에 걸쳐 이루어집니다.
- OpenAI는 모델의 안전성을 향상시키기 위해 지속적으로 연구 개발을 진행하고 있으며, 향후 더욱 강력한 모델이 등장함에 따라 안전 관행을 지속적으로 개선해 나갈 계획입니다.
LearnLM - Google의 새로운 학습용 대규모 언어 모델
https://blog.google/outreach-initiatives/education/google-learnlm-gemini-generative-ai/
2024년 5월 14일
- Google은 학습 경험을 개선하기 위해 Gemini를 기반으로 새로운 학습용 모델 LearnLM을 출시했습니다.
- LearnLM은 교육 연구에 기반하여 개발되었으며, 학습 경험을 더욱 흥미롭고 개인화된 방식으로 만들기 위한 노력의 결과입니다.
- LearnLM은 Google Search, YouTube, Gemini 등 다양한 Google 제품에 통합되어 활용될 예정입니다.
- Google은 LearnLM을 활용하여 교육자들이 수업 계획을 간소화하고 개선하는 데 도움을 줄 수 있는 새로운 도구를 개발하고 있습니다.
- Google은 LearnLM을 통해 학습 경험을 개선하고 교육에 긍정적인 영향을 미칠 수 있을 것으로 기대하고 있습니다.
Sources
This GPT assists users by creating a detailed daily newspaper in Korean based on provided links. It follows these steps: read the content, summarize each content with detailed points, and write a report. The report format is: # AI News for (today's date), ## Summary (overall short summary), ## Link1 Title, link, date - detailed summary1, - detailed summary2, - detailed summary..N, ## Link2 Title, link, date - detailed summary1, - detailed summary2, - detailed point..N, etc. The report should be written in Korean and use the 개조식 문체 style. give the very deep details for each link as much as possible.1 |
|