Google DeepMind에서는 AlphaFold 3의 추론코드를 공개하여 신약 개발 분야에 혁신을 가져왔습니다. Alibaba Cloud는 Qwen2.5-Coder-32B-Instruct 모델을 공개하여 Anthropic Claude Sonnet 3.5와 경쟁할 수 있는 오픈 LLM을 선보였습니다. Tencent는 새로운 대형 MoE 모델인 Hunyuan-Large를 출시하여 Meta Llama 3.1 405B를 능가하는 성능을 보였습니다. FishAudio는 70만 시간의 다국어 오디오로 훈련된 음성-음성 모델인 Fish Agent v0.1 3B를 공개하였습니다. AMD는 1B 파라미터의 언어 모델인 AMD OLMo를 출시하여 OpenELM과 Tiny Llama를 능가하는 성능을 보였습니다. Standard Intelligence는 음성 전용 베이스 모델인 hertz-dev를 발표하였습니다. GitHub는 AI를 활용한 마이크로 앱 생성 도구인 GitHub Spark를 공개하였습니다. GitHub의 Octoverse 2024 보고서에 따르면, AI의 확산으로 인해 Python이 가장 인기 있는 언어로 부상하였습니다. Google은 제로샷으로 개인화된 인물 이미지를 생성하는 새로운 AI 모델을 발표하였습니다. Mixture of In-Context Learners 논문에서는 In-Context Learning의 효율성을 높이는 새로운 방법을 제안하였습니다. NVIDIA는 TensorRT-LLM MultiShot을 활용하여 NVSwitch에서 AllReduce 속도를 3배 향상시켰습니다. IBM은 문서 파싱 도구인 Docling을 공개하여 다양한 문서 형식을 손쉽게 처리할 수 있게 하였습니다.
Google DeepMind, AlphaFold 3 출시
링크, 11/11/24
- DeepMind는 AlphaFold 3의 추론 코드베이스, 모델 가중치 및 온디맨드 서버를 공개함
- AlphaFold 3는 단백질, DNA, RNA, 리간드, 이온 등의 고정밀 생체분자 구조 예측을 단일 플랫폼에서 가능하게 함
- 모델은 화학적 수정 및 생체분자 복합체의 3차원 구조를 정확히 예측할 수 있음
- AlphaFold 3는 신약 개발 분야에서 새로운 패러다임을 제시하며 과학계의 큰 관심을 받음
- 논문 발표 후 한 달도 안 되어 인용 수가 25회에 달하는 등 높은 주목을 받음
- AlphaFold 3는 Evoformer에서 Pairformer로 내부 모듈을 변경하여 계산 자원과 시간을 단축함
- 생성형 AI 기술인 Diffusion을 구조 예측 네트워크에 도입하여 원자 단위의 3차원 좌표를 예측함
- AlphaFold 3의 한계점으로 chirality 문제와 hallucination 문제가 언급되었으며, 추가적인 개선의 여지가 있음
Alibaba Cloud, Qwen2.5-Coder-32B-Instruct 공개
링크, 11/11/24
- Anthropic Claude Sonnet 3.5와 경쟁할 수 있는 오픈 LLM을 공개함
- Qwen2.5-Coder-32B는 여러 코딩 벤치마크에서 Claude Sonnet 3.5와 성능을 맞춤
- HumanEval에서 92.7, EvalPlus에서 86.3의 점수로 Claude 3.5 Sonnet을 능가함
- 코드 생성, 코드 추론 및 코드 수리에 있어 성능이 크게 향상됨
- 40개 이상의 언어를 지원하며 128K의 컨텍스트 길이를 가짐
- Apache 2.0 라이선스로 공개되어 Hugging Face에서 이용 가능함
Tencent, Hunyuan-Large 모델 출시
링크, 11/3/24
- Tencent는 1.5조 개의 합성 데이터로 훈련된 새로운 대형 MoE 모델을 공개함
- 389B-A52B MoE 모델로 Meta Llama 3.1 405B를 능가하는 성능을 보임
- 총 236B 파라미터로, 생성 시 21B 파라미터가 활성화됨
- 160개의 전문가 중 6개가 생성 시 활성화됨
- 영어와 중국어 데이터를 주로 훈련하여 다국어 지원을 강화함
- 코드 생성 및 Fill-in-the-Middle 작업에서 우수한 성능을 보임
- 7조 개의 토큰으로 훈련되었으며, 그 중 1.5조 개는 합성 데이터임
- Apache 2.0 라이선스로 공개되었으나, EU 내의 시민과 기업은 사용이 제한됨
FishAudio, Fish Agent v0.1 3B 공개
링크, 11/1/24
- 70만 시간의 다국어 오디오로 훈련된 음성-음성 모델을 공개함
- Qwen-2.5-3B-Instruct를 기반으로 2000억 개의 오디오 및 텍스트 토큰으로 추가 훈련됨
- 제로샷 음성 복제를 지원함
- 텍스트 및 오디오 입력/오디오 출력을 지원함
- 200ms의 짧은 추론 시간으로 초고속 추론이 가능함
- 모델은 Hugging Face에서 이용 가능하며, 파인튜닝 코드도 곧 공개 예정임
AMD, AMD OLMo 1B 언어 모델 발표
링크, 10/31/24
- 1B 파라미터의 언어 모델인 AMD OLMo를 공개함
- OpenELM과 Tiny Llama를 능가하는 성능을 보이며, Apache 2.0 라이선스로 공개됨
- 16개의 노드, 각 노드에 4개의 MI250 GPU를 사용하여 1.3조 개의 토큰으로 훈련됨
- 세 가지 체크포인트 공개: Pre-trained, SFT, SFT DPO
- SFT는 Tulu V2, OpenHermes-2.5, WebInstructSub, Code-Feedback 데이터셋으로 진행됨
- DPO를 통해 UltraFeedback 데이터셋으로 인간의 선호도에 맞게 정렬됨
- MT Bench, Alpaca Eval에서 OpenELM, Tiny Llama보다 우수한 성능을 보임
Standard Intelligence, hertz-dev 발표
링크, 11/6/24
- 8.5B 파라미터의 음성 전용 베이스 모델인 hertz-dev를 공개함
- 2000만 시간의 오디오 데이터로 훈련됨
- 음성-음성, 번역, 분류, 음성 인식, 텍스트-음성 변환 등 다양한 다운스트림 작업에 활용 가능함
- Apache 2.0 라이선스로 공개되어 모델 체크포인트를 이용할 수 있음
GitHub, GitHub Spark 공개
링크, 11/1/24
- AI를 활용하여 마이크로 앱(“sparks”)을 생성하고 공유할 수 있는 도구인 GitHub Spark를 발표함
- 코드 작성 없이 자연어 기반 편집기로 아이디어를 표현하고 앱을 생성할 수 있음
- 관리형 런타임 환경을 제공하여 데이터 저장, 테마, LLM 접근을 지원함
- 대시보드를 통해 데스크톱 및 모바일 기기에서 스파크를 관리하고 실행할 수 있음
- 사용자 정의 및 개인화된 소프트웨어 생성이 용이해짐
GitHub, Octoverse 2024 보고서 발표
링크, 10/29/24
- AI의 확산으로 인해 Python이 GitHub에서 가장 인기 있는 언어로 부상함
- 전 세계 개발자 수가 급증하였으며, 특히 아프리카, 라틴 아메리카, 아시아에서 두드러짐
- Generative AI 프로젝트에 대한 글로벌 활동이 증가하였으며, 미국 외 지역에서의 기여도가 높아짐
- 오픈 소스 활동이 전통적인 소프트웨어 개발을 넘어 확장되고 있음
- Jupyter Notebooks의 사용이 92% 증가하여 데이터 과학 및 머신러닝 분야의 성장 반영
Google, 제로샷 개인화된 인물 이미지 생성 모델 발표
링크, 11/11/24
- 입력된 셀피를 다양한 예술적 스타일로 변환하는 새로운 AI 모델을 공개함
- 이미지 어댑터와 컨트롤 어댑터를 사용하여 얼굴의 세부 특징과 포즈, 표정을 정확히 캡처함
- 사용자는 원하는 스타일과 표정을 텍스트 프롬프트로 지정하여 이미지를 생성할 수 있음
- 모델은 다양한 스타일(3D 카툰, 수채화, 애니메이션, 연필 스케치 등)을 지원함
- Imagen on Vertex AI를 통해 모델에 접근 가능함
Mixture of In-Context Learners 논문 발표
링크, 11/5/24
- In-Context Learning에서 데모를 하위 집합으로 나누어 전문가로 취급하고, 가중치 함수를 학습하여 출력 분포를 결합하는 새로운 접근법 제안
- 블랙박스 LLM에 적용 가능하며, 데이터, 메모리, 계산 효율성이 높음
- 노이즈가 있는 데모와 레이블 불균형에 강인함
- 간단한 방법으로 현재 LLM의 In-Context Learning 성능을 향상시킴
NVIDIA, TensorRT-LLM MultiShot 발표
링크, 11/1/24
- NVSwitch와 TensorRT-LLM MultiShot을 활용하여 AllReduce 통신 속도를 최대 3배 향상시킴
- 멀티 GPU 환경에서의 통신 병목 현상을 개선하여 저지연 추론 성능을 향상시킴
- 기존의 링 기반 AllReduce 알고리즘의 통신 단계를 2단계로 줄여 지연 시간을 감소시킴
- NVSwitch의 멀티캐스트 기능을 활용하여 데이터 전송 효율을 높임
IBM, Docling 도구 공개
링크, 11/1/24
- 문서를 파싱하고 원하는 형식으로 빠르고 쉽게 내보낼 수 있는 도구인 Docling을 발표함
- PDF, DOCX, PPTX, 이미지, HTML, Markdown 등 인기 있는 문서 형식을 읽고 Markdown과 JSON으로 내보낼 수 있음
- 고급 PDF 문서 이해를 지원하여 페이지 레이아웃, 읽기 순서, 테이블 구조를 파악함
- LlamaIndex 및 LangChain과의 쉬운 통합으로 강력한 RAG/QA 애플리케이션에 활용 가능
- OCR을 통한 스캔된 PDF 지원 및 간단한 CLI 제공
Sources
This GPT assists users by creating a detailed daily newspaper in Korean based on provided links. It follows these steps: read the content, summarize each content with detailed points, and write a report. The report format is:
(today’s date in 년 월 일) AI 소식,
Summary
(overall short summary, make summary with good details. for Summary section, explain the details starting with company name, e.g. OpenAI에서는 ~~~를 발표하였습니다.)
company name, Title
링크, date
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
company name, Title
링크, date
링크, date,
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
…
1 | ### |
기술적으로 최대한 자세하게 적어. 12개의 기사가 있고 하나도 빼먹지 말고 적어.