OpenAI에서는 ChatGPT의 웹 검색 기능을 대폭 개선한 ‘ChatGPT search’를 발표하여 실시간으로 관련 웹 소스를 제공하고 사용자 경험을 향상시켰습니다. 또한 macOS와 Windows 데스크톱 앱에서 Advanced Voice 기능을 출시하여 음성 대화 기능을 확장하였습니다. Stability AI는 ‘Stable Diffusion 3.5’를 공개하여 고품질 이미지 생성을 지원하고, 다양한 모델 변형을 제공하여 사용자 커스터마이징을 용이하게 하였습니다. Google은 Gemini API와 Google AI Studio에 ‘Grounding with Google Search’ 기능을 도입하여 모델의 응답 정확성과 최신성을 향상시켰습니다. Meta는 모바일 환경에서 효율적인 LLM 활용을 위한 ‘MobileLLM’과 연구자들을 위한 LLM 훈련 및 추론 라이브러리 ‘Meta Lingua’를 출시하였습니다. Hugging Face는 소형이지만 강력한 LLM 세트인 ‘SmolLM 2’를 공개하여 온디바이스 최적화를 달성하였습니다. Inspirai와 칭화대학교는 이미지, 음성, 텍스트 입력을 모두 이해하는 비주얼-오디오 어시스턴트 ‘Mini-Omni 2’를 발표하였고, Microsoft는 마커 없이도 고품질 전신 퍼포먼스 캡처가 가능한 ‘SynthMoCap’ 기술을 소개하였습니다. 또한 MaskGCT에서는 새로운 최첨단 텍스트-투-스피치(TTS) 모델을 발표하였고, 연구자들은 대형 언어 모델이 개발자의 이데올로기를 반영한다는 연구 결과를 발표하였습니다.
OpenAI, ChatGPT search 소개
링크, 2024년 10월 31일
- ChatGPT의 웹 검색 기능 대폭 개선: 이제 ChatGPT는 이전보다 훨씬 향상된 웹 검색 기능을 통해 신속하고 시기적절한 답변과 관련 웹 소스 링크를 제공합니다.
- Plus, Team, SearchGPT 대기자 명단 사용자 우선 제공: 현재 Plus, Team, 그리고 SearchGPT 대기자 명단 사용자들에게 롤아웃 중이며, 모바일 및 데스크톱 앱과 chatgpt.com에서 이용 가능합니다.
- Enterprise와 Edu 사용자 제공 예정: Enterprise와 Edu 사용자들은 몇 주 내에 접근 가능하며, 무료 사용자들에게는 향후 몇 달에 걸쳐 제공될 예정입니다.
- 자동 및 수동 웹 검색 기능: ChatGPT는 사용자의 질문에 따라 자동으로 웹을 검색하거나, 사용자가 웹 검색 아이콘을 클릭하여 수동으로 검색할 수 있습니다.
- 새로운 시각적 디자인 추가: 날씨, 주식, 스포츠, 뉴스, 지도 등의 카테고리에 대해 최신 정보와 새로운 시각적 디자인을 제공합니다.
- 신뢰할 수 있는 뉴스 및 데이터 제공자와의 파트너십: AP News, Financial Times, Reuters 등과의 협력을 통해 최신 정보와 시각 자료를 추가하였습니다.
- 출처 링크 제공으로 투명성 강화: 답변에 출처 링크를 포함하여 사용자가 추가 정보를 얻을 수 있도록 지원합니다.
- 검색 모델의 기술적 개선: GPT-4o의 미세 조정 버전을 사용하였으며, 새로운 합성 데이터 생성 기술을 적용하였습니다.
- 향후 계획: Advanced Voice 및 캔버스에 새로운 검색 경험을 도입할 예정이며, 무료 및 로그아웃 사용자들에게도 기능을 확대할 계획입니다.
OpenAI, 데스크톱 앱에 Advanced Voice 기능 추가
링크, 2024년 10월 31일
- macOS와 Windows 데스크톱 앱에서 Advanced Voice 기능 제공: 데스크톱 환경에서 음성 대화 기능을 사용할 수 있게 되었습니다.
- 최신 버전의 앱 필요: Advanced Voice 기능을 이용하려면 최신 버전의 데스크톱 앱을 다운로드해야 합니다.
- 모바일 및 데스크톱 지원: ChatGPT는 이제 모바일과 데스크톱에서 모두 Advanced Voice 기능을 제공합니다.
OpenAI, Playground에서 프롬프트 생성 기능 도입
링크, 2024년 10월 31일
- Playground의 Generate 버튼 소개: 간단한 작업 설명만으로 프롬프트, 함수, 스키마를 생성할 수 있는 기능을 제공합니다.
- 메타 프롬프트와 스키마 사용: 최상의 프롬프트와 스키마를 생성하기 위해 메타 프롬프트와 메타 스키마를 사용합니다.
- 생성 과정 간소화: 프롬프트와 스키마를 처음부터 작성하는 데 소요되는 시간을 절약하고 빠르게 시작할 수 있습니다.
- 향후 발전된 기술 통합 예정: 앞으로 DSPy와 “Gradient Descent”와 같은 더 발전된 기술을 통합할 계획입니다.
OpenAI, SimpleQA 벤치마크 공개
링크, 2024년 10월 30일
- 사실성 측정을 위한 벤치마크 ‘SimpleQA’ 오픈 소스화: 언어 모델의 사실성을 평가하기 위한 새로운 벤치마크를 공개하였습니다.
- 단답형 사실 질문에 초점: 복잡한 사실성 측정 문제를 단순화하여 단답형 질문으로 모델의 정확성을 평가합니다.
- 높은 정확도와 다양성: 다양한 주제와 높은 정확도를 가진 질문으로 구성되어 있습니다.
- 최신 모델에 대한 도전성: GPT-4o 등 최신 모델들도 높은 정확도를 달성하기 어려운 도전적인 데이터셋입니다.
- 연구자 친화적 사용자 경험: 빠르고 간단하게 실행할 수 있으며, 평가 변동성이 낮습니다.
- 모델 간 비교 및 교정 측정: 다양한 언어 모델의 성능 비교와 모델의 교정 능력을 평가하는 데 활용됩니다.
- 오픈 소스 데이터셋 제공: 연구자들이 자유롭게 사용하고 피드백을 제공할 수 있도록 데이터셋을 공개하였습니다.
Stability AI, Stable Diffusion 3.5 출시
링크, 2024년 10월 29일 업데이트
- Stable Diffusion 3.5 Medium 모델 공개: 2.5억 개의 파라미터로 구성된 이 모델은 소비자 하드웨어에서 실행 가능하도록 설계되었습니다.
- 고품질 이미지 생성: 크기에 비해 최고의 이미지 생성 품질을 제공하며, 고급 다중 해상도 기능을 갖추고 있습니다.
- 여러 모델 변형 제공: Large, Large Turbo, Medium 등 다양한 모델 변형을 통해 사용자 요구에 맞게 선택 가능하도록 하였습니다.
- 상업적 및 비상업적 사용 허가: Stability AI 커뮤니티 라이선스 하에 상업적 및 비상업적 용도로 무료로 사용 가능합니다.
- 사용자 정의 및 효율성 강조: 모델 아키텍처와 훈련 방법을 개선하여 품질, 일관성, 다중 해상도 생성 능력을 향상시켰습니다.
- 안전한 AI 개발 준수: 안전하고 책임감 있는 AI 관행을 준수하며, 잠재적인 오용을 방지하기 위한 조치를 취하였습니다.
Google, Gemini API와 Google AI Studio에 Grounding with Google Search 도입
링크, 2024년 10월 31일
- Grounding with Google Search 기능 제공: Gemini API와 Google AI Studio에서 모델 응답의 정확성과 최신성을 높이기 위해 이 기능을 도입하였습니다.
- 지원 링크 및 검색 제안 제공: 모델 응답에 근거 출처 링크와 관련 검색 제안을 포함하여 투명성을 높였습니다.
- 모든 Gemini 1.5 모델에서 지원: 일반적으로 사용 가능한 모든 Gemini 1.5 모델 버전에서 이 기능을 사용할 수 있습니다.
- 개발자 설정 가능: Google AI Studio에서 개발자가 기능을 활성화하거나 API에서 ‘google_search_retrieval’ 도구를 통해 사용할 수 있습니다.
- 동적 검색 설정 제공: 추가 비용과 지연을 최소화하기 위해 동적 검색 구성으로 검색이 필요한 쿼리를 판단합니다.
Inspirai, 칭화대학교, Mini-Omni 2 발표
링크, 2024년 10월 25일
- 이미지, 음성, 텍스트 입력을 이해하는 비주얼-오디오 어시스턴트 공개: GPT-4o의 기능과 유사한 멀티모달 입력 처리가 가능한 모델을 선보였습니다.
- 실시간 음성 응답 및 대화 중단 기능 지원: 사용자와의 실시간 음성 대화 중에도 중단이 가능하여 유연한 상호작용을 제공합니다.
- 기술적 혁신: 이미지, 오디오, 텍스트 피처를 입력으로 결합하고, 텍스트 기반의 지연된 병렬 출력을 사용하여 실시간 음성 생성을 구현하였습니다.
- 세 가지 단계의 학습 과정: 인코더 적응, 모달 정렬, 멀티모달 파인튜닝을 통해 모델을 학습시켰습니다.
- MIT 라이선스 하에 공개: 오픈 소스로 공개되어 연구자들과 개발자들이 자유롭게 활용할 수 있습니다.
Microsoft, SynthMoCap 소개
링크, 2024년 10월 25일
- 마커 없이 고품질 전신 퍼포먼스 캡처 기술 발표: 복잡한 하드웨어나 수동 개입 없이 얼굴, 신체, 손의 동작을 동시에 캡처할 수 있는 기술을 선보였습니다.
- 기술적 하이라이트:
- 신체 형태와 자세, 얼굴 형태와 표정을 동시에 캡처,
- 손과 혀의 움직임, 눈의 시선까지 추적 가능,
- 단일 및 다중 뷰 시나리오에 적합,
- 합성 데이터를 활용한 머신러닝 모델 훈련,
- 합성 데이터셋 공개: SynthBody, SynthFace, SynthHand 데이터셋을 공개하여 연구자들이 다양한 작업에 활용할 수 있도록 하였습니다.
Meta, MobileLLM 출시
링크, 2024년 10월 30일
- 125M, 350M, 600M, 1B 모델 체크포인트 공개: 모바일 디바이스에서 효율적으로 동작하는 LLM을 제공합니다.
- 소형 LLM의 성능 최적화: 깊이와 폭의 조정을 통해 작은 모델에서도 높은 성능을 달성하였습니다.
- 임베딩 공유와 그룹 쿼리 어텐션 사용: 모델의 효율성을 높이기 위해 임베딩 공유 및 최적화된 어텐션 메커니즘을 도입하였습니다.
- 즉각적인 블록별 가중치 공유: 지연 시간을 줄이기 위해 가중치 이동을 피하면서도 최소한의 오버헤드로 구현하였습니다.
- 성능 향상:
- 제로샷 작업에서 이전 SOTA 125M/350M 모델보다 2.7%/4.3% 향상,
- API 호출에서 더 큰 LLaMA-v2 7B 모델과 유사한 정확도 달성,
Meta, Meta Lingua 공개
링크, 2024년 10월 25일
- 연구를 위한 최소한의 빠른 LLM 훈련 및 추론 라이브러리: 새로운 아키텍처, 손실 함수, 데이터 등을 실험하기 위한 PyTorch 기반의 컴포넌트를 제공합니다.
- 엔드 투 엔드 훈련, 추론 및 평가 지원: 모델의 속도와 안정성을 이해하고 개선하기 위한 도구를 제공합니다.
- 오픈 소스 코드베이스: 현재 개발 중이며, 다양한 앱을 통해 사용법을 시연하고 있습니다.
- 연구자 친화적 설계: 실험과 연구를 용이하게 하기 위해 최소한의 복잡성으로 설계되었습니다.
Hugging Face, SmolLM 2 출시
링크, 2024년 11월 1일
- 새로운 소형 LLM 세트 공개: 온디바이스에서 최적화된 작은 크기의 LLM을 출시하였습니다.
- 세 가지 크기로 제공: 0.1B, 0.3B, 1.7B 파라미터로 구성된 모델을 제공합니다.
- Apache 2.0 라이선스 하에 공개: 자유롭게 사용하고 수정할 수 있습니다.
- 성능 향상:
- Meta Llama 3.2 1B 모델을 능가하는 성능을 보여줍니다.
- 다양한 언어 모델 평가에서 높은 점수 달성,
- 온디바이스 실행 지원: llama.cpp 또는 Transformers.js를 통해 디바이스나 브라우저에서 실행 가능합니다.
MaskGCT, 새로운 최첨단 TTS 모델 발표
링크, 2024년 10월 24일
- Zero-shot 음성 클로닝 및 감정 TTS 지원: 새로운 텍스트-투-스피치 모델로 음성 클로닝과 감정 표현이 가능합니다.
- 10만 시간의 데이터로 훈련: 대규모 데이터로 훈련되어 장문 합성과 가변 속도 합성이 가능합니다.
- 이중언어 지원: 중국어와 영어를 모두 지원합니다.
- 완전한 비자동회귀 아키텍처:
- 단계 1: 텍스트로부터 음성 SSL 모델에서 추출한 시맨틱 토큰 예측,
- 단계 2: 시맨틱 토큰을 기반으로 음향 토큰 예측,
- 허깅페이스에서 사용 가능: 모델과 코드를 공개하여 연구자들이 활용할 수 있도록 하였습니다.
연구, 대형 언어 모델이 개발자의 이데올로기를 반영한다는 결과 발표
링크, 2024년 10월 24일 제출
- LLM의 이데올로기적 편향 연구: 대형 언어 모델이 개발자의 세계관을 반영하여 다양한 이데올로기적 스탠스를 보임을 발견하였습니다.
- 다양한 모델과 언어에서 실험 수행: 인기 있는 여러 LLM을 대상으로 영어와 중국어에서 실험을 진행하였습니다.
- 응답의 이념적 차이 강조: 동일한 모델이라도 사용하는 언어와 설계에 따라 응답의 이념적 차이가 발생함을 확인하였습니다.
- 편향 제거 노력에 대한 우려 제기: LLM의 이념적 ‘편향’을 제거하려는 기술 및 규제 노력에 대한 중요한 문제를 제기하였습니다.
- 정치적 도구화의 위험성 논의: LLM이 정치적 목적에 이용될 수 있는 위험성에 대해 강조하였습니다.
Sources
This GPT assists users by creating a detailed daily newspaper in Korean based on provided links. It follows these steps: read the content, summarize each content with detailed points, and write a report. The report format is:
(today’s date in 년 월 일) AI 소식,
Summary
(overall short summary, make summary with good details. for Summary section, explain the details starting with company name, e.g. OpenAI에서는 ~~~를 발표하였습니다.)
company name, Title
링크, date
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
company name, Title
링크, date
링크, date,
- detailed summary1, (개조식 문체 사용)
- detailed summary2, (개조식 문체 사용)
… - detailed summary N, (개조식 문체 사용)
…
1 | ### |
기술적으로 최대한 자세하게 적어. 13개의 기사가 있고 하나도 빼먹지 말고 적어.