Digestly

Dec 25, 2024

NeurIPS 2024: AI 혁신과 소형 모델의 미래 🚀🤖

Startup & AI & Product (kor)
Latent Space: The AI Engineer Podcast: 2024년 NeurIPS에서 열린 Latent Space Live에서 합성 데이터와 소형 모델의 발전을 논의하며, Hugging Face의 Lubna Ben-Elal이 주요 발표자로 참여했다.
Latent Space: The AI Engineer Podcast: 2024년 NeurIPS에서 열린 Latent Space Live에서 AI 및 대체 아키텍처의 발전을 논의했습니다.

Latent Space: The AI Engineer Podcast - 2024 in Synthetic Data and Smol Models [LS Live @ NeurIPS]

2024 in Synthetic Data and Smol Models [LS Live @ NeurIPS]
2024년 NeurIPS에서 열린 Latent Space Live에서는 합성 데이터와 소형 모델의 발전에 대한 논의가 이루어졌다. Hugging Face의 Lubna Ben-Elal은 합성 데이터가 대규모 언어 모델(LLM) 파이프라인 전반에 걸쳐 사용되고 있으며, 이는 인간 주석자보다 저렴하고 빠르다는 점에서 인기를 끌고 있다고 설명했다. 또한, 합성 데이터는 모델의 성능을 평가하는 데에도 사용되며, 이를 통해 모델 붕괴를 방지할 수 있다고 강조했다. 소형 모델 분야에서는 Apple, Google, Microsoft 등이 소형 모델을 다양한 기기에 적용하고 있으며, 이는 효율성을 높이고 비용을 절감하는 데 기여하고 있다. 특히, 소형 모델은 개인 기기에서 실행 가능하여 데이터 프라이버시를 강화할 수 있다는 점에서 주목받고 있다. Lubna는 소형 모델의 효율성을 높이기 위해 다양한 데이터셋을 활용하고, 합성 데이터를 통해 모델을 사전 훈련하는 방법을 제안했다. 이를 통해 소형 모델이 대형 모델과 유사한 성능을 발휘할 수 있음을 보여주었다.

Key Points:

  • 합성 데이터는 대규모 언어 모델 파이프라인 전반에 걸쳐 사용되며, 인간 주석자보다 저렴하고 빠르다.
  • 소형 모델은 개인 기기에서 실행 가능하여 데이터 프라이버시를 강화할 수 있다.
  • 소형 모델의 효율성을 높이기 위해 다양한 데이터셋과 합성 데이터를 활용한다.
  • 합성 데이터는 모델 붕괴를 방지하고 성능 평가에 사용된다.
  • 소형 모델은 대형 모델과 유사한 성능을 발휘할 수 있다.

Details:

1. 🎉 Latent Space Live 2024 Recap

  • NeurIPS 2024에서 열린 첫 번째 미니 컨퍼런스 Latent Space Live에 다시 오신 것을 환영합니다.
  • 이번 주에는 2024년의 최고를 도메인별로 요약합니다.
  • 900명 이상의 참가자에게 설문조사를 보내 그들이 원하는 것을 파악했습니다.
  • Latent Space Network의 최고의 연사들을 초청하여 각 분야를 다루었습니다.
  • 200명이 하루 종일 현장에 참석했습니다.
  • 2,200명 이상이 온라인으로 생중계를 시청했습니다.

2. 📊 Synthetic Data and Small Models: Keynote Highlights

2.1. Synthetic Data

2.2. Small Models

3. 🔍 Synthetic Data in LLMs: Trends and Innovations

  • 애플의 파운데이션 모델이 모든 아이폰과 맥북에 롤아웃됨
  • 구글이 크롬 브라우저에 Gemini Nano 도입
  • 마이크로소프트가 윈도우에 RWKV 임베딩
  • 2024년 최고의 논문 선정 및 유튜브 링크 제공
  • 소형 온디바이스 모델에 대한 주의 필요
  • 합성 데이터가 이제 어디에나 존재

4. 🧠 Synthetic Data: Quality and Concerns

  • 합성 데이터는 초기에는 주로 사후 훈련에 사용되었으며, 인간 주석자가 모델에게 지침을 따르는 방법을 보여주기 위해 필요했습니다.
  • 고성능 LLM의 등장으로 인간 주석자를 합성 데이터로 대체하게 되었습니다.
  • 모델의 지침 준수, 창의성, 대화형 능력을 측정할 벤치마크가 부족하여 LLM을 심판으로 사용하기 시작했습니다.
  • 작년 말부터 올해까지 사전 훈련에도 합성 데이터를 생성하기 시작했습니다.
  • 합성 데이터는 웹의 일부를 대체하기 위해 생성되었으며, 데이터 생성에 대한 많은 통제력을 제공합니다.
  • 웹을 필터링하는 대신 최상의 웹 페이지를 생성하여 모델을 훈련할 수 있습니다.
  • 합성 데이터는 LLM 파이프라인에 전혀 없던 상태에서 모든 곳에 사용되는 상태로 발전했습니다.

5. 🔄 Rephrasing and Filtering: Enhancing Synthetic Data

  • 현재 완전히 합성된 파이프라인으로 LLM을 훈련할 수 있음.
  • Cosmopedia 데이터셋을 사용하여 100% 합성된 1500억 토큰으로 1B 모델 훈련 가능.
  • 합성 SFT 데이터셋으로 모델을 튜닝할 수 있음.
  • 합성 데이터셋으로 DPO 수행 가능.
  • MTBench 또는 AlpacaEval과 같은 벤치마크를 사용하여 모델 평가 가능.
  • 합성 데이터를 적절히 사용하고 신중하게 큐레이션하면 모델 붕괴 방지 가능.
  • 합성 데이터는 인간 주석보다 저렴하고 빠름.
  • 충분한 GPU가 있으면 많은 합성 데이터를 생성하기 쉬움.
  • 웹에 합성 데이터가 많아 모델 붕괴 우려 존재.
  • 합성 데이터의 양을 정확히 측정하는 방법은 없음.
  • ChatGPT가 생성한 표현을 통해 합성 데이터 양을 추정 가능.
  • Common Crawl의 덤프에서 합성 데이터 비율 증가 확인.
  • 합성 데이터가 모델 성능을 저하시킨다는 증거는 없음.

6. 📚 Synthetic Data for Pre-Training: Classifiers and Benchmarks

6.1. Microsoft's Study on Synthetic Data

6.2. Hugging Face's Approach with Cosmopedia

6.3. Benchmark Suitability and NVIDIA's Contribution

7. 🔧 Post-Training and Diverse Datasets

7.1. 데이터셋 재작성

7.2. Nimotron CC 및 Pros 접근법

7.3. FineWebEDU 데이터셋

7.4. 다양한 분류기 사용

8. 📈 Small Models in 2024: Efficiency and Performance

  • Microsoft의 에이전트 인스트럭트 데이터셋은 특정 기술을 목표로 하여 모델의 성능을 향상시킴. Mistral 7b를 미세 조정하여 원래의 Mistral 인스트럭트 모델을 능가함.
  • Allen AI의 툴 세 가지 SFT 혼합 데이터셋은 다양한 작업을 포괄하며, 페르소나 허브 데이터셋을 사용하여 데이터셋의 다양성을 보장함. 예를 들어, 머신러닝 연구자 페르소나를 사용하여 새로운 코드 스니펫을 생성함.
  • Smalltalk 데이터셋을 출시하여 다양한 작업을 포괄하고, 7b를 미세 조정하여 수학 및 ifEval을 통한 명령어 수행에서 원래의 Mistral 인스트럭트를 능가함.
  • Cohere의 다국어 데이터 차익 거래 논문은 다국어 데이터셋을 생성하기 위해 여러 교사 모델을 사용하고, 라우터를 통해 프롬프트를 전송하여 가장 우수한 결과만을 유지함. 이는 금융의 차익 거래와 유사함.
  • 합성 데이터는 단일 모델에서만 생성될 필요가 없으며, 여러 우수한 모델을 결합하여 고품질의 다양한 데이터셋을 생성할 수 있음.

9. 📱 On-Device Models: Privacy and Accessibility

9.1. LAMA Models and Efficiency

9.2. On-Device Model Applications

9.3. Training Techniques and Innovations

10. 🔮 Future of Synthetic Data and Small Models

10.1. Small Models: Specialization and Text Extraction

10.2. Synthetic Data and Domain Specialization

10.3. Small Models and Cost Efficiency

10.4. On-Device Frameworks and Applications

10.5. Fine-Tuning vs. Prompt Engineering

Latent Space: The AI Engineer Podcast - 2024 in Post-Transformers Architectures (State Space Models, RWKV) [LS Live @ NeurIPS]

2024 in Post-Transformers Architectures (State Space Models, RWKV) [LS Live @ NeurIPS]
Latent Space Live는 NeurIPS 2024에서 열린 미니 컨퍼런스로, AI 및 대체 아키텍처의 최신 발전을 다루었습니다. Together AI와 Recursal AI의 전문가들이 참여하여, 트랜스포머 대체 아키텍처의 상태와 발전을 논의했습니다. 특히, RWKV-V5와 QRDADUKV-6 모델의 발전이 강조되었으며, 이 모델들은 Microsoft의 에너지 효율적인 Windows 코파일럿 사용 사례를 지원합니다. 또한, 새로운 아키텍처가 어떻게 더 적은 계산 자원으로 동일한 성능을 달성할 수 있는지에 대한 논의가 있었습니다. 이와 함께, 효율적인 커널 지원의 중요성과 새로운 테스트 시간 패러다임에 대한 논의도 이루어졌습니다.

Key Points:

  • 트랜스포머 대체 아키텍처의 발전: Together AI와 Recursal AI는 트랜스포머 대체 아키텍처의 발전을 주도하고 있습니다.
  • RWKV 모델의 발전: RWKV-V5와 QRDADUKV-6 모델은 Microsoft의 에너지 효율적인 Windows 코파일럿 사용 사례를 지원합니다.
  • 효율적인 커널 지원: 새로운 아키텍처는 효율적인 커널 지원을 통해 더 적은 계산 자원으로 동일한 성능을 달성할 수 있습니다.
  • 새로운 테스트 시간 패러다임: 새로운 아키텍처는 테스트 시간에 다른 접근 방식을 필요로 하며, 이는 모델의 성능을 향상시킬 수 있습니다.
  • 미래의 AI 모델: AI 모델은 더 긴 문맥 길이를 처리할 수 있으며, 이는 다양한 응용 분야에서 유용할 수 있습니다.

Details:

1. 🎉 Latent Space Live 2024: Recap and Highlights

  • NeurIPS 2024에서 열린 첫 번째 미니 컨퍼런스 Latent Space Live 개최
  • 900명 이상의 참가자 설문조사 결과를 바탕으로 최고의 연사 초청
  • 현장 참석자 200명, 온라인 생중계 시청자 2,200명

2. 🔍 Exploring Transformers and AI Innovations

  • 트랜스포머 대체 아키텍처의 현재 상태에 대한 키노트 발표가 진행되었습니다.
  • Together AI의 Dan Few와 Recursal AI 및 Featherless AI의 Eugene Cheer가 공동 발표를 맡았습니다.
  • 이전에도 Together와 Recursal을 팟캐스트에서 다룬 적이 있습니다.
  • 키노트에서는 트랜스포머 대체 아키텍처의 혁신과 발전 방향에 대한 심도 있는 논의가 이루어졌습니다.
  • Dan Few는 Together AI의 혁신적인 접근 방식을 강조하며, Eugene Cheer는 Recursal AI의 최신 연구 결과를 공유했습니다.

3. 🚀 Together AI and Recursal AI: Pioneering AI Architectures

3.1. Together AI's Contributions to AI Architectures

3.2. Recursal AI's Innovations and Releases

4. 🦅 RWKV's Global Impact and Innovations

4.1. Microsoft Integration

4.2. Energy-Efficient Use Cases

4.3. RWKV-6 Updates

4.4. QRDADUKV-6 Announcement

4.5. Model Modification

4.6. Popular Guest Post

4.7. H100 GPU Market Insights

4.8. Featherless AI Launch

4.9. Additional Resources

5. 🧠 Post-Transformer Architectures: A New Era

  • Dan은 Together AI에서 일하고 있으며, 1년 후 UCSD 교수로 합류할 예정입니다.
  • Eugene은 Featherless의 CEO이자 공동 창립자로, Art of Theory 팀을 이끌고 있습니다.
  • 두 발표자는 새로운 포스트-트랜스포머 아키텍처 공간에서 작업하고 있습니다.
  • 발표는 최근 몇 년간의 비포스트-트랜스포머 아키텍처의 발전에 대한 개요를 제공할 것입니다.
  • Eugene은 이 분야의 최신 프론티어 모델에 대해 설명할 예정입니다.

6. 📈 Scaling and Efficiency in AI Models

6.1. 📈 Scaling in AI Models

6.2. ⚙️ Efficiency in AI Models

7. 🔄 Advances in Attention Mechanisms

  • 주의 메커니즘의 핵심 연산자는 문맥 길이에 따라 계산량이 제곱적으로 증가합니다.
  • 테스트 시간 계산 시, 더 많은 토큰을 사용할수록 계산량이 제곱적으로 증가합니다.
  • 기본 시퀀스 모델을 개선하여 n의 3/2승 또는 n log n으로 확장할 수 있는지 연구 중입니다.
  • 2020년 초부터 현재까지 주의 메커니즘의 확장 가능성을 보여주는 주요 아이디어들이 발전해 왔습니다.
  • 동일한 품질을 유지하면서도 더 나은 확장이 가능할 수 있습니다.

8. 🔬 State-Space Models and Efficient Computation

  • 최근 몇 년간의 혼란도(perplexity) 감소 추세를 보여주는 그래프에서, 파란 점선은 기본적인 트랜스포머의 완전 밀집 주의(attention)를 나타냅니다.
  • 주의(attention)를 서브쿼드래틱(subquadratic)으로 만들 수 있는지에 대한 질문이 제기되었습니다.
  • 주의 연산자는 쿼드래틱(quadratic)이며, 입력의 모든 토큰을 서로 비교하는 방식으로 작동합니다.
  • 이 방식은 인상적인 결과를 가져왔지만, 해석을 위한 일종의 무차별 대입 방식입니다.

9. 💡 Linear Attention and Computational Challenges

  • 출력 크기는 항상 입력과 동일하게 유지되며, 이는 표준 셀프 어텐션에서 관찰되는 점이다.
  • 2020년경, 선형 어텐션이라는 개념이 등장했으며, 이는 어텐션 연산의 중간에서 소프트맥스를 제거하고 비선형성을 제거함으로써 이루어진다.
  • 키와 값 연산을 먼저 계산하면, 이로 인해 발생하는 이차 병목 현상을 피할 수 있다.
  • 이 방법은 계산 효율성을 크게 높일 수 있는 잠재력을 가지고 있다.
  • 특징 맵을 사용하거나 전체 어텐션 계산을 근사화하는 다양한 방법이 존재하지만, 2020년에는 이러한 작업이 한계에 부딪히기 시작했다.
  • 기본적인 도전 과제는 두 가지로, 첫째는 품질 문제로, 선형 어텐션 연산자로 좋은 품질을 얻기 어려웠다.
  • 둘째는 하드웨어 효율성 문제로, 단순화된 특징 맵이 상당히 계산 비용이 많이 든다.

10. 🔧 Innovations in AI Kernel Design

  • 2022년 Worku의 연구는 포스트-트랜스포머 아키텍처의 미니 혁명을 시작한 중요한 작업으로, 전기공학에서 사용하는 신호 처리의 동적 시스템 모델링을 AI 입력 모델링에 적용하여 품질 격차를 줄이는 데 기여함.
  • 초기 상태 기반 모델 논문들은 신호 처리 수업의 기본적인 재귀 업데이트 모델을 사용하여 숨겨진 상태와 시퀀스에서 최대의 성능을 이끌어내는 방법을 제시함.

11. ⚙️ Efficient Sequence Models and Hardware Integration

  • S4 논문은 현재 모델을 컨볼루션으로 공식화할 수 있다는 통찰력을 제공함.
  • PyTorch Conv1d 대신 FFT를 사용하여 n log n 계산을 가능하게 함.
  • 현대 하드웨어에 최적화된 연산자를 사용하여 효율적인 계산을 구현함.
  • 2022년 비변환기 아키텍처에서 돌파구를 마련한 두 가지 주요 아이디어 중 하나로 평가됨.

12. 🦛 H3 and Hyena Models: Enhancing AI Quality

12.1. Introduction of New Models

12.2. Mechanisms for Quality Enhancement

13. 🔍 Just Read Twice: Optimizing AI Efficiency

13.1. Hardware Efficiency in New Architectures

13.2. Linear Attention Resurgence

13.3. BASED Model and Linear Attention

13.4. Efficient Sequence Models and Just Read Twice

14. 🔍 Test Time Compute and AI Model Queries

  • 트랜스포머 모델을 사용하여 긴 문서를 입력으로 받아 질문을 하는 표준 사용 사례를 설명합니다. 이 모델은 고정 상태 크기를 가진 순환 모델과 달리 긴 기사에서 특정 정보를 찾는 데 더 효율적입니다.
  • 효율적인 모델 아키텍처를 통해 문서와 질문을 반복적으로 입력하여 더 나은 품질을 얻을 수 있습니다. 이는 특히 회상 집약적인 작업에서 더 나은 품질을 제공합니다.
  • 모델의 기본 계산 능력과 확장 방식을 변경하면 테스트 시점에서 모델을 다르게 쿼리할 수 있습니다. 이는 대형 트랜스포머 모델의 테스트 시점 계산을 연구하는 흥미로운 연구 질문이 될 수 있습니다.

15. 📊 State of the Art in AI Models

  • AI 모델의 최신 상태를 이해하기 위해서는 신호 처리와 같은 다른 분야의 아이디어를 활용하여 시퀀스 모델링에 더 원칙적인 접근 방식을 취하는 것이 중요합니다.
  • 하드웨어와 커널 지원은 모델 개발 초기부터 필수적입니다. 이론적으로 더 효율적인 모델이라도 실행 속도가 두 배 느리다면 실질적으로 사용되지 않을 가능성이 큽니다.
  • 모델의 품질을 결정하는 중요한 요소는 숨겨진 상태에서 선택할 수 있는 다양한 방법을 인코딩하는 것입니다.
  • 새로운 테스트 시간 패러다임을 탐색하는 것이 중요하며, 이는 표준 트랜스포머와 비교하여 어떻게 변화하는지 이해해야 합니다.

16. 🔄 RWKV vs. State Space: A Comparative Analysis

  • AI2가 개발한 하이브리드 MOE 모델 Jamba는 비변환기 아키텍처 중 최첨단을 자랑함. 이 모델은 다양한 모달리티와 응용 분야에서 뛰어난 성능을 발휘하며, 특히 대규모 데이터 처리에 강점을 보임.
  • MIT의 새로운 확산 모델 SANA는 표준 변환기 확산 모델의 레이어를 선형 주의로 대체하여 더 큰 이미지와 시퀀스를 효율적으로 처리 가능하게 함. 이는 기존 모델 대비 처리 속도와 효율성을 크게 향상시킴.
  • 게이트된 상태 기반 모델은 DNA 모델 훈련을 통해 과학 잡지 표지를 장식하며, 복잡한 생물학적 데이터를 효과적으로 분석할 수 있는 능력을 입증함.
  • 2024년에는 비변환기, 포스트 변환기 아키텍처가 다양한 모달리티, 응용 분야 및 작업에서 가능성을 보여주고 있음. 이러한 아키텍처는 특히 AI 연구 및 개발의 새로운 패러다임을 제시하며, 기존의 변환기 모델을 대체할 수 있는 잠재력을 가짐.

17. 🌍 RWKV's Mission for Global AI Accessibility

  • RWKV는 오픈 소스 커뮤니티와 학계의 협력으로, RNN과 선형 주의 메커니즘을 활용하여 AI 모델을 개발하고 있습니다.
  • RWKV는 100개 이상의 언어로 모델을 주로 훈련하며, 모든 언어를 포괄하기 위해 200개 언어로 확장하는 것을 목표로 하고 있습니다.
  • RWKV는 계산 비용을 낮추기 위한 아키텍처 작업을 진행하고 있으며, 이는 AI를 모든 사람에게 접근 가능하게 만드는 목표와 일치합니다.
  • RWKV의 평균 H-지수는 거의 0에 가까웠으나, Eluter AI의 도움으로 첫 번째 논문을 작성하여 현재 H-지수는 3입니다.
  • RWKV는 기술적 접근 방식을 통해 글로벌 AI 접근성을 높이기 위해 RNN과 선형 주의 메커니즘을 결합하여 계산 효율성을 극대화하고 있습니다.
  • RWKV는 글로벌 AI 접근성을 위한 주요 도전 과제로 언어 다양성과 계산 비용을 식별하고 있으며, 이를 해결하기 위한 전략을 개발 중입니다.

18. 🔄 RWKV's Architectural Innovations

  • RWKV는 LSTM 토큰 흐름의 종속성을 극복하기 위해 RNN의 비효율성과 확장성 부족 문제를 해결했다.
  • RWKV는 R&M 렌즈를 통해 아키텍처를 이해하는 것이 더 쉽고 직관적이다.
  • 모든 기초 모델은 토큰을 임베딩으로 변환하고 여러 레이어를 거쳐 내부 상태를 생성한다는 공통점을 가진다.
  • RNN은 첫 번째 토큰을 처리한 후에야 다음 토큰을 처리할 수 있어 병목 현상이 발생한다.
  • RWKV 버전 0은 이러한 병목 현상을 해결하기 위해 RNN의 종속성을 제거했으나 초기 성능은 좋지 않았다.
  • RWKV는 이러한 문제를 해결하면서도 훈련 가능성을 유지하는 혁신적인 접근 방식을 개발했다.

19. 🔍 RWKV's Efficient Training and Conversion Techniques

  • RWKV는 GPU를 빠르게 포화시킬 수 있는 흐름을 통해 100% GPU 사용을 달성함. 이는 훈련 속도를 크게 향상시킴.
  • 효율성을 극대화하기 위해 일반적인 아키텍처를 유지하면서도 최적화된 원칙을 따름.
  • RWA-KVR의 주요 블록은 'timelapse'와 'channelmapse'로 구성됨. 'timelapse'는 장기 메모리 상태를 처리하며, 행렬 곱셈과 C-loop 활성화 함수를 사용함. 이는 모델이 긴 시퀀스를 효과적으로 처리할 수 있도록 함.
  • 'channelmapse'는 단기 주의력을 처리하며, 이전 토큰을 참조하여 빠른 응답을 가능하게 함.
  • RWKV는 여러 버전으로 발전해왔으며, 현재 v7을 준비 중임. 이는 지속적인 개선과 혁신을 반영함.

20. 🔄 QRWKV6: Breakthroughs in AI Efficiency

  • QRWKV6는 기존 QAN 32B 모델의 피드포워드 레이어를 동결하고 QKV 주의 레이어를 제거한 후 RWKV 선형 레이어로 대체하여 개발되었습니다. 이 과정에서 피드포워드 레이어를 동결하여 새로운 주의 메커니즘을 학습하고, 이후 모든 레이어를 함께 훈련하여 최적의 성능을 달성했습니다.
  • QRWKV6는 단 두 개의 노드에서 몇 시간의 훈련만으로 원래의 QAN32B 모델과 동등한 성능을 달성했습니다. 이는 제한된 컴퓨팅 자원으로도 높은 효율성을 보여주었으며, 더 많은 훈련을 통해 더욱 향상될 수 있습니다.
  • MMLU 점수는 76%로 일부 손실이 있었지만, 추가적인 훈련을 통해 개선 가능성이 있습니다. QRWKV6는 효율적인 자원 활용을 통해 AI 모델의 성능을 최적화할 수 있는 가능성을 보여줍니다.

21. 🔍 Future Directions and Hybrid Models

  • SAM-TP 변환 과정에서 주의 메커니즘 테스트를 위한 컴퓨팅 효율성이 매우 높음. SAM-TP는 주의 메커니즘을 테스트하는 데 있어 매우 효율적인 컴퓨팅 성능을 제공함.
  • 버전 7 및 하이브리드 아키텍처 개발 계획 중이며, 처음부터 훈련하여 우수한 모델을 얻음. 하이브리드 아키텍처는 처음부터 훈련하여 더 나은 성능을 발휘함.
  • 현재 70B 모델을 사용 중이며, 128K 컨텍스트 길이로 확장 시 대부분의 엔터프라이즈 워크로드를 대체할 수 있음. 128K 컨텍스트 길이는 현재 AI 워크로드의 대다수를 대체할 수 있는 잠재력을 가짐.
  • 128K 컨텍스트 길이로 확장 시, 현재 AI 워크로드의 대다수를 대체할 수 있으며, 더 긴 컨텍스트를 원할 경우 추가 GPU 필요. 더 긴 컨텍스트를 위해서는 추가적인 GPU 리소스가 필요함.
  • RWKV에 국한되지 않고 Mamba에서도 변환 프로세스가 작동할 가능성이 높음. 변환 프로세스는 RWKV뿐만 아니라 Mamba에서도 효과적으로 작동할 가능성이 있음.
  • Goldfinch 하이브리드 모델 실험에서 상태 기반 모델과 트랜스포머의 결합이 개별 성능을 초과함. Goldfinch 실험은 상태 기반 모델과 트랜스포머의 결합이 개별 성능을 초과함을 보여줌.
  • 4개 팀에서 4개의 실험을 통해 하이브리드 모델의 성능 향상을 확인했으며, 추가 연구 필요. 4개의 팀이 4개의 실험을 통해 하이브리드 모델의 성능 향상을 확인했으며, 추가 연구가 필요함.

22. 🔧 Hardware and Model Co-Design: Thunder Kittens

  • Thunder Kittens는 CUDA 라이브러리로, 새로운 아키텍처를 구축할 때마다 CUDA 코드를 작성하는 데 걸리는 시간을 줄이기 위해 개발되었습니다.
  • H100 하드웨어에서의 핵심 연산은 warp group matrix multiply operation으로, 이를 활용하여 모델 설계 시 상태 크기와 업데이트 함수를 최적화할 수 있습니다.
  • Thunder Kittens는 모든 기본 연산을 행렬 연산으로 처리하도록 설계되어 있으며, 기존 아키텍처를 재구현하거나 새로운 아키텍처를 설계하는 데 사용됩니다.
  • 최근 몇 년간 언어 모델에 집중해왔으나, 실시간으로 실행 가능한 비디오 생성 모델 등 새로운 세대의 모델들이 등장하고 있습니다.
  • 새로운 비디오 생성 모델은 긴 대기 시간과 생성 시간을 가지고 있으며, 이를 개선하기 위한 연구가 진행 중입니다.

23. 🤔 Hot Takes and Future Speculations

23.1. RAG 모델의 한계

23.2. 무한한 컨텍스트의 현실

23.3. 고정 상태 크기의 중요성

23.4. 언어 모델과 외부 데이터 저장소

24. 🔍 Long Context and AI Model Challenges

  • 장기 컨텍스트는 실제로 중요하지 않다는 의견이 제시됨. 2백만 토큰을 사용하는 프롬프트는 거의 사용되지 않으며, 이를 위한 모델 설계가 필요할 수 있음.
  • Google Gemini가 3백만 컨텍스트를 지원한다는 소식이 있었지만 실제로 사용해본 사람은 드뭄.
  • VRAM 소비가 훈련 시간 동안 재사용되지 않아 VRAM 병목 현상이 발생함. 이는 1백만 컨텍스트를 훈련할 때 발생하는 문제로, 대형 연구소가 더 큰 역할을 할 수 있음.
  • 400B 모델보다 70B 모델이 더 적은 자원을 사용하면서도 동일한 결과를 얻을 수 있음. 이는 효율적인 아키텍처를 통해 가능하며, 200B 이하의 모델을 최대한 빠르고 효율적으로 만드는 방향이 중요함.
  • 무한한 컨텍스트 길이를 훈련할 수는 없지만, 장기 컨텍스트 벤치마크를 구축하여 모델이 이를 처리할 수 있는지 평가할 필요가 있음.
  • 상태 공간 모델과 RWKB는 토큰 위치에 기반하지 않는 주의 메커니즘을 사용하여 8K 또는 1백만 컨텍스트를 넘어도 안정적으로 작동함. 이는 기상 데이터 모델링 등에서 기존 아키텍처보다 우수한 성능을 보임.

Previous Digests