Digestly

Dec 26, 2024

에이전트 기술의 미래 🌟 2024 전망

Startup & AI & Product (kor)
Latent Space: The AI Engineer Podcast: 2024년 에이전트 기술의 발전과 활용에 대한 논의

Latent Space: The AI Engineer Podcast - 2024 in Agents [LS Live! @ NeurIPS 2024]

2024 in Agents [LS Live! @ NeurIPS 2024]
2024년 에이전트 기술의 발전은 다양한 분야에서 큰 진전을 이루었습니다. 특히, OpenAI, DeepMind, Anthropic과 같은 기업들이 소비자 코딩 에이전트, 비전 기반 컴퓨터 에이전트, 다중 에이전트 시스템에 집중하고 있습니다. 이러한 발전은 Cognition AI의 Devon, Cursor Composer, Codium의 Windsurf Cascade, StackBlitz의 Bolt 등 다양한 제품의 성공으로 이어졌습니다. 또한, 고객 지원 에이전트 Sierra와 검색 에이전트 Perplexity는 각각 40억 달러와 90억 달러의 가치를 평가받고 있습니다. 에이전트 개발의 주요 과제는 에이전트-컴퓨터 인터페이스와 인간-에이전트 인터페이스의 개선입니다. 에이전트가 컴퓨터와 상호작용하는 방법과 필요한 도구를 제공하는 것이 중요하며, 인간이 에이전트와 상호작용하는 방식을 개선하는 것도 필수적입니다. 또한, 에이전트의 계획 수립과 실행, 오류 수정 능력 향상도 중요한 과제로 다루어지고 있습니다. 이러한 발전은 에이전트가 더 나은 성능을 발휘할 수 있도록 돕고 있으며, 특히 Claude와 같은 모델이 이러한 능력을 잘 발휘하고 있습니다.

Key Points:

  • 에이전트 기술은 다양한 분야에서 큰 발전을 이루고 있으며, 특히 소비자 코딩 에이전트와 비전 기반 컴퓨터 에이전트에 집중하고 있다.
  • 에이전트-컴퓨터 인터페이스와 인간-에이전트 인터페이스의 개선이 중요하다.
  • 에이전트의 계획 수립과 실행, 오류 수정 능력 향상이 필요하다.
  • Claude 모델은 에이전트의 성능 향상에 중요한 역할을 하고 있다.
  • 에이전트 기술의 발전은 다양한 산업에 걸쳐 활용될 가능성이 크다.

Details:

1. 🎉 Latent Space Live 2024 Recap

1.1. 🎉 Latent Space Live 2024 Recap

1.2. Event Overview

1.3. Audience Engagement

1.4. Speaker Highlights

2. 🤖 The Rise of LLM Agents

  • Open Hands는 올해 매우 성공적이었으며, 가장 어려운 SWE 벤치 풀 리더보드에서 29%로 1위를 차지했습니다.
  • 작은 SWE 벤치 검증에서는 53%로 Amazon Q Devlo와 OpenAI의 자체 보고 O3 결과 71.7%에 뒤처져 있습니다.
  • 2025년은 에이전트의 해가 될 것으로 예상되며, OpenAI, DeepMind, Anthropic이 소비자 인코딩 에이전트, 비전 기반 컴퓨터 사용 에이전트 및 다중 에이전트 시스템에 주력하고 있습니다.
  • Cognition AI의 Devon의 대규모 출시부터 IDE Arena에서 Cursor Composer와 Codium의 Windsurf Cascade의 성공적인 출시까지 모든 도메인에서 에이전트의 실용적 신뢰성과 응용 프로그램에 대한 많은 진전이 있었습니다.
  • StackBlitz의 Bolt, Lovable, Vercel의 V0와 같은 최근 게스트의 폭발적인 수익 성장과 고객 지원 에이전트 Sierra의 유니콘 라운드 및 고프로필 움직임은 현재 40억 달러의 가치가 있으며, 검색 에이전트 Perplexity는 현재 90억 달러의 가치가 있습니다.

3. 📚 Notable Papers and Agent Challenges

  • Graham은 에이전트 구축의 여덟 가지 영원한 문제를 제시함. 이 문제들은 에이전트의 설계와 구현에서 반복적으로 나타나는 도전 과제를 다루고 있음.
  • 2024년 최고의 논문 목록은 최신 연구 동향을 반영하며, AI 및 에이전트 기술의 발전을 보여줌. 이 목록과 관련된 유튜브 링크는 쇼 노트에서 확인 가능.
  • Graham의 슬라이드는 온라인에서 특히 인기가 높았으며, 에이전트 개발자들에게 실질적인 통찰을 제공함.

4. 🛠️ Tools and Live Demos: Human-like Tasks

  • 2024년 에이전트에 대한 논의는 개인적인 경험과 중요하다고 생각하는 것에 기반을 두고 있음.
  • 웹 브라우저, 터미널, 파일 시스템, 텍스트 또는 코드 편집 기능을 가진 도구 세트를 제공받는다면 많은 작업을 수행할 수 있음.
  • 이러한 도구 세트를 조작할 수 있는 에이전트를 개발하는 것이 목표임.
  • CMU 교수이자 All Hands AI의 수석 과학자로서 오픈 소스 코딩 에이전트를 개발 중임.
  • 오픈 소스 코딩 에이전트 프레임워크인 Open Hands의 유지보수자이며, 소프트웨어 개발자로서 코딩과 새로운 기능 출시를 즐김.
  • 코딩 에이전트를 사용하여 일상적인 문제 해결을 위해 하루에 5~10회 사용함.
  • 데이터 과학 작업 예시로 SWE 벤치 점수의 시간 경과에 따른 증가를 보여주는 산점도를 생성하는 작업을 수행함.
  • 에이전트는 구체적인 프롬프트와 함께 더 잘 작동하며, Open Hands에 이를 적용하여 작업을 수행함.

5. 🔍 Designing Effective Agents

5.1. Email Service Transition

5.2. Software Development and Monitoring

5.3. Data Analysis and Visualization

6. 🧠 Human-Agent Interaction

6.1. Agent Design Methodologies

6.2. OpenHands Tools

6.3. Specific Tools and Functions

7. 🗣️ Choosing the Right Language Model

  • 프로그래머들은 이미 다양한 라이브러리를 사용하고 있으며, 이러한 라이브러리를 코딩 에이전트에 제공하면 데이터 시각화와 같은 작업을 수행할 수 있습니다.
  • GitHub API를 사용하여 GitHub에서 댓글 찾기, GitHub Actions 확인 등의 작업을 수행할 수 있습니다.
  • 인간 에이전트 인터페이스는 사용자가 에이전트와 상호작용할 수 있도록 하는 것이며, 이는 매우 어렵지만 사용자가 에이전트의 작업을 이해할 수 있도록 영어 설명을 제공하는 것이 중요합니다.
  • OpenHands에서는 사용자가 특정 설정에서 이미 상호작용하고 있다면 그 설정에 통합하는 것이 중요합니다.
  • OpenHands 에이전트는 GitHub 플러그인을 통해 문제를 태그하고 해결할 수 있으며, 원격 런타임을 통해 헤드리스 작업을 실행할 수 있습니다.

8. 📈 Planning and Workflow Optimization

  • 에이전트 LMs를 선택할 때 중요한 요소는 뛰어난 지시사항 준수 능력이다. 이는 다양한 응용 프로그램의 가능성을 열어준다.
  • 도구 사용 및 코딩 능력도 중요하다. 제공된 도구를 잘 사용할 수 있어야 한다.
  • 환경 이해 능력도 필요하다. 웹 에이전트를 구축할 경우, 웹 페이지를 시각 또는 텍스트로 이해할 수 있어야 한다.
  • 오류 인식 및 복구 능력도 필수적이다. 실수를 했을 경우, 왜 실수를 했는지 파악하고 대체 전략을 세울 수 있어야 한다.
  • Claude는 이러한 능력을 갖추고 있으며, 다른 모델들보다 뛰어난 성능을 보인다. 특히 Claude는 오류 복구 능력이 뛰어나며, 반복적인 오류를 피할 수 있다.
  • Claude는 GPT-4-0보다 뛰어난 성능을 보이며, GPT-4-0은 오류 복구 능력이 부족하여 반복적인 루프에 빠질 수 있다.
  • Claude는 코드 에이전트로서의 평가에서 다른 모델들보다 우수한 성능을 보였다. GPT-40은 보통 수준이었으며, LAMA 3.1-405b가 가장 우수한 오픈 소스 모델이었다.
  • 이 평가 결과는 몇 달 전의 것이며, 업데이트가 필요하지만 여전히 Claude가 최고의 성능을 보인다는 인상을 받고 있다.

9. 🔄 Self-Improving Agents

  • GitHub 문제 해결을 위한 계획은 먼저 문제를 재현하는 테스트를 작성하고, 테스트가 실패하는지 확인한 후, 문제를 수정하고 테스트를 다시 실행하여 통과하는지를 확인하는 것이 포함됩니다.
  • 계획을 사전에 준비하거나 언어 모델이 자체적으로 계획을 생성하도록 할 수 있으며, 두 방법 모두 유효합니다.
  • 명시적 구조와 암시적 구조의 선택이 가능하며, 명시적 구조는 다중 에이전트 시스템을 작성하여 각 에이전트가 특정 역할을 수행하도록 할 수 있습니다.
  • OpenHands에서는 단일 프롬프트를 사용하여 가벼운 계획을 수행하며, 다중 에이전트 시스템을 사용하지 않고 단계별 지침을 제공합니다.

10. 🔮 Future of Agent-Oriented LLMs

10.1. Instruction Following and Flexibility

10.2. Plan Generation and Correction

10.3. Common Workflows in Software Development

10.4. Self-Improving Agents

10.5. Exploration and Environment Understanding

10.6. Search Path Optimization

10.7. Evaluation and Benchmarking

11. 🌐 Expanding Agent Applications

11.1. Agent Oriented LLMs

11.2. Instruction Following and Error Correction

11.3. Agent Benchmarks

11.4. Human-Agent Interface and Industry Application

12. 🚀 Accelerating Progress with Agents

  • 웹 에이전트가 웹사이트 대신 API와 상호작용할 때 정확도가 크게 향상됨.
  • GitHub와 같은 플랫폼에서는 웹사이트 대신 API를 사용하여 상호작용할 때 성공률이 높아짐.
  • 모든 웹사이트가 에이전트와의 상호작용을 위해 API를 필요로 할 가능성이 있음.
  • 에이전트가 에이전트를 구축함으로써 발전 속도가 더욱 빨라질 것으로 예상됨.

13. 🌍 Making AI Tools Accessible

  • AI 에이전트와의 상호작용은 매우 마법적이며, 강력한 언어 모델로 구동되는 AI 에이전트의 능력은 인상적이다.
  • 이러한 강력한 도구를 접근 가능하게 만드는 것이 중요하다. 이는 특정 사람들만 사용할 수 있도록 제한하거나 불투명하게 해서는 안 된다는 것을 의미한다.
  • AI 도구는 저렴해야 하며, 사람들 간의 권력 차이를 증가시키지 않아야 한다.
  • AI 도구는 이전에 할 수 없었던 일을 가능하게 만들어야 한다.
  • 오픈 소스는 이러한 접근성을 높이는 한 가지 방법이며, 저렴하게 제공하여 쉽게 접근할 수 있도록 해야 한다.

14. 🤝 Call to Action: Open Source Contributions

  • Duolingo는 미국 사용자들에게 월 $20를 지불하게 하여 남미 사용자들에게 무료 언어 교육을 제공하는 모델을 운영하고 있습니다. 이러한 방식으로 영어를 배운 남미 사용자들은 취업 시장에서 더 매력적으로 보일 수 있습니다.
  • 이와 유사한 방식으로 기여할 수 있는 방법을 생각해보세요. 오픈 소스 솔루션을 사용하고 기여하며, 이를 통해 강력한 오픈 소스 모델을 연구하고 훈련하세요.
  • 코딩 에이전트를 위한 모델을 훈련하고 저렴하게 제공하는 것이 좋습니다.

15. 🗣️ Q&A: Insights and Challenges

15.1. Agent Performance and Feedback

15.2. Benchmarking Help Requests

15.3. Web Agent Interaction

15.4. SweeBench Successor

15.5. Agent Architecture Design

15.6. Standardization of Agent Interactions

15.7. Agent Problem Solving Patterns

15.8. Self-Improving Agents

15.9. Agent Authentication Challenges

Previous Digests