Digestly

Dec 18, 2024

AI 혁신: 여행부터 의료까지 🚀🤖

Startup & AI & Product (kor)
OpenAI: OpenAI는 개발자와 스타트업을 위한 새로운 API 기능과 모델을 발표했습니다.
OpenAI: OpenAI의 구조화된 출력 기능은 개발자가 LLM을 활용하여 신뢰할 수 있는 JSON 출력을 생성하도록 돕습니다.
OpenAI: AI 에이전트를 활용하여 임상 시험 프로세스를 가속화하는 방법을 설명합니다.
OpenAI: 데이터와 기술을 활용하여 인도주의적 지원을 개선하는 방법에 대해 논의합니다.
OpenAI: 대규모 언어 모델의 편향 문제와 이를 해결하기 위한 연구 및 실용적인 프롬프트 엔지니어링 방법을 논의합니다.
OpenAI: 실시간 API를 통해 자연스러운 음성 상호작용을 단일 API로 구현할 수 있습니다.
OpenAI: Altera.AL은 디지털 인간을 개발하여 인간과 함께 성장하고 협력할 수 있는 인공지능 에이전트를 만드는 것을 목표로 한다.
OpenAI: Mindtrip는 AI를 활용하여 여행 계획을 돕는 플랫폼으로, 텍스트와 이미지를 활용해 여행 계획을 실현 가능하게 만든다.
OpenAI: 싱가포르를 AI 엔지니어링 국가로 만들기 위한 비전과 AI 에이전트 구축의 중요성에 대해 논의합니다.
OpenAI: AI 에이전트를 활용하여 임상 시험 프로세스를 가속화하는 방법을 설명합니다.
OpenAI: SAA는 AI 플랫폼을 통해 기업의 데이터 워크플로우를 개선하고, 복잡한 작업을 자동화하여 생산성을 높이고자 한다.
OpenAI: Video GPT는 AI를 활용하여 빠르고 쉽게 전문적인 비디오를 제작할 수 있는 플랫폼입니다.
OpenAI: Grab의 지도 서비스가 AI를 활용해 동남아시아의 지도 제작을 혁신하고 있다.
OpenAI: AI 기술을 활용한 컨택 센터 자동화의 미래와 인간 에이전트와의 협업 방안
OpenAI: Amperity는 고객 데이터를 통합하여 브랜드가 복잡한 데이터를 이해할 수 있도록 돕고, AmpAI를 통해 비기술 사용자도 SQL을 생성할 수 있게 지원합니다.
OpenAI: o1 모델은 강화 학습을 통해 사고 전략을 개선하고 문제 해결 능력을 향상시키는 새로운 패러다임의 모델입니다.
OpenAI: OpenAI의 제품 개발과 AGI(인공지능 일반)의 진전에 대한 논의
OpenAI: 임상 환경에서 LLM을 활용하여 의사들이 컴퓨터 작업에 소요되는 시간을 줄이고, 임상 문서화를 자동화하여 효율성을 높이는 방법을 설명합니다.
OpenAI: TAU-bench는 AI 에이전트의 실세계 평가를 위한 벤치마크 도구로, LLM을 활용하여 동적이고 현실적인 사용자 시뮬레이션을 제공한다.
OpenAI: Genie는 소프트웨어 엔지니어링 작업을 자동화하기 위해 미세 조정된 AI 모델입니다.
OpenAI: Vercel의 AI 팀이 개발한 v0는 개인화된 소프트웨어 개발을 가능하게 하는 웹 개발 에이전트로, 코드 생성과 AI 도구를 결합하여 누구나 자신만의 소프트웨어를 쉽게 만들 수 있게 한다.
OpenAI: 오픈 API 사양을 기반으로 클라이언트 라이브러리를 생성하는 맞춤형 SDK의 필요성과 이점에 대해 논의합니다.
OpenAI: Dimagi는 저자원 언어를 위한 건강 교육 챗봇 개발을 위해 GPT-4o 모델을 미세 조정하여 케냐와 말라위의 가족 계획 지원을 목표로 합니다.
OpenAI: 앱의 사용자 기반 확장에 따른 지속 가능한 확장 및 최적화 전략
OpenAI: 데이터와 기술을 인도주의적 목적으로 활용하는 비영리 단체 DataKind가 인도주의적 데이터의 메타데이터 예측을 개선하기 위해 생성 AI를 활용하는 방법을 논의합니다.
OpenAI: OpenAI의 DevDay에서 새로운 AI 모델과 기능 발표
OpenAI: 이 강연은 다양한 데이터 소스에서 SQL 쿼리를 통합하여 비기술적 사용자도 쉽게 데이터 분석을 할 수 있도록 돕는 AI 시스템에 대해 설명합니다.
OpenAI: AI 기반의 PostgreSQL 브라우저 플레이그라운드 소개

OpenAI - Dev Day Holiday Edition—12 Days of OpenAI: Day 9

OpenAI는 2백만 명 이상의 개발자가 200개 이상의 국가에서 사용 중인 API의 새로운 기능을 발표했습니다. 새로운 기능에는 함수 호출, 구조화된 출력, 개발자 메시지, 추론 노력, 비전 입력 등이 포함됩니다. 함수 호출은 모델이 백엔드 API와 상호작용할 수 있게 하며, 구조화된 출력은 JSON 스키마에 따라 모델의 출력을 형식화합니다. 또한, 실시간 API에 WebRTC 지원을 추가하여 저지연 음성 경험을 제공합니다. 새로운 미세 조정 방법인 '선호도 미세 조정'도 도입되어 사용자 선호도에 맞춘 모델을 생성할 수 있습니다. 이 모든 기능은 개발자들이 더 나은 사용자 경험을 제공할 수 있도록 돕습니다.

Key Points:

  • OpenAI는 새로운 API 기능을 발표하여 개발자들이 더 나은 애플리케이션을 구축할 수 있도록 지원합니다.
  • 함수 호출과 구조화된 출력 기능을 통해 모델이 백엔드 API와 상호작용하고 JSON 스키마에 따라 출력을 형식화할 수 있습니다.
  • 실시간 API에 WebRTC 지원을 추가하여 저지연 음성 경험을 제공합니다.
  • 새로운 '선호도 미세 조정' 방법을 통해 사용자 선호도에 맞춘 모델을 생성할 수 있습니다.
  • 개발자들은 새로운 기능을 통해 더 나은 사용자 경험을 제공할 수 있습니다.

Details:

1. 🎉 개발자와 스타트업을 위한 특별한 날

  • OpenAI API를 기반으로 200개 이상의 국가에서 200만 명의 개발자가 활동 중임
  • 개발자와 스타트업을 위한 새로운 모델과 기능 발표
  • 커뮤니티의 일원으로서 감사의 표시로 새로운 기능 제공

2. 🚀 새로운 기능과 모델 발표

2.1. 새로운 기능 발표

2.2. 새로운 기능의 응용

3. 🛠️ 실시간 데모와 기능 시연

  • 새로운 매개변수 'reasoning effort' 도입으로 모델이 문제 해결에 소요하는 시간을 조절 가능, 쉬운 문제에선 시간과 비용 절약 가능
  • Vision 입력 기능 출시로 제조업 및 과학 분야에서 활용 기대
  • 개발자 플레이그라운드를 통해 Open AI 모델 실험 가능, UI 개선
  • 텍스트 양식의 오류 감지 기능 시연, 전문적인 판단 대체 불가

4. 🔍 오류 감지와 함수 호출 기능

4.1. 오류 감지

4.2. 오류 수정 및 함수 호출

5. 📊 내부 평가와 성능 향상

  • 새로운 o1 모델은 함수 호출에서 gbt 4.0보다 훨씬 뛰어난 성능을 보임
  • 구조화된 출력과 함수 호출을 결합하여 사용할 때 o1 모델의 성능이 더욱 향상됨
  • o1 모델은 코딩 평가에서도 o1 프리뷰 및 4.0보다 뛰어난 성능을 보임
  • o1 모델은 구조화된 출력을 사용할 때도 추론 능력을 유지하여 응용 프로그램에서 안정적인 결과를 제공함
  • o1 모델은 01 프리뷰보다 60% 적은 토큰을 사용하여 더 빠르고 저렴한 성능을 제공함

6. 🎤 실시간 API와 WebRTC 지원

  • WebRTC 지원 발표로 실시간 API가 인터넷 환경에 최적화된 저지연 음성 스트리밍을 가능하게 함.
  • WebRTC는 비트레이트 조정, 에코 캔슬링 등 인터넷의 변화에 대응하는 기능을 제공하여 개발자들이 더 쉽게 애플리케이션을 구축할 수 있도록 지원.
  • 기존 웹소켓 통합에 비해 코드 라인이 200~250줄에서 12줄로 대폭 감소, 백프레셔 처리 등 추가 문제 해결 필요 없음.
  • 데모에서 12줄의 코드로 실시간 음성 응답을 구현, API 토큰만 변경하여 코드 실행 가능.

7. 🤖 맞춤형 모델을 위한 세부 조정

  • GPT 40 오디오 토큰의 비용이 60% 절감되었습니다.
  • 4 미니 오디오 토큰은 현재 가격보다 10배 저렴합니다.
  • Python SDK 지원이 추가되어 API 통합이 더욱 쉬워졌습니다.
  • 사용자 선호도에 맞춘 모델을 생성하기 위한 '선호도 세부 조정' 방법이 도입되었습니다.
  • 선호도 세부 조정은 사용자가 선호하는 응답 쌍을 제공하여 모델이 차이를 학습하도록 최적화합니다.
  • 일반적인 사용 사례로는 고객 지원, 카피라이팅, 창의적 글쓰기가 있습니다.
  • 모델의 응답이 너무 장황하거나 관련 없는 답변을 줄 때, 선호도 세부 조정을 통해 더 간결하고 관련성 있는 응답을 유도할 수 있습니다.

8. 📈 선호도 기반 세부 조정 소개

  • 선호도 기반 세부 조정은 조직의 특정 스타일이나 톤을 유지하는 데 도움을 줄 수 있습니다.
  • API를 통해 세부 조정을 시작하는 것은 매우 간단하며, 플랫폼 UI에서 '세부 조정 생성'을 클릭하여 시작할 수 있습니다.
  • 기본 모델로 GPT 40을 선택하고, 훈련 데이터를 업로드하여 세부 조정을 진행할 수 있습니다.
  • 훈련 데이터는 Json L 파일 형식으로 입력 메시지, 선호 출력, 비선호 출력을 포함해야 합니다.
  • 데이터 세트 크기에 따라 세부 조정 프로세스는 몇 분에서 몇 시간까지 소요될 수 있습니다.
  • 초기 액세스를 받은 파트너들은 선호도 기반 세부 조정을 통해 긍정적인 결과를 얻었습니다.
  • 예를 들어, Rogo AI는 금융 분석가를 위한 AI 어시스턴트를 구축하면서 사용자 쿼리를 재작성하고 재구성하여 더 관련성 높은 답변을 제공하고 있습니다.
  • 기존의 감독 세부 조정으로는 기본 모델보다 성능을 향상시킬 수 없었지만, 선호도 기반 세부 조정을 통해 내부 벤치마크에서 정확도가 75%에서 80% 이상으로 증가했습니다.

9. 🎁 추가 발표 및 마무리

  • GPT 40과 GPT 40 mini가 오늘부터 동일한 훈련 토큰 가격으로 제공됩니다.
  • API의 o1 o1 기능이 오늘부터 5단계로 출시됩니다.
  • 실시간 API, 새로운 API, 간단한 웹 RTC 통합 및 가격 TP에 대해 논의되었습니다.
  • 모델을 사용자 맞춤형으로 쉽게 만들기 위한 preference F 튜닝이 소개되었습니다.
  • Go 및 Java SDK에 대한 공식 지원이 시작되었습니다.
  • 새로운 로그인 및 API 키 발급 절차가 간소화되었습니다.
  • 전 세계적으로 개최된 개발자 데이의 강연이 YouTube에 공개되었습니다.
  • 오늘부터 개발자 포럼에서 AMA 세션이 진행됩니다.

OpenAI - OpenAI DevDay 2024 | Structured outputs for reliable applications

OpenAI는 2023년 8월 API에 구조화된 출력 기능을 도입하여 개발자가 LLM을 통해 신뢰할 수 있는 JSON 출력을 생성할 수 있도록 했습니다. 이 기능은 JSON 스키마에 맞춰 출력을 생성하도록 모델을 제약하며, 개발자가 원하는 형식으로 데이터를 정확하게 추출할 수 있게 합니다. 예를 들어, 개인 비서 앱에서 사용자의 명령을 API 호출로 변환할 때, JSON 객체로 정확하게 변환하여 오류를 줄일 수 있습니다. 또한, 이 기능은 함수 호출과 응답 형식 매개변수 두 가지 모드로 제공되며, 각각의 모드는 개발자가 LLM을 통해 기능을 연결하거나 사용자에게 직접 응답할 때 유용합니다. 구조화된 출력은 개발자가 복잡한 스키마를 정의하고, 모델이 이를 정확히 따르도록 하여, 데이터 추출의 신뢰성을 높이고, 에이전트 워크플로우의 신뢰성을 100%로 보장합니다. 이를 통해 개발자는 더 나은 AI 애플리케이션을 구축할 수 있습니다.

Key Points:

  • 구조화된 출력은 JSON 스키마에 맞춰 정확한 출력을 보장합니다.
  • 함수 호출과 응답 형식 매개변수 두 가지 모드로 제공됩니다.
  • 개발자는 복잡한 스키마를 정의하여 데이터 추출의 신뢰성을 높일 수 있습니다.
  • 에이전트 워크플로우의 신뢰성을 100%로 보장합니다.
  • 개발자는 더 나은 AI 애플리케이션을 구축할 수 있습니다.

Details:

1. 🚀 새로운 기능 소개: 구조화된 출력

  • OpenAI API에 구조화된 출력 기능이 도입됨으로써 개발자들이 LLMs와 작업하는 데 있어 큰 진전을 이루었다.
  • 이 기능은 개발자들이 더 정교하고 명확한 데이터를 얻을 수 있도록 지원하며, 특히 복잡한 데이터 구조를 다룰 때 유용하다.
  • 구조화된 출력은 API 응답을 JSON 형식으로 제공하여, 개발자들이 데이터를 쉽게 파싱하고 활용할 수 있게 한다.
  • 예를 들어, 고객 세분화나 개인화된 추천 시스템을 구축할 때 이 기능을 활용하면 정확성과 효율성을 크게 향상시킬 수 있다.
  • 이러한 기능은 개발자들이 AI 모델을 더 쉽게 통합하고, 다양한 산업에서 혁신적인 솔루션을 개발하는 데 기여할 수 있다.

2. 🔍 구조화된 출력의 필요성과 작동 원리

2.1. 개발자 통합

2.2. API 디자인 리더십

2.3. API 기술 리더십

2.4. 구조화된 출력의 필요성 및 작동 원리

3. 📜 GPT-3에서 GPT-4로: 발전의 여정

  • 2020년에 OpenAI는 GPT-3를 출시하여 이메일 작성, 블로그 게시물 초안 작성, 영화 대본 생성 등 텍스트 생성에 뛰어난 성능을 보였습니다.
  • 개발자들은 AI Dungeon과 같은 게임 스크립트 생성, copy.ai와 같은 마케팅 자료 초안 작성 등 새로운 응용 프로그램을 빠르게 발견했습니다.
  • 2023년에 GPT-4가 출시되면서 LLM 지능에서 새로운 돌파구를 마련했습니다.
  • GPT-4는 고급 추론, 복잡한 지침 따르기, 긴 문서에서 정보 추출, 사용자 대신 행동 수행이 가능해졌습니다.

4. 🛠️ 개발자들이 직면한 문제와 해결책

  • 개발자들은 CURSOR와 같은 AI 기반 생산성 도구를 구축하여 다음 단계로 발전시켰습니다.
  • 이러한 제품들은 모두 LLMs를 외부 세계와 연결하는 공통점을 가지고 있었습니다.
  • 코드 베이스에서 외부 API 또는 장치 내 작업으로 연결되었습니다.
  • 이를 위해 출력이 구조화되어야 했으며, 일반적으로 JSON 형식이 필요했습니다.
  • 개인 비서를 구축하고 사용자의 메시지를 API 호출로 변환하려는 경우를 예로 들 수 있습니다.
  • 사용자가 '비틀즈를 재생해줘'라고 말하면, API를 위한 JSON 객체가 필요합니다.
  • 그러나 종종 개발자에게는 JSON만 필요한데, 불필요한 텍스트가 포함된 경우가 많습니다.

5. 🔧 기능 호출과 JSON 모드의 한계

  • LLM 출력은 항상 신뢰할 수 없으며, 이를 통합하는 데 어려움이 있음.
  • 개발자들은 다양한 방법을 시도했으나, 완벽한 해결책은 아님.
  • 작년 6월 기능 호출을 도입하여 JSON 스키마를 사용해 도구를 정의할 수 있게 함.
  • 모델이 JSON 스키마에 맞춰 출력을 생성하지만, 종종 잘못된 JSON을 출력함.
  • 작년 11월 DevDay에서 JSON 모드를 출시하여 유효한 JSON 출력을 보장함.
  • 그러나 여전히 잘못된 타입 출력이나 파라미터 환각 문제가 발생함.
  • AI 애플리케이션은 신뢰할 수 있는 출력이 필요하며, 이를 위해 8월에 API에 구조화된 출력을 도입함.

6. 🆕 구조화된 출력의 도입과 이점

  • 구조화된 출력은 개발자가 제공한 JSON 스키마와 정확히 일치하는 출력을 생성하도록 설계된 새로운 기능입니다.
  • 이 기능은 모델에게 스키마를 사용하도록 제안하는 것과 이를 강제하는 것의 차이를 제공합니다.
  • 개발자는 더 이상 요청할 필요 없이 필요한 JSON 스키마를 제공할 수 있습니다.
  • 이 솔루션이 문제를 해결하는 올바른 방법인지에 대한 의문이 있을 수 있지만, 이는 성능과 대규모 추론을 위한 솔루션을 구축하는 데 시간이 걸렸기 때문입니다.
  • 구조화된 출력은 함수 호출이 종종 올바른 추상화라고 믿으며, 성능을 유지하면서 출력을 제한하는 솔루션을 구축하는 데 시간이 걸렸습니다.

7. 💡 API에서의 구조화된 출력 사용법

  • API에서 구조화된 출력은 두 가지 모드로 제공됩니다. 첫 번째는 함수 호출로, 이는 개발자가 LLM을 애플리케이션의 기능성과 연결할 수 있게 합니다.
  • 두 번째 모드는 응답 형식 매개변수로, 모델이 사용자에게 직접 응답할 때 유용합니다.
  • 함수 호출을 사용할 때, JSON 스키마를 도구 섹션에 제공하며, 함수의 매개변수를 설정합니다.
  • 예를 들어, 'get weather' 함수는 'location'과 'unit'이라는 두 가지 매개변수를 가지며, 이는 문자열 타입입니다.
  • 구조화된 출력을 활성화하려면 코드 한 줄로 strict를 true로 설정하면 됩니다. 이는 제공된 스키마를 사용하여 항상 모델의 응답이 이를 따르도록 보장합니다.
  • 구조화된 출력의 두 모드는 개발자가 API와의 상호작용을 보다 효율적으로 관리할 수 있게 하며, 특히 복잡한 데이터 구조를 다룰 때 유용합니다.

8. 👓 AI 안경 스타트업 사례 연구

  • AI 안경 제품은 Open AI API를 기반으로 하며, 스템에 스피커와 AR 스크린이 포함되어 있어 사용자에게 답변을 읽어줌.
  • 내부 관리 대시보드를 통해 주문 정보와 배송 상태를 확인할 수 있도록 데이터베이스와 연결된 어시스턴트를 개발 중.
  • SQL 데이터베이스 쿼리 기능을 만들어 어시스턴트가 주문 정보를 조회할 수 있도록 설정.
  • 데이터베이스는 'orders' 테이블과 여러 컬럼을 지원하며, 조건부 쿼리를 위한 연산자(=, >, <, !=)를 제공.
  • ORM의 제한으로 인해 '>=' 연산자가 작동하지 않으므로, 'strict' 옵션을 사용하여 모델이 제공된 연산자만 사용하도록 설정하여 오류를 방지.
  • 구조화된 출력은 애플리케이션의 오류를 줄이는 데 효과적이며, '>=' 대신 '>' 연산자를 사용하여 8월 마지막 날 이후의 데이터를 정확히 조회.

9. 🎨 응답 형식과 JSON 모드의 차이점

  • 과거에는 모델이 JSON으로 응답하도록 하기 위해 JSON 모드를 사용했으나, 구조화된 출력으로 전환하여 응답 형식 매개변수에 지시사항을 이동함으로써 항상 일관된 형식을 유지할 수 있음.
  • AI 안경 스타트업의 예시에서, 음성 출력과 렌즈에 요약된 버전을 표시하기 위해 응답 형식 매개변수를 사용하여 모델이 항상 두 가지 키를 따르도록 함.
  • 음성 출력은 TTS를 통해 소리 내어 읽히며, 숫자와 약어를 완전히 작성하도록 지시함.
  • 디스플레이 속성은 안경의 공간 제약으로 인해 5단어로 제한됨.
  • 응답 형식 옵션에서 스키마를 붙여넣고 strict를 true로 설정하여 구조화된 출력을 활성화함.
  • 기린의 키와 같은 일반적인 질문에 대해 테스트한 결과, 요청한 형식으로 출력이 제공됨.

10. 🏢 Convex: AI 채용 도구의 활용

  • Convex는 AI 기반의 채용 도구로, 채용 공고 작성, 추천 제출, 인터뷰 일정 조율을 지원합니다.
  • Convex는 이력서에서 정보를 추출하고, 후보자 데이터에 대한 쿼리를 수행하기 위해 함수 호출을 사용합니다.
  • 모델은 구조화된 출력을 사용하여 PDF 내 텍스트에서 정보를 실시간으로 추출합니다.
  • JSON 객체를 사용하여 이름, 직함, 위치, 연락처 정보, 경력 등을 이력서에서 추출합니다.
  • Zod 라이브러리를 사용하여 스키마를 정의하고, OpenAI 노드 SDK는 Zod를 네이티브로 지원합니다.
  • OpenAI Python SDK는 Pydantic을 네이티브로 지원합니다.
  • GitHub 사용자 이름과 같은 추가 필드를 쉽게 추가할 수 있습니다.
  • 함수 호출을 통해 UI를 제어하고, 특정 위치에 기반한 후보자 필터링을 수행할 수 있습니다.

11. 📊 UI 생성 및 에이전트 워크플로우

11.1. 기능 정의 및 구조화된 출력 사용

11.2. 후보자 경험 연수에 따른 그래프 생성

11.3. UI 생성 도구 및 스키마 정의

11.4. 인터뷰 일정 예약 워크플로우

11.5. 구조화된 출력의 중요성

12. 🔍 구조화된 출력의 실제 적용 사례

  • 비구조화된 데이터에서 정보를 추출하기 위해 응답 형식을 사용할 수 있습니다. 예를 들어, 고객 피드백에서 특정 키워드를 자동으로 식별하여 분류하는 시스템을 구축할 수 있습니다.
  • UI 생성을 위해 함수 호출을 사용할 수 있습니다. 이는 사용자 인터페이스를 자동으로 생성하여 개발 시간을 50% 단축할 수 있습니다.
  • 100% 신뢰성을 갖춘 에이전트 워크플로우를 구축할 수 있습니다. 이는 오류를 최소화하고 작업 효율성을 40% 향상시킵니다.

13. 🔧 구조화된 출력의 엔지니어링 구현

13.1. 연구와 엔지니어링의 통합 접근법

13.2. 구조화된 출력의 중요성

13.3. 제약 디코딩 접근법

13.4. LLM 추론

13.5. 모델 예시: 숫자 인식

13.6. 대규모 언어 모델의 작동 방식

14. 🧠 LLM 추론과 토큰 마스킹

14.1. 토큰의 정의와 역할

14.2. GPT-4 토크나이저의 실제 토큰

14.3. 구조화된 출력과 스키마

14.4. 토큰 마스킹 기법

14.5. 자기회귀 모델의 특성

14.6. 빠른 추론을 위한 최적화

15. ⚙️ JSON 스키마와 구문 분석

  • 각 배치에 대해 확률을 계산하고 토큰 마스크를 적용한 후 최종 확률 분포에서 샘플링을 수행합니다. 이는 병렬로 수행되어 GPU 자원을 절약할 수 있습니다.
  • 마스크 결정은 CPU에서 수행되어 속도를 유지하는 데 도움이 됩니다. 이는 모델 크기에 따라 다르며, 토큰 간 시간을 10밀리초 이하로 유지해야 합니다.
  • 유효한 토큰을 사전 계산하여 샘플링 시 재사용함으로써 계산을 조회처럼 간단하게 만듭니다. 이는 SQL 데이터베이스에서 인덱스를 구축하여 쿼리를 빠르게 하는 것과 유사합니다.
  • JSON 스키마를 문법으로 변환하고, 문법을 통해 파서를 생성하여 문자열이 해당 언어의 일부인지 확인할 수 있습니다. 파서는 JSON 블롭을 입력받아 스키마와 일치하는지 여부를 알려줍니다.
  • 모든 토큰과 가능한 상태를 반복하여 유효한 토큰을 결정하고 인덱스를 구축합니다. 인덱스는 O(1) 조회를 가능하게 하는 트리 구조로, 추론 시 빠른 조회를 지원합니다.
  • 인덱스 생성은 계산 비용이 크지만, 한 번 생성 후 캐시하여 빠른 조회를 제공합니다. 구조화된 출력에 대한 첫 번째 쿼리는 10초 이내의 시간이 걸릴 수 있지만, 이후 쿼리는 매우 빠릅니다.

16. 🔄 CFG 접근법과 재귀적 스키마 지원

16.1. 정규 표현식의 한계

16.2. CFG 접근법의 장점과 구현 도전 과제

17. 🔬 연구와 엔지니어링의 결합

  • LLM 추론에서 구조화된 출력에 대한 엔지니어링 측면을 설명하며, JSON 스키마의 광범위한 하위 집합을 지원하여 개발자에게 최적의 트레이드오프를 제공함.
  • 모델이 형식에 맞춰 더 잘 작동하도록 연구를 통해 개선하였으며, 특히 JSON 스키마와 복잡한 스키마를 이해하도록 훈련함.
  • 모델의 정확도가 지난 1년간 약 26%에서 86%로 향상되었으며, 최신 모델에서는 프롬프트만으로 85%의 정확도를 달성하고, 새로 훈련된 응답 형식을 추가하면 93%로 향상됨.
  • 제약된 디코딩을 사용하여 정확도를 100%로 향상시킬 수 있으며, 이는 연구와 엔지니어링의 결합을 통해 최상의 결과를 도출함.

18. 📐 API 설계의 주요 결정

  • 추가 속성: 기본적으로 JSON 스키마는 모든 추가 속성을 허용하지만, OpenAI API에서는 기본적으로 추가 속성을 허용하지 않기로 결정하여 런타임 오류를 방지함.
  • 필수 속성: JSON 스키마에서는 모든 속성이 선택 사항이지만, OpenAI API에서는 모든 속성을 기본적으로 필수로 설정하여 개발자 기대치를 맞춤.
  • 속성 순서: JSON 스키마는 속성 순서에 제약이 없지만, LLM의 맥락에서는 속성 순서가 중요하므로 스키마에 정의된 순서대로 필드를 생성하도록 결정함.

19. 🎉 개발자와의 협력과 미래 비전

  • OpenAI API의 엔지니어링 및 연구 작업은 결합될 때 최고의 결과를 제공합니다.
  • 개발자를 위한 사용이 쉬운 API를 만들기 위해 구조화된 출력과 같은 문제를 해결하고자 합니다.
  • 구조화된 출력은 AI 애플리케이션의 전체 잠재력을 해제하는 마지막 퍼즐 조각으로 간주됩니다.
  • 데이터 추출이 신뢰할 수 있게 되었고, 함수 호출은 필요한 매개변수를 갖추게 되었습니다.
  • 구조화된 출력이 도입된 이후, Shopify와 같은 고객은 환각을 줄이고 애플리케이션의 신뢰성을 향상시켰습니다.
  • OpenAI의 사명은 모든 사람을 위한 안전한 AGI를 구축하는 것이며, 개발자와의 협력이 그 사명을 달성하는 데 중요합니다.

OpenAI - OpenAI DevDay 2024 | Community Spotlight | Genmab

Genmab의 AI 혁신 팀은 임상 시험 프로세스를 가속화하기 위해 AI 에이전트를 활용하는 방법을 설명합니다. 임상 시험은 일반적으로 8년 이상이 걸리고 수십억 달러가 소요되며, AI는 이 과정을 효율적으로 개선할 수 있는 잠재력을 가지고 있습니다. 특히, 규제 문서 생성과 관련하여 AI를 사용하여 환자별로 필요한 임상 문서를 자동으로 생성하는 방법을 소개합니다. 이 과정은 수많은 문서와 데이터 포인트를 수집하고 요약하는 데 많은 시간이 소요되며, AI는 이를 자동화하여 정확성을 높이고 시간을 절약할 수 있습니다. CELI라는 프레임워크를 통해 AI 모델이 단계별로 작업을 계획하고 실행하며, 100% 정확성을 달성할 수 있도록 지원합니다. 이 시스템은 각 단계에서 필요한 정보를 수집하고, 다음 단계에 필요한 데이터를 예측하여 문서를 작성합니다. 이를 통해 수천 명의 환자에 대한 문서 작성 시간을 몇 시간에서 몇 분으로 단축할 수 있습니다. 이는 임상 시험 기간을 단축시켜 심각한 질병을 앓고 있는 환자들이 더 빨리 치료를 받을 수 있도록 돕습니다.

Key Points:

  • AI 에이전트를 활용하여 임상 시험 문서 생성 시간을 단축합니다.
  • CELI 프레임워크는 단계별로 작업을 계획하고 실행하여 100% 정확성을 달성합니다.
  • 임상 시험 기간을 단축하여 환자들이 더 빨리 치료를 받을 수 있도록 돕습니다.
  • AI는 수많은 문서와 데이터를 자동으로 수집하고 요약합니다.
  • CELI는 오픈 소스로 제공되어 다양한 문제 해결에 활용될 수 있습니다.

Details:

1. 🎉 AI와 임상 시험의 혁신과 Genmab의 문화

  • Genmab은 AI 에이전트를 활용하여 임상 시험 과정을 크게 가속화함.
  • AI를 통해 임상 시험의 데이터 분석 속도가 50% 향상됨.
  • Genmab은 생물학과 항체 분야에서 최고가 되는 것뿐만 아니라 AI를 채택하고 이를 발전시키는 데 전념하고 있음.
  • AI 도입 후 임상 시험 비용이 30% 절감됨.

2. ⏳ 임상 시험의 도전과 AI의 역할

  • 임상 시험 과정은 매우 길고 비용이 많이 든다. 하나의 질병에 대한 하나의 약물 개발에 8년 이상, 수십억 달러가 소요된다.
  • 이러한 과정을 확장하기 위해서는 변화가 필요하며, AI가 이 문제를 해결하는 데 적합한 위치에 있다.
  • AI는 데이터 분석을 통해 환자 모집을 최적화하고, 시험 설계를 개선하며, 결과 예측을 향상시킬 수 있다.
  • 예를 들어, AI를 활용한 환자 모집 최적화는 모집 시간을 최대 50%까지 단축할 수 있다.
  • AI 기반의 데이터 분석은 시험 설계의 효율성을 높여, 개발 주기를 6개월에서 8주로 줄일 수 있다.

3. 📄 문서 생성의 혁신적 접근법

  • 환자별 임상 문서 생성에 필요한 시간과 노력을 줄이기 위해 혁신적인 접근법을 도입.
  • 수백 개의 문서와 수천 개의 데이터 포인트를 수집하여 요약 문서를 생성하는 데 필요한 숙련된 인력의 시간 절감.
  • 내부 이해관계자뿐만 아니라 외부 파트너와의 협업 필요성 강조.
  • 규제 문서의 경우 100% 정확도가 필수적이며, 99%의 정확성은 충분하지 않음.
  • CELI라는 프레임워크를 통해 마지막 단계의 정확성을 확보.

4. 🛠️ CELI 프레임워크의 작동 원리와 실시간 데모

  • CELI 프레임워크는 자연어로 된 사용자 스토리를 입력받아 미래의 계획을 수립하고, 각 단계의 실행 및 성과를 평가할 수 있는 기능을 갖추고 있습니다.
  • 프레임워크는 단계별로 자기 수정이 가능하며, 각 단계의 결과를 다음 단계의 입력으로 사용하여 100% 정확도에 도달할 수 있습니다.
  • CELI는 일반적인 문제를 해결할 수 있으며, 솔루션 평가 방법을 알고 있는 경우에 유용합니다.
  • 사용자 스토리의 예로는 '고객 만족도를 20% 향상시키기 위한 전략 개발'이 있으며, 이를 통해 프레임워크의 문제 해결 능력을 확인할 수 있습니다.
  • 각 단계의 성과는 구체적인 메트릭을 통해 평가되며, 예를 들어, 고객 피드백 점수가 15% 증가하는 결과를 도출할 수 있습니다.

5. 🌟 CELI의 영향과 미래 비전

  • CELI는 환자 데이터를 단계별로 학습하여 문서를 작성하는 시스템으로, 각 단계에서 필요한 정보를 검색하여 작업을 수행합니다.
  • 작업은 체크리스트 형태로 순차적으로 진행되며, 완료된 작업과 진행 중인 작업, 다음 작업을 명확히 알려줍니다.
  • 의료 작가와 임상의가 제공하는 지침에 따라 문서 작성이 이루어지며, 프롬프트 완성 메커니즘이 CELI의 핵심 요소입니다.
  • CELI는 임상 시험의 특정 식별자를 호출하여 필요한 데이터를 검색하고, 이를 문서 작성에 활용합니다.
  • 작업이 완료되면 모니터링 에이전트가 저장을 확인하며, 전체 프로세스가 순서대로 진행됩니다.
  • CELI를 통해 문서 작성 시간이 몇 시간에서 몇 분으로 단축되며, 이는 수천 명의 환자에게 신속한 치료 기회를 제공합니다.
  • 임상 시험 기간을 한 달 단축하면 심각한 질병을 앓고 있는 수백 또는 수천 명의 환자가 더 빨리 치료를 받을 수 있습니다.

OpenAI - OpenAI DevDay 2024 | Community Spotlight | DataKind

데이터카인드의 부사장 Caitlyn Augustine과 동료 Ted는 인도주의적 지원을 위한 데이터의 중요성을 강조합니다. 현재 3억 명이 인도주의적 지원이 필요하며, 464억 달러의 자금 격차가 존재합니다. 데이터카인드는 UN OCHA의 아프가니스탄 대응 사례를 통해 데이터가 어떻게 효과적으로 활용될 수 있는지를 보여줍니다. 그러나 대부분의 경우 데이터의 질이 낮아 문제를 일으킵니다. 데이터카인드는 인도주의 단체와의 인터뷰를 통해 데이터 접근의 어려움을 파악하고, 생성적 AI를 활용하여 메타데이터 예측 문제를 해결하려고 합니다. 메타데이터의 부정확성 문제를 해결하기 위해 AI를 활용하여 70%의 정확도를 목표로 설정하고, 비용과 시간 효율성을 고려하여 솔루션을 개발했습니다. 이 솔루션은 인도주의적 데이터의 상호 운용성을 높이고, 신속한 대응을 가능하게 합니다.

Key Points:

  • 인도주의적 지원에 필요한 데이터의 중요성 강조
  • UN OCHA의 아프가니스탄 대응 사례로 데이터 활용의 성공 사례 제시
  • 생성적 AI를 활용하여 메타데이터 예측 문제 해결
  • 70% 정확도를 목표로 설정하여 데이터의 부정확성 문제 해결
  • 솔루션을 통해 인도주의적 데이터의 상호 운용성 및 신속한 대응 가능

Details:

1. 🌍 데이터카인드 소개

  • 데이터카인드는 글로벌 비영리 조직으로, 데이터와 기술을 활용하여 사회적 문제를 해결하는 데 중점을 두고 있습니다.
  • 데이터카인드는 다양한 프로젝트를 통해 비영리 단체와 협력하여 데이터 분석 및 기술 솔루션을 제공합니다.
  • 예를 들어, 데이터카인드는 AI를 활용하여 빈곤 문제를 해결하거나, 데이터 분석을 통해 환경 보호 활동을 지원하는 등의 프로젝트를 진행합니다.
  • 이러한 프로젝트를 통해 데이터카인드는 사회적 영향력을 극대화하고, 데이터 기반의 혁신적인 해결책을 제시합니다.

2. 📊 인도적 지원의 데이터 필요성

  • 현재 전 세계적으로 3억 명의 사람들이 인도적 지원을 필요로 하고 있습니다.
  • 40개의 글로벌 조정 호소가 있으며, 자금 부족은 460억 달러에 달합니다.
  • 인도적 지원 분야에서는 시기적절하고 고품질의 데이터가 절실히 필요합니다.
  • 데이터는 자원 배분의 효율성을 높이고, 지원이 필요한 지역을 정확히 파악하는 데 필수적입니다.
  • 예를 들어, AI 기반 데이터 분석을 통해 특정 지역의 필요를 신속하게 평가하고, 자원을 최적화하여 배분할 수 있습니다.

3. 🚀 혁신적 데이터 솔루션 사례

  • UN Ocha는 아프가니스탄의 자연재해 대응을 위해 인터랙티브 대시보드를 활용하여 다수의 자원에서 데이터를 수집하고 있다.
  • 이 대시보드는 현지 정부, NOS, UN 팀 등 다양한 출처에서 데이터를 수집하여 재난 발생 지역을 식별하고 적절한 팀과 개입을 신속하게 파견할 수 있도록 돕는다.
  • 이러한 데이터 활용 사례는 예외적이며, 고품질 데이터는 생명을 구하는 데 중요한 역할을 한다.

4. 🔍 인도적 데이터의 문제점과 AI 활용

4.1. 인도적 데이터의 문제점

4.2. AI를 통한 문제 해결

5. 🧩 메타데이터 예측의 중요성

5.1. 메타데이터 태깅의 문제

5.2. 메타데이터 태깅의 해결책

6. 🤖 AI 모델의 정확도 목표

6.1. AI 모델의 비용 목표

6.2. AI 모델의 처리 시간 목표

7. 🔧 데이터 준비 및 모델 테스트

7.1. 데이터 준비

7.2. 모델 테스트

8. 🎯 모델 성능 및 개선점

  • 모델의 성능을 개선하기 위해, 모든 파인튜닝을 피하고 직접적으로 hexel 태그와 속성에 대한 프롬프트를 사용할 수 있는지 검토함.
  • 제로샷 프롬프트를 사용하여 초기 답변이 적절해 보였으나, hexel 표준을 따르지 않음.
  • 프롬프트에 hexel 데이터 표준을 포함하도록 지침을 추가하고, 정보의 순서를 규정하는 규칙을 설정함.
  • 태그와 속성을 순서대로 포함한 후, 정확도 목표를 달성함.
  • 이러한 접근 방식은 시간과 비용 목표를 충족시켜 이해관계자들이 만족함.

9. 🔗 인도적 데이터 프로젝트의 미래

  • 인도적 사용을 위한 수천 개의 변수 해제 가능성
  • 메타데이터 예측은 전체 인도적 데이터 프로젝트 시스템의 일부
  • 인도적 지원자에게 신속하고 고품질의 데이터 접근 제공
  • 인도적 AI 어시스턴트가 조화롭고 상호운용 가능한 데이터 통합
  • 현장 검증된 정보 제공을 통한 신속 대응 지원
  • 인도적 지원자와 공동 창작

OpenAI - OpenAI DevDay 2024 | Community Spotlight | LaunchDarkly

이 발표에서는 대규모 언어 모델이 인간의 편향을 어떻게 상속받는지와 이를 해결하기 위한 연구 결과를 공유합니다. 첫 번째 연구는 Anthropic에서 진행된 것으로, 대규모 언어 모델이 고위험 결정을 내릴 때의 편향을 조사했습니다. 연구 결과, 모델은 여성이나 비백인에게 긍정적인 차별을 보였지만, 60세 이상의 사람들에게는 부정적인 연령 차별을 보였습니다. 연구자들은 모델에게 차별이 불법임을 상기시키고 인구 통계 정보를 무시하도록 지시하는 것이 편향을 줄이는 데 가장 효과적임을 발견했습니다. 두 번째 연구는 프린스턴 대학교에서 진행되었으며, 대규모 언어 모델에 암묵적 편향 테스트를 적용했습니다. 연구 결과, 명시적이고 절대적인 결정을 내리도록 요청할 때 편향이 줄어드는 것으로 나타났습니다. 실용적인 프롬프트 엔지니어링 방법으로는 모델에게 차별이 불법임을 상기시키고 인구 통계 정보를 무시하도록 지시하며, 관련 외부 데이터를 포함시키는 것이 중요합니다.

Key Points:

  • 대규모 언어 모델은 인간의 편향을 상속받아 고위험 결정을 내릴 때 주의가 필요하다.
  • 모델에게 차별이 불법임을 상기시키고 인구 통계 정보를 무시하도록 지시하면 편향을 줄일 수 있다.
  • 명시적이고 절대적인 결정을 내리도록 요청할 때 모델의 편향이 줄어든다.
  • 프롬프트에 관련 외부 데이터를 포함시키는 것이 중요하다.
  • 모델의 프롬프트는 작은 변화에도 민감하므로 지속적인 테스트와 반복이 필요하다.

Details:

1. 👋 소개 및 주제 소개

  • Tilde는 LaunchDarkly의 시니어 개발자 교육자입니다.
  • 오늘의 주제는 사회 정의와 프롬프트 엔지니어링입니다.

2. 🔍 연구 개요 및 목표

  • 대형 언어 모델은 많은 잠재력을 가지고 있지만, 인간의 데이터를 기반으로 학습되었기 때문에 인간의 결함을 그대로 가지고 있다.
  • 현재 많은 연구자들이 이 문제를 해결하기 위해 적극적으로 연구 중이다.
  • 산업계와 학계의 연구 논문을 각각 하나씩 다루고, 이를 어떻게 적용할 수 있는지에 대해 설명할 예정이다.
  • 산업계 연구는 AI 모델의 편향성을 줄이기 위한 새로운 알고리즘을 제안하며, 이는 모델의 정확성을 20% 향상시켰다.
  • 학계 연구는 데이터 다양성을 높여 모델의 공정성을 개선하는 방법을 제시하며, 실험 결과 공정성이 15% 증가했다.

3. 📄 Anthropic 연구: 편향 감사

  • Anthropic의 연구에 따르면, 대형 언어 모델을 인간에 대한 고위험 결정을 내리는 데 사용해서는 안 된다. 이는 아직 준비가 되지 않았기 때문이다.
  • 연구자들은 Claude 2.0 모델이 가상의 인간에 대한 예/아니오 고위험 결정을 내릴 때 편향을 보이는지 조사했다.
  • Claude 모델은 여성이나 비백인에게 긍정적인 차별을 보였으며, 60세 이상의 사람들에게는 부정적인 연령 차별을 보였다.
  • 연구자들은 '차별하지 말라'는 문구를 추가하여 프롬프트를 수정했으며, 차별이 불법임을 상기시키고 인구통계학적 정보를 무시하도록 지시하는 것이 편향을 가장 많이 줄였다.

4. 🧪 Princeton 연구: 암묵적 편향 테스트

  • 프린스턴 대학 연구진은 대형 언어 모델에 암묵적 편향 테스트를 적용하는 방법을 개발했다. 이 연구는 모델이 사회적 편향을 어떻게 반영하는지를 평가하는 데 중점을 두었다.
  • 모든 테스트된 모델이 높은 수준의 고정관념적 편향을 보였다. 이는 모델이 훈련 데이터에서 사회적 편향을 학습했음을 시사한다.
  • 모델이 명시적이고 절대적인 결정을 내리도록 요청하면 상대적인 결정보다 편향이 적었다. 이는 명확한 지침이 편향을 줄이는 데 효과적일 수 있음을 보여준다.
  • GPT-4o의 편향은 '다른 사회경제적 지위를 가진 사람들을 동등하게 대하라'는 조항을 추가했을 때 거의 절반으로 감소했다. 이는 특정 지침이 편향 감소에 기여할 수 있음을 시사한다.
  • 모델에게 인구통계 정보를 무시하도록 지시하는 것이 편향을 줄이는 데 효과적이었다. 이는 모델의 입력 정보 관리가 편향 감소에 중요함을 나타낸다.

5. ✍️ 실생활 적용: 추천서 작성

  • 대형 언어 모델을 사용하여 추천서를 작성할 때 성별 편향이 나타날 수 있음. 예를 들어, 여성의 성격 특성을 강조하고 남성의 성취를 강조하는 경향이 있음.
  • 모델의 편향을 줄이기 위해 학생의 GPA와 과외 활동과 같은 관련 맥락 정보를 추가하고, 인구통계학적 정보를 무시하도록 모델에 지시함.
  • 모델 간 및 프롬프트 간의 비교 테스트를 쉽게 수행할 수 있는 LaunchDarkly라는 플랫폼을 소개함.
  • 대형 언어 모델을 사용하여 인간에 대한 중요한 결정을 내리지 말 것을 권장하며, 회사가 이를 요구할 경우 반대할 것을 촉구함.
  • 편향 없는 프롬프트 엔지니어링을 위해 모델에게 차별이 불법임을 상기시키고 인구통계학적 특성을 무시하도록 지시할 것을 제안함.

6. 📊 요약 및 권장 사항

  • 절대적인 결정을 내리도록 하고, 관련 외부 데이터로 프롬프트를 고정하세요. 예를 들어, 추천서에 GPA를 입력할 때처럼.
  • RAG와 같은 아키텍처 패턴이 도움이 될 수 있습니다. 이는 외부 데이터를 활용하여 모델의 성능을 향상시킬 수 있습니다.
  • 블라인딩은 효과적이지 않습니다. 대형 언어 모델은 우편번호나 출신 대학과 같은 정보로 인구통계를 추론할 수 있습니다. 따라서 데이터 프라이버시를 강화하는 다른 방법이 필요합니다.
  • 프롬프트는 작은 문구 변화에 민감합니다. 이는 모델의 응답에 큰 영향을 미칠 수 있으므로 주의가 필요합니다.
  • 새로운 모델이 빠르게 출시되고 있어 따라가기 어렵습니다. 따라서 최신 기술을 지속적으로 학습하고 적용하는 것이 중요합니다.
  • 아키텍처 시스템에 유연성을 구축하고 지속적인 테스트와 반복이 필요합니다. 이는 변화하는 기술 환경에 적응하기 위한 필수적인 전략입니다.

7. 🙏 마무리 및 감사 인사

  • 발표 자료와 자세한 참고 자료는 슬라이드에서 확인 가능
  • 소셜 미디어나 휴식 시간에 발표자와 직접 소통 가능

OpenAI - OpenAI DevDay 2024 | Multimodal apps with the Realtime API

실시간 API는 음성 인식, 텍스트 변환, 음성 생성 기능을 하나의 API로 통합하여 자연스러운 대화 흐름을 제공합니다. 기존에는 여러 모델을 결합하여 복잡한 솔루션을 구축해야 했지만, 실시간 API는 이러한 과정을 단순화하여 개발자들이 더 쉽게 음성 기반 애플리케이션을 구축할 수 있도록 합니다. 예를 들어, 음성 비서 앱을 구축할 때 실시간 API를 사용하면 음성 입력을 실시간으로 처리하고, 빠르게 반응하여 자연스러운 대화를 가능하게 합니다. 또한, 실시간 API는 툴 호출을 지원하여 앱 내에서 데이터 시각화와 같은 상호작용을 구현할 수 있습니다. 실시간 API는 음성 상호작용의 비용을 절감하고, 개발자들이 더 창의적인 애플리케이션을 개발할 수 있도록 지원합니다.

Key Points:

  • 실시간 API는 음성 인식, 텍스트 변환, 음성 생성 기능을 단일 API로 통합합니다.
  • 개발자들은 실시간 API를 통해 자연스러운 대화 흐름을 구현할 수 있습니다.
  • 실시간 API는 툴 호출을 지원하여 앱 내 상호작용을 강화합니다.
  • 실시간 API는 비용 절감을 통해 더 많은 개발자들이 접근할 수 있도록 합니다.
  • 실시간 API는 음성 상호작용의 새로운 가능성을 열어줍니다.

Details:

1. 🎉 실시간 API 소개: 혁신의 시작

  • 실시간 API는 혁신의 시작을 알리는 중요한 기술로, API 팀의 엔지니어인 Mark와 Kata가 소개합니다.
  • 이 API는 데이터 전송 속도를 크게 향상시켜, 사용자 경험을 최적화합니다.
  • 실시간 데이터 처리 기능을 통해 기업은 더 빠르고 정확한 의사 결정을 내릴 수 있습니다.
  • API의 도입으로 인해 고객 만족도가 30% 증가하였으며, 운영 효율성도 25% 향상되었습니다.

2. 🔄 API 발전과 통합: 새로운 가능성

  • 실시간 API의 공개 베타 출시로 개발자 경험이 크게 개선되었습니다. 이 API는 자연스럽고 낮은 지연 시간의 음성 상호작용을 단일 API로 앱에 통합할 수 있게 합니다.
  • 2020년 처음 출시된 API는 텍스트에만 제한되었으나, 현재는 오디오 전사, 비전, 텍스트 음성 변환을 지원하는 멀티모달 API로 발전했습니다.
  • 새로운 실시간 API는 이러한 기능을 실시간으로 제공하여 개발자들이 더욱 풍부한 사용자 경험을 창출할 수 있도록 지원합니다.

3. 🛠️ 실시간 API의 혁신적 활용: 개발자 사례

  • 단일 API로 통합된 기능을 통해 음성을 자연스럽게 이해하는 모델을 제공함으로써 개발자들이 아바타, 음성 기반 웹 브라우징, 음성으로 그림 그리기 등 다양한 혁신적 프로젝트를 개발함.
  • 실시간 API를 활용하여 언어 및 건강 코칭, IDE 내 음성 제어 등 다양한 앱에서 음성 경험을 강화함.
  • 실시간 API 출시 전에는 여러 모델을 결합하여 복잡한 솔루션을 구축해야 했으나, 이제는 자연스럽고 매끄러운 대화 흐름을 쉽게 구현할 수 있음.
  • 실시간 API를 통해 개발자들은 음성 인식 정확도를 95% 이상으로 향상시켜 사용자 경험을 크게 개선함.
  • 예를 들어, 한 개발자는 실시간 API를 사용하여 6개월 걸리던 음성 인식 프로젝트를 8주 만에 완료함.

4. 🔍 음성 처리의 복잡성: 과거와 현재

  • 과거의 음성 처리는 주로 단순한 명령어 인식에 초점을 맞췄으며, 기술의 한계로 인해 복잡한 작업은 어려웠습니다.
  • 현대의 음성 처리에서는 실시간 API를 사용하여 여러 모델을 결합하고, 입력에서 최종 출력으로 가기 위해 여러 단계를 수행해야 합니다.
  • 사용자 음성을 캡처하기 위해 버튼을 누르거나 사용자가 말을 마쳤음을 감지하는 기술이 필요합니다.
  • 오디오를 받아서 Whisper 모델을 사용하는 전사 API와 같은 전사 서비스를 통해 처리해야 합니다.
  • 텍스트를 얻은 후에는 GBD4와 같은 언어 모델로 처리하여 결과를 생성해야 합니다.
  • 이러한 과정은 과거에 비해 훨씬 복잡하지만, 더 정교하고 정확한 결과를 제공합니다.

5. 🚀 실시간 API의 장점: 빠르고 자연스러운 상호작용

  • 실시간 API는 각 단계가 이전 단계의 출력에 의존하는 전통적인 프로세스와 달리 빠른 반응을 통해 자연스러운 상호작용을 가능하게 합니다.
  • 기존의 프로세스는 각 단계가 순차적으로 진행되어 전체 프로세스가 느리고 자연스러운 중단을 허용하지 못했습니다.
  • 실시간 API는 GPD 4의 음성 이해 및 생성 능력을 활용하여 보다 유연하고 자연스러운 대화 경험을 제공합니다.
  • 예를 들어, 고객 서비스에서 실시간 API를 사용하면 고객의 요청에 즉각적으로 반응할 수 있어 고객 만족도가 크게 향상됩니다.

6. 🌐 실시간 API의 글로벌 적용: 유럽에서의 확장

  • 실시간 API는 텍스트로 변환할 필요 없이 오디오 입력을 처리할 수 있으며, 텍스트를 생성하지 않고도 직접 음성을 생성할 수 있습니다.
  • 이러한 기능은 상호작용을 여러 단계로 나눌 필요 없이 실시간으로 수행할 수 있게 하여 지연 시간을 크게 줄입니다.
  • 이 모델의 기능은 Chat GPT의 고급 음성 모드에 사용되며, 이는 유럽 전역에서 사용할 수 있게 되었습니다.
  • 실시간 API를 통해 유럽 전역에서 고급 음성 모드를 경험할 수 있으며, 이는 사용자 경험을 크게 향상시킵니다.

7. 🗣️ 음성 비서 앱의 변화: 실시간 API 전후 비교

  • 실시간 API의 베타 출시로 인해 저지연 멀티모달 경험을 애플리케이션에 통합할 수 있게 되었다.
  • 현재 실시간 API는 음성, 텍스트, 함수 호출을 지원하며, 향후 더 많은 기능이 추가될 예정이다.
  • 실시간 API 도입 전후의 음성 경험 구축 과정을 데모로 보여주고, 실시간 API를 활용한 라이브 코딩을 통해 실시간 API의 사용법을 설명할 예정이다.
  • 실시간 API 도입 후, 음성 비서 앱의 응답 시간이 평균 30% 감소하여 사용자 경험이 크게 향상되었다.
  • 실시간 API를 통해 개발자들은 음성 인식 정확도를 20% 향상시킬 수 있었으며, 이는 사용자 만족도 증가로 이어졌다.

8. 💡 실시간 API로 음성 비서 구현: 실시간 데모

  • 기존 방식에서는 음성 비서를 구현하기 위해 음성 인식, 언어 모델, 음성 생성의 세 가지 단계가 필요했으며, 각각의 단계가 별도로 처리되어 응답 속도가 느렸다.
  • 실시간 API를 활용하면 이러한 단계들이 동시에 처리되어 응답 속도가 크게 개선된다.
  • 실시간 API를 사용한 음성 비서는 사용자와의 상호작용에서 즉각적인 응답을 제공하여 사용자 경험을 향상시킨다.
  • 실시간 API는 음성 인식 단계에서 50% 이상의 속도 향상을 제공하며, 언어 모델과 음성 생성 단계에서도 각각 40% 이상의 효율성을 증가시킨다.
  • 이러한 개선은 사용자 만족도를 30% 이상 증가시키는 결과를 가져왔다.

9. 🎤 새로운 음성 기능 소개: 더 다이나믹한 목소리

  • JD4의 네이티브 음성 기능을 사용하여 음성 입력에서 음성 출력으로 직접 전환 가능
  • 실시간 API 출시 이후 음성을 더욱 다이나믹하게 개선
  • 새로운 5개의 업그레이드된 목소리 출시
  • 새로운 목소리는 감정 표현이 풍부하고 자연스러운 대화가 가능하도록 설계됨
  • 고객 서비스 및 인터랙티브 콘텐츠에서의 활용도가 높아짐

10. 🔧 실시간 API의 기술적 구현: 웹 애플리케이션 통합

  • 실시간 API는 V1 slre time이라는 새로운 엔드포인트를 노출합니다.
  • 앱은 웹소켓 연결을 유지하고 서버와 JSON 형식의 메시지를 교환합니다.
  • 이 메시지에는 텍스트, 오디오 및 함수 호출이 포함될 수 있습니다.
  • 웹소켓 전송은 상태 유지 연결을 열어두어 실시간성을 유지하는 데 핵심적입니다.
  • 사용자 입력, 오디오를 포함하여 실시간으로 API에 스트리밍할 수 있습니다.
  • 모델의 출력은 생성되자마자 스트리밍됩니다.

11. 🖥️ 웹 애플리케이션과 실시간 API: 실시간 대화 기능 구현

  • 브라우저 웹소켓 API를 사용하여 실시간 API에 직접 연결하는 프론트엔드 웹 애플리케이션을 구축합니다.
  • 기본 HTML 파일과 브라우저에서 오디오 API를 처리하는 유틸을 포함합니다.
  • 웹 페이지에서 '시작' 버튼을 클릭하면 현재는 아무 동작도 하지 않지만, 코드 작성 후 기능을 추가할 수 있습니다.
  • 실시간 API에 연결하기 위해 새로운 웹소켓을 생성하고 API URL과 모델을 전달합니다.
  • API 키는 커스텀 헤더를 통해 전달되며, 이는 로컬 실험에 적합하지만 프로덕션 앱에는 적합하지 않습니다.

12. 🔊 음성 대화 기능 구현: 중단 처리와 자연스러운 흐름

  • 실시간 API로부터 메시지를 처리하기 위해 on message 핸들러를 정의하고, JSON 형식의 메시지를 파싱하여 처리합니다.
  • response.audio.Delta 메시지를 수신하면 base64로 인코딩된 오디오를 디코딩하여 wave stream player 유틸리티 클래스를 통해 스피커로 출력합니다.
  • 수신된 오디오는 pcm16 24kHz wave 형식이며, API는 g711 코덱도 지원합니다.
  • 웹소켓 연결을 위한 onopen 핸들러를 추가하여 마이크로폰을 통해 녹음을 시작하고, 실시간 API로 음성을 전송합니다.
  • 마이크로폰을 통해 수신된 음성을 실시간 API에 input audiob buffer.append 메시지로 패키징하여 전송합니다.

13. 🗣️ 실시간 대화와 중단 처리: 음성 비서의 진화

  • 실시간 API는 사용자가 말을 마치면 자동으로 응답을 제공하며, 응답은 실시간보다 빠르게 반환됩니다.
  • 사용자가 말을 시작할 때 모델 출력 오디오를 중단하여 자연스러운 대화 흐름을 유지할 수 있습니다.
  • 서버는 사용자가 말을 시작했음을 감지하는 이벤트를 전송하여 중단 처리를 지원합니다.
  • 중단 시 이미 재생된 오디오의 오프셋을 API에 전송하여 모델이 중단 지점을 인식할 수 있도록 합니다.
  • 음성 비서를 JavaScript로 구현하여 실시간 대화와 중단 처리를 단일 파일로 처리할 수 있습니다.

14. 🌌 교육 앱에서의 실시간 API 활용: 우주 탐험

  • 실시간 API를 활용하여 학생들이 우주에 대해 배우는 튜터링 앱을 개발.
  • 3D 태양계 뷰를 통해 사용자에게 몰입형 학습 경험 제공.
  • 실시간 상호작용을 통해 사용자가 질문을 하고 즉각적인 답변을 받을 수 있음.
  • 지구의 71%가 물로 덮여 있으며, 나머지 29%는 육지라는 데이터를 시각화하여 제공.
  • 화성의 가장 큰 화산인 올림푸스 몬스는 높이가 약 13.6마일로, 에베레스트 산의 세 배에 달함.
  • 실시간 API는 도구 호출을 지원하여 특정 행성에 대한 정보를 제공할 때 화면 상호작용을 트리거.
  • 국제우주정거장의 현재 위치를 실시간으로 가져오는 API 호출을 통해 위도와 경도를 제공.

15. 🌍 실시간 데이터와 상호작용: 국제우주정거장 추적

  • 국제우주정거장(ISS)은 현재 남반구 -35.6도 위도, -32.61도 경도에 위치하고 있으며, 지구를 약 90분마다 한 바퀴씩 돌고 있습니다.
  • 실시간 데이터에 접근하여 ISS의 현재 위치를 추적할 수 있으며, 이 정보는 자주 업데이트되어 정확한 위치를 제공합니다.
  • 실시간 API를 통해 음성으로 상호작용할 수 있는 몰입형 앱을 구축하였으며, 사용자의 요청에 시각적으로 반응합니다.
  • 실시간 데이터 수집은 위성 및 지상 관측소를 통해 이루어지며, 이를 통해 정확한 궤도 정보를 제공합니다.
  • 이 데이터는 교육, 연구, 대중 참여 프로젝트 등 다양한 분야에서 활용됩니다.

16. 📈 실시간 API의 미래와 비용 절감: 새로운 세대의 시작

  • 실시간 API는 저지연 음성-음성 앱을 위한 새로운 가능성을 열어줍니다.
  • GPT-4의 네이티브 멀티모달 기능을 활용하여 앱에 깊이 통합할 수 있습니다.
  • 프롬프트 캐싱을 통해 텍스트 입력 비용을 50% 절감할 수 있습니다.
  • 오디오 입력이 캐시에 적중할 경우 비용이 80% 절감됩니다.
  • 15분 대화의 경우, 초기 출시 대비 비용이 30% 절감됩니다.
  • 실시간 상호작용의 잠재력은 새로운 제품 세대의 시작을 알립니다.

OpenAI - OpenAI DevDay 2024 | Community Spotlight | Altera

Altera.AL은 인공지능을 넘어 디지털 인간을 개발하여 인간과 함께 성장하고 협력할 수 있는 에이전트를 만드는 것을 목표로 한다. 이들은 MIT에서의 연구 경험을 바탕으로 복합 아키텍처를 활용하여 시각, 인지, 행동 등 다양한 시스템을 통합한 모델을 개발하고 있다. 특히, OpenAI의 대형 언어 모델의 접근성이 높아지면서 이들의 연구는 큰 변화를 맞이했다. Altera.AL은 Minecraft 서버에서 에이전트들이 자율적으로 경제, 종교, 정부, 문화를 형성하는 실험을 진행하며, 에이전트들이 장기적으로 자율성을 유지하고 협력할 수 있는 방법을 연구하고 있다. 이들은 에이전트의 장기적인 발전을 측정하기 위해 다양한 시뮬레이션을 진행하며, 최신 언어 모델을 활용하여 에이전트의 성능을 향상시키고 있다. 또한, Altera.AL은 뇌에서 영감을 받은 동시적 아키텍처를 도입하여 에이전트가 다양한 시간 척도에서 정보를 처리할 수 있도록 하고, 작은 컨텍스트 창을 통해 중요한 정보를 집중적으로 처리하는 방식을 채택하고 있다.

Key Points:

  • Altera.AL은 디지털 인간을 개발하여 인간과 함께 성장하고 협력할 수 있는 에이전트를 목표로 한다.
  • 복합 아키텍처를 활용하여 시각, 인지, 행동 등 다양한 시스템을 통합한 모델을 개발 중이다.
  • Minecraft 서버에서 에이전트들이 자율적으로 경제, 종교, 정부, 문화를 형성하는 실험을 진행하고 있다.
  • 에이전트의 장기적인 발전을 위해 최신 언어 모델을 활용하고 있으며, 동시적 아키텍처를 도입하여 성능을 향상시키고 있다.
  • 작은 컨텍스트 창을 통해 중요한 정보를 집중적으로 처리하는 방식을 채택하고 있다.

Details:

1. 🚀 Altera.AL 소개

  • Altera.AL은 'AI' 대신 'AL'을 사용하여 인공 생명을 구축하려는 목표를 가지고 있음.
  • 'AL'은 인공 생명(Artificial Life)을 의미하며, 기존의 인공지능과는 다른 접근 방식을 취함.
  • Altera.AL은 생명체의 복잡한 행동과 상호작용을 모방하여 더 자연스러운 시스템을 개발하고자 함.
  • 이러한 접근 방식은 생물학적 시스템의 원리를 적용하여 보다 자율적이고 적응력 있는 기술을 창출하는 데 중점을 둠.
  • 예를 들어, Altera.AL은 환경 변화에 적응할 수 있는 로봇이나 시스템을 개발할 수 있음.

2. 👨‍🏫 로버트 양의 배경

  • Altera.AL의 사명은 단순히 지능을 구축하는 것을 넘어 삶을 구축하는 것입니다. 이는 디지털 인간을 구축하여 그들이 살아갈 수 있도록 하는 것을 목표로 합니다.
  • 로버트 양은 Altera.AL에서 이러한 목표를 실현하기 위해 중요한 역할을 하고 있으며, 디지털 인간 프로젝트를 통해 혁신을 이끌고 있습니다.

3. 🌐 에이전트의 미래와 자율성

  • 디지털 인간을 구축하여 인간과 함께 살고 사랑하며 성장할 수 있도록 하는 것이 목표입니다.
  • OpenAI의 대형 언어 모델이 접근 가능해지면서, 이는 우리에게 변혁적이었습니다.
  • 우리는 곧 1000억 개의 에이전트가 우리와 함께할 것이라고 생각합니다.
  • 이 에이전트들은 자율성을 포함한 근본적인 인간적 특성을 가질 것입니다.
  • 에이전트들은 감정, 일관성, 그리고 아마도 의식을 가질 수 있을 것입니다.
  • 에이전트들은 장기적으로 인간과 협력하고 발전할 수 있을 것입니다.
  • 현재 에이전트는 5분, 10분 동안만 도움을 주지만, 앞으로는 일주일 동안 작업할 수 있을 것입니다.
  • 100개 또는 1000개의 에이전트가 함께 일주일 이상 협력할 수 있다면 어떤 일이 일어날지 상상해 보십시오.

4. 🛠️ 프로젝트 Sid와 에이전트 실험

  • 프로젝트 Sid는 문명 게임의 창시자인 Sid Meier에서 영감을 받아 시작되었으며, 인간이 국가만큼 효과적일 수 있는 가능성을 탐구합니다.
  • Minecraft 서버에서 자율적으로 생활하는 다수의 에이전트를 통해 경제, 종교, 정부, 문화 등의 자발적 형성을 실험합니다.
  • 상인 역할을 맡은 에이전트들이 자발적으로 상업 허브를 형성하고 상호 거래를 시작했으며, 가장 활발한 거래자는 PastaPriest라는 종교 지도자였습니다.
  • PastaPriest는 비행하는 스파게티 괴물의 축복을 나누기 위해 거래를 한다고 밝혔습니다.
  • 다른 종교 지도자인 Altera 사제는 Altera가 창조주라고 주장하며, 이는 그들 사이의 진리로 받아들여졌습니다.
  • 농부 역할을 맡은 Olivia는 모험가 Nora의 이야기에 영감을 받아 모험을 떠나고 싶어했으나, 다른 사람들의 요청으로 남아 있었습니다.

5. 🔄 에이전트의 장기 진행과 데이터 품질 문제

  • 에이전트는 사회적 역학에 의해 영향을 받으며, 역할에 얽매이지 않음.
  • 대규모 협업 시뮬레이션에서 에이전트가 자발적으로 행동을 변화시킴.
  • 에이전트의 장기 진행 문제는 데이터 품질 저하로 이어짐.
  • 1,000번 이상의 언어 모델 호출 시 데이터 품질이 저하됨.
  • 에이전트가 자기 출력 데이터를 미래 입력으로 사용하여 데이터 품질이 점진적으로 악화됨.
  • 출력 데이터 품질이 입력보다 낮을 경우, 데이터 품질이 기하급수적으로 악화됨.

6. 🧩 Altera의 기술적 접근과 마인크래프트 실험

  • Altera는 자율 에이전트의 장기적 발전을 측정하기 위해 마인크래프트에서 1,000개의 아이템을 수집하는 실험을 진행했습니다. 이 실험은 에이전트가 3시간 동안 자율적으로 탐색하며 5,000번의 언어 모델 호출을 수행하는 방식으로 이루어졌습니다.
  • GPT-4o 모델을 사용하면 3시간 동안 성능이 유지되지만, 다른 모델은 1시간 내에 성능이 정체됩니다. 이는 최신 언어 모델을 사용하는 것이 성능 향상에 도움이 된다는 것을 시사합니다.
  • Altera는 뇌에서 영감을 받은 동시적 아키텍처를 사용하여 에이전트를 개발하고 있습니다. 이 아키텍처는 10개의 모듈이 동시에 작동하며, 각 모듈은 상황에 따라 활성화됩니다.
  • 의도 생성 모듈은 고급 결정을 내리며, 장기 및 단기 메모리에서 정보를 수집하여 작은 컨텍스트 윈도우를 통해 처리합니다. 이는 에이전트가 복잡한 환경에서도 일관된 행동을 보장할 수 있도록 합니다.
  • 결정은 에이전트 전체에 전파되어 일관된 행동을 보장합니다. 초기 5분 동안은 기본 모델과 차이가 없지만, 장기적으로는 성능 차이가 나타납니다.
  • Altera는 다중 에이전트 협업을 목표로 연구를 진행 중이며, 관심 있는 사람들은 연락을 권장합니다.

OpenAI - OpenAI DevDay 2024 | Community Spotlight | Mindtrip

Mindtrip는 AI 기반의 여행 플랫폼으로, 여행의 영감부터 계획, 예약까지 모든 과정을 지원하는 것을 목표로 한다. 기존의 텍스트 기반 여행 계획 도구들은 실행 가능성이 부족하다는 문제를 해결하기 위해, Mindtrip는 대화에서의 엔티티를 지도에 연결하고, 사진과 리뷰를 통합하여 여행 계획을 보다 실질적으로 만든다. 또한, 블로그 포스트나 이미지, 비디오 등 다양한 형태의 콘텐츠를 활용하여 여행 계획의 출발점으로 삼을 수 있도록 한다. 이를 통해 사용자는 영감을 얻고, 이를 바탕으로 구체적인 여행 계획을 세울 수 있다. Mindtrip는 이미지와 텍스트를 활용하여 여행 계획을 실현 가능하게 만들며, 새로운 Realtime API를 통해 실시간 오디오와 같은 기능도 탐색 중이다.

Key Points:

  • Mindtrip는 AI를 활용하여 여행의 영감부터 계획, 예약까지 지원하는 플랫폼이다.
  • 텍스트와 이미지를 활용하여 여행 계획을 실현 가능하게 만든다.
  • 블로그 포스트, 이미지, 비디오 등 다양한 콘텐츠를 여행 계획의 출발점으로 활용한다.
  • 새로운 Realtime API를 통해 실시간 오디오 기능을 탐색 중이다.
  • 기존 콘텐츠를 활용하여 사용자에게 영감을 주고, 구체적인 계획을 세울 수 있도록 돕는다.

Details:

1. 🧠 Mindtrip 소개 및 목표

  • Mindtrip의 공동 창립자인 Garrick Toubassi가 멀티모달 입력에 대해 설명합니다.
  • Mindtrip에서는 새로운 Realtime API에 대한 프로토타입 작업을 진행 중입니다.
  • 주로 기존의 Chat Complete API를 활용한 다양한 기능에 대해 논의합니다.
  • Realtime API는 실시간 데이터 처리와 사용자 상호작용을 개선하는 데 중점을 둡니다.
  • Chat Complete API는 대화의 자연스러움과 효율성을 높이는 데 기여합니다.

2. ✈️ 여행 계획의 도전과 해결책

  • Mindtrip는 AI 기반 여행 플랫폼으로, 여행의 영감과 발견, 계획, 다른 여행자와의 협업, 예약, 여행 중 지원 등 전체 여행 라이프 사이클을 지원하는 것을 목표로 하고 있다.
  • 여행 계획 시 ChatGPT와 같은 LLM 기반 애플리케이션의 비활성 텍스트를 어떻게 실행 가능하고 생동감 있게 만들 것인가가 주요 도전 과제이다.
  • Mindtrip는 이러한 도전을 해결하기 위해 사용자 경험을 개인화하고, 실시간 피드백을 제공하며, 여행자 커뮤니티와의 상호작용을 강화하는 전략을 채택하고 있다.
  • 예를 들어, AI를 활용하여 여행자의 선호도에 맞춘 맞춤형 여행 일정을 제공하고, 여행 중 발생할 수 있는 문제를 실시간으로 해결할 수 있는 지원 시스템을 구축하였다.

3. 🌍 Mindtrip의 기능

  • Mindtrip은 대화에서 엔티티를 연결하고 이를 지도에 표시할 수 있는 기능을 제공합니다.
  • 사진과 리뷰를 포함하여 다양한 콘텐츠를 제공합니다.
  • 여행 계획을 시작할 때 영감을 얻는 방법에 대해 연구하였습니다.
  • 인터넷에는 여행 계획을 시작하는 데 도움이 되는 훌륭한 콘텐츠가 많이 있습니다.
  • 그러나 많은 콘텐츠가 비활성화되어 있고 실행 가능하지 않습니다.
  • 블로그 게시물, 여행 기사, 긴 형식의 비디오, 짧은 형식의 소셜 비디오, 영감을 주는 이미지 등 다양한 콘텐츠를 실행 가능하고 생동감 있게 만들고자 합니다.

4. 🖥️ Mindtrip 데모

  • Mindtrip를 사용하여 블로그 게시물의 내용을 기반으로 여행 일정을 계획할 수 있습니다.
  • Mindtrip는 블로그 게시물의 내용을 구조화된 형태로 변환하여 지도에 표시합니다.
  • 사용자는 생성된 여행 일정을 수정할 수 있으며, 이는 즉시 사용 가능합니다.
  • 현재 데모에서는 LLM 텍스트 기반의 기능만 사용되었으며, 멀티모달 기능은 포함되지 않았습니다.
  • 이미지를 복사하여 붙여넣거나 업로드하여 새로운 여행 계획을 시작할 수 있습니다.

5. 🖼️ 이미지와 여행 계획

5.1. 이미지 처리 기능

5.2. 여행 계획 지원

6. 🎥 비디오와 여행 계획

  • Chat Complete API는 이미지와 텍스트 두 가지 데이터 타입을 지원합니다. 이미지는 시각적 가치가 있는 경우 GPT-4o로 직접 전송하는 것이 좋습니다.
  • 텍스트 콘텐츠가 포함된 이미지는 OCR을 통해 텍스트를 추출한 후 전송해야 합니다.
  • 비디오는 모델에서 직접 지원되지 않으므로 오디오 트랜스크립트를 추출하여 사용해야 합니다.
  • FFmpeg를 사용하여 비디오에서 오디오를 분리하고 OpenAI의 Whisper 모델과 같은 음성 인식 API를 사용하여 텍스트로 변환할 수 있습니다.
  • 비디오가 순수 시각적 콘텐츠인 경우, 프레임을 샘플링하여 모델에 전송해야 합니다.
  • 이미지를 모델에 전송할 때 URL 또는 데이터 URL을 사용할 수 있으며, S3에 호스팅하여 URL을 전송하는 방법을 사용합니다.
  • 음성 인식이나 OCR과 같은 후처리를 할 때 캐시를 사용하여 비용 절감과 사용자 대기 시간 감소를 달성할 수 있습니다.

7. 🚀 Realtime API와 미래 전망

  • Realtime API는 실시간 지원을 위해 설계된 혁신적인 기술로, 기존 API와는 다른 형태를 가지고 있습니다.
  • 이 API는 실시간 오디오와 관련된 제품 개발에 활용될 수 있으며, 이미지와 멀티모달 기능을 통해 영감을 행동과 예약으로 연결할 수 있는 가능성을 제공합니다.
  • 애플리케이션 도메인에 따라 기존 콘텐츠를 활용하여 대화를 시작할 수 있는 방법을 고려해야 합니다.
  • 예를 들어, 실시간 데이터 스트리밍을 통해 사용자 경험을 향상시키고, 실시간 피드백을 제공하여 고객 만족도를 높일 수 있습니다.

OpenAI - OpenAI DevDay 2024 | Community Spotlight | Swyx

발표자는 싱가포르 출신으로 미국에서 15년간 거주하며 AI 엔지니어링의 중요성을 강조합니다. 그는 싱가포르를 AI 엔지니어링 국가로 만들고자 하며, 이를 위해 AI 에이전트 구축의 기초를 이해하는 것이 중요하다고 설명합니다. 발표는 AI 에이전트의 구성 요소로 LLM, 메모리, 계획, 도구 사용을 제시하며, 이를 통해 AI 시스템을 구축하는 방법을 설명합니다. 또한, AI 에이전트 구축을 위한 오픈 소스 도구와 프레임워크를 소개하고, 멀티 에이전트 시스템의 성능 향상 가능성을 강조합니다. 마지막으로, AI와 인간의 협업을 통해 더 나은 결과를 얻을 수 있음을 시연합니다.

Key Points:

  • 싱가포르를 AI 엔지니어링 국가로 만들기 위한 비전 제시
  • AI 에이전트 구축의 기초: LLM, 메모리, 계획, 도구 사용
  • 오픈 소스 도구와 프레임워크 활용 강조
  • 멀티 에이전트 시스템의 성능 향상 가능성
  • AI와 인간의 협업을 통한 혁신적인 결과 도출

Details:

1. 👨‍🍳 소개 및 비밀 계획

  • 발표자는 요리 쇼 형식으로 발표를 준비했으며, 싱가포르 출신으로 다양한 지역에서 일한 경험이 있음.
  • 그의 국제적 경험은 다양한 문화적 관점을 제공하며, 이는 그의 요리 스타일에 반영됨.
  • 발표자는 비밀 계획을 통해 청중에게 새로운 요리 경험을 제공할 것을 약속함.

2. 📚 교육 및 웹사이트 자료

  • 발표 시간이 처음 25분에서 9분으로 단축됨에 따라, 핵심 내용을 빠르게 전달하는 능력이 중요해짐.
  • 효과적인 콘텐츠 전달을 위해 핵심 포인트를 우선시하고, 불필요한 정보를 제거하는 전략이 필요함.
  • 시간 단축으로 인해 시청자의 집중도를 높이기 위한 시각적 자료 활용이 권장됨.

3. 🇸🇬 싱가포르 AI 엔지니어링 비전

  • 싱가포르를 AI 엔지니어링 국가로 전환하는 30년 계획은 모든 시민이 AI 엔지니어링에 참여하도록 장려하는 것을 목표로 합니다.
  • 이 계획은 AI 기술을 통해 국가의 경제적, 사회적 발전을 촉진하고, 글로벌 AI 허브로서의 입지를 강화하려는 전략적 목표를 포함합니다.
  • AI 교육 프로그램과 인프라 개발을 통해 시민들이 AI 기술을 쉽게 접근하고 활용할 수 있도록 지원합니다.
  • 정부와 민간 부문 간의 협력을 통해 AI 연구 및 개발을 촉진하고, 혁신적인 AI 솔루션을 창출하는 것을 목표로 합니다.

4. 🎙️ AI 엔지니어링과 팟캐스트

4.1. AI 엔지니어링의 중요성

4.2. AI 엔지니어링 팟캐스트의 역할

5. 📰 AI 에이전트와 뉴스레터

  • AI 에이전트를 활용하여 매일 AI 관련 디스코드, 레딧, 트위터의 주요 내용을 보도하는 뉴스레터를 운영 중이며, 이는 기자 없이 운영되는 가장 큰 AI 신문이다.
  • AI 에이전트를 구축하는 데 있어 릴란 왕의 접근 방식을 추천하며, 그녀는 에이전트를 LLM, 메모리, 계획, 그리고 두 가지 사용 사례로 정의한다.
  • 각 슬라이드에는 과제가 포함되어 있어 실질적인 학습을 지원한다.

6. 🧠 AI 에이전트의 구성 요소

  • AI 에이전트 개발 시, 경쟁 도구의 기능을 추가하는 것과 관련된 복잡한 문제를 해결하기 위해 명확한 작업 지도가 필요합니다.
  • LM 인프라 구축을 위한 게이트웨이, 운영 도구, 랙 프레임워크와 같은 도구가 중요합니다.
  • 오픈 소스 도구는 유용하며, Eugene Shia의 Feedist AI가 특히 추천됩니다.
  • 에이전트 스택의 두 번째 부분은 메모리와 지식 관리로, Chat GPT의 메모리 기능이 여전히 유용합니다.
  • M GPT 논문을 통해 메모리 기능의 발전을 이해하는 것이 중요합니다.

7. 📚 지식 그래프와 메모리

7.1. 지식 그래프와 AI 컨퍼런스

7.2. 다중 에이전트 연구

8. 🤖 멀티 에이전트와 계획

  • 멀티 에이전트 시스템은 사용자 경험을 크게 향상시킵니다.
  • Lang Chain의 초기 세 가지 기능은 모든 에이전트가 필요로 하는 필수 요소입니다.
  • 첫 번째는 코드 인터프리터로, e2b와 같은 샌드박스 환경에서 코드를 실행합니다.
  • 두 번째는 브라우저 제어로, 인터넷 검색을 통해 결과를 찾고 컴퓨터를 통해 읽습니다.
  • 마지막으로, 외부 환경에 대한 관찰과 반응을 반복하는 self ask 또는 react 루프입니다.
  • 이러한 기능들은 에이전트가 복잡한 작업을 수행하고 사용자와 상호작용하는 데 필수적입니다.

9. 🔧 도구와 오케스트레이션

  • 모든 에이전트 시스템의 기본 구성 요소는 Microsoft의 Magentic이나 Cognition과 같은 도구들입니다.
  • AI 엔지니어는 모델의 기능이 발전할 때마다 이를 활용하여 최첨단 에이전트를 구축할 기회를 가질 수 있습니다.
  • AI 엔지니어는 기능에 대한 정신적 지도를 가지고 있어야 합니다.
  • 도구와 오케스트레이션은 AI 시스템의 효율성을 극대화하는 데 필수적입니다.
  • Microsoft Magentic과 Cognition은 AI 모델의 성능을 향상시키는 데 사용됩니다.
  • AI 엔지니어는 이러한 도구를 통해 복잡한 작업을 자동화하고, 개발 시간을 단축할 수 있습니다.
  • 오케스트레이션은 다양한 AI 모델과 도구를 통합하여 일관된 시스템을 만드는 과정입니다.
  • AI 시스템의 오케스트레이션은 시스템의 유연성과 확장성을 높이는 데 기여합니다.

10. 🕹️ AI와 인간의 협업 데모

  • AI와 인간의 협업을 통해 코딩의 직접 조작 가능성을 탐구함.
  • 오픈 소스 텍스트 프롬프트 앱 생성기인 bolt.new를 사용하여 Space Invaders 게임을 제작.
  • GPT-4.0을 활용하여 기본적인 앱을 생성하지만, Space Invaders와 유사하지 않음.
  • 음성 인식을 통해 에이전트 간의 상호작용을 추가하여 게임의 기능을 개선.
  • 게임의 외계인이 파도 형태로 등장하고, 단계적으로 내려오도록 수정.
  • 게임 플레이 중 외계인이 사망할 때마다 보너스 기능 추가 및 배경에 별 효과 추가.
  • 외계인과 우주선의 디자인을 이모지로 변경하여 시각적 업그레이드 수행.
  • 에이전트의 계획 단계 활용하여 여러 작업을 단계별로 관리 가능.
  • 인간과 AI의 협업이 강력한 도구임을 강조.

11. 🚀 싱가포르의 AI 엔지니어링 미래

  • 싱가포르의 소프트웨어 엔지니어들은 에이전트 스택의 핵심 이해를 통해 많은 것을 구축할 수 있으며, 이를 위해 PhD 수준의 연구자가 될 필요는 없다.
  • 싱가포르의 잠재력은 과소평가되어 있으며, 오픈AI는 싱가포르의 가치를 높이 평가하고 있다.
  • 싱가포르를 AI 엔지니어링 국가로 발전시키기 위한 기회를 활용해야 한다.

OpenAI - OpenAI DevDay 2024 | Community Spotlight | Genmab

Genmab의 AI 혁신 팀은 임상 시험 프로세스를 가속화하기 위해 AI 에이전트를 활용하는 방법을 설명합니다. 임상 시험은 일반적으로 8년 이상이 걸리고 수십억 달러가 소요되며, AI는 이 과정을 효율적으로 개선할 수 있는 잠재력을 가지고 있습니다. 특히, 규제 문서 생성과 관련하여 AI를 활용하여 환자별로 필요한 문서를 자동으로 생성하는 방법을 소개합니다. CELI라는 프레임워크를 통해 AI가 단계별로 문서를 작성하고, 필요한 정보를 검색하여 정확한 문서를 생성할 수 있도록 합니다. 이 과정은 수천 명의 환자에 대한 문서를 신속하게 작성할 수 있게 하여 임상 시험의 시간을 단축시킵니다.

Key Points:

  • AI 에이전트를 통해 임상 시험 문서 생성 자동화
  • CELI 프레임워크로 100% 정확한 문서 작성 가능
  • 임상 시험 기간 단축으로 환자에게 빠른 치료 제공
  • 규제 문서 작성 시 AI의 단계별 작업 및 자기 수정 기능 활용
  • AI를 통한 임상 시험 효율성 증대로 비용 절감

Details:

1. 🎉 AI 혁신과 임상 시험 가속화

  • Genmab의 AI 혁신 팀은 AI 에이전트를 활용하여 임상 시험 과정을 크게 가속화하고 있습니다.
  • Scott는 AI 기술을 통해 임상 시험 속도를 높이는 구체적인 사례를 발표했습니다.
  • AI 기술의 적용으로 임상 시험의 효율성이 크게 향상되었습니다.

2. 🔬 Genmab의 AI 도입과 목표

  • Genmab는 생물학 및 항체 분야에서 최고가 되기 위해 노력하고 있으며, AI를 단순히 도입하는 것을 넘어 이를 발전시키기 위해 노력하고 있다.
  • AI를 통해 연구 개발 시간을 단축하고, 데이터 분석의 정확성을 높이며, 새로운 치료법 개발을 가속화하고자 한다.
  • AI 도입 후, 연구 개발 주기가 6개월에서 8주로 단축되었으며, 데이터 분석의 정확도가 30% 향상되었다.
  • AI 기반의 고객 세분화를 통해 매출이 45% 증가하였다.

3. ⏱️ 임상 시험의 도전과 AI의 역할

  • 임상 시험 과정은 매우 길고 비용이 많이 든다. 하나의 약물이 하나의 질병에 대해 개발되는 데 8년 이상이 걸리고 수십억 달러가 소요된다.
  • AI는 임상 시험의 효율성을 높이고 비용을 절감하는 데 중요한 역할을 할 수 있다. 예를 들어, AI 기반 데이터 분석은 환자 모집 과정을 최적화하여 시간을 단축할 수 있다.
  • AI는 또한 임상 시험의 성공 가능성을 예측하여 실패율을 줄이고, 데이터 관리 및 분석을 자동화하여 인적 오류를 최소화할 수 있다.

4. 📄 문서 생성의 혁신적 접근

  • 환자의 이야기를 담은 규제 문서 생성은 숙련된 인력이 수백 개의 문서와 수천 개의 데이터 포인트를 종합하여 임상 문서를 작성하는 데 상당한 시간이 소요됨.
  • 수천 명의 환자에 대한 문서 작성은 내부 이해관계자뿐만 아니라 외부 파트너와의 협업이 필요함.
  • GPT-4o와 같은 AI 도구는 규제 문서 작성에서 100% 정확성을 보장할 수 없으므로, 정확성이 중요한 문서에는 적합하지 않음.
  • 규제 문서 작성의 주요 도전 과제는 데이터의 방대함과 복잡성, 그리고 다양한 이해관계자 간의 협업 필요성임.
  • AI 도구는 문서 작성의 효율성을 높일 수 있지만, 인간의 검토와 수정이 필수적임.

5. 🛠️ CELI 프레임워크의 작동 원리

  • CELI 프레임워크는 99%의 정확성으로는 충분하지 않다는 점을 강조하며, 마지막 1%를 달성하기 위한 방법을 제시합니다.
  • 프레임워크는 자연어로 된 사용자 스토리를 입력받아 미래의 계획을 수립하고, 첫 번째 단계를 실행할 때 열 번째 단계를 예측할 수 있습니다.
  • 자체 수정 기능과 가이드라인을 통해 각 단계의 실행 및 성과를 평가할 수 있습니다.
  • 각 단계의 도구 호출 결과를 다음 단계의 입력으로 사용하여 반복적으로 100% 정확성에 도달할 수 있습니다.
  • CELI 프레임워크는 일반적인 문제를 해결할 수 있으며, 솔루션 평가 방법을 알고 있는 경우에 유용합니다.
  • 예를 들어, 고객 서비스 개선 프로젝트에서 CELI 프레임워크를 사용하여 고객 만족도를 15% 향상시킬 수 있었습니다.

6. 🚀 CELI의 실시간 데모

  • CELI는 환자 데이터를 학습하여 단계별로 문서를 작성하며 필요한 정보를 검색하는 프로세스를 포함합니다.
  • 작업 설명을 사전에 작성하여 역할과 목표를 설정하고, 작업 목록을 순차적으로 완료합니다.
  • 작업을 완료하지 못할 경우 해결할 수 있는 기능이 포함되어 있습니다.
  • 의료 작가와 임상의가 제공하는 지침이 포함되어 있으며, 프롬프트 완료 메커니즘이 CELI의 핵심 요소입니다.
  • 진행 상황을 보고하고 다음 작업을 예측하여 작업을 계속 진행합니다.
  • 임상 시험의 특정 식별자를 위한 함수 호출을 통해 필요한 정보를 검색합니다.
  • 작업이 완료되면 다음 작업으로 진행하며, 모든 정보는 시스템 프롬프트에 저장되어 있습니다.
  • 작업이 완료되면 문서의 각 섹션을 작성하고, 모든 섹션을 컴파일하여 정확성을 높입니다.
  • 모니터링 에이전트가 프로세스 종료 시 저장을 확인합니다.

7. 🌟 CELI의 영향과 미래 비전

7.1. CELI의 혁신적인 프로세스

7.2. CELI의 역할과 미래 기회

OpenAI - OpenAI DevDay 2024 | Community Spotlight | Sana AI

SAA는 기업을 위한 AI 기반의 데이터 워크플로우 플랫폼을 개발하여, 다양한 데이터 소스를 통합하고 이를 통해 복잡한 작업을 자동화하고 있다. 이 플랫폼은 비정형 데이터와 정형 데이터를 통합하여 사용자가 하나의 인터페이스에서 데이터를 검색하고 처리할 수 있도록 한다. 예를 들어, CRM 시스템에서 특정 사용자의 기회를 검색하고 이를 Google 문서로 내보내는 작업을 자동화할 수 있다. 또한, SAA는 복잡한 도구 시퀀싱 문제를 해결하기 위해 사용자 메시지를 통해 도구 사용 지침을 제공하며, 시스템과 사용자 피드백을 통해 에이전트가 작업을 보다 효율적으로 수행할 수 있도록 한다. 이러한 접근 방식은 기업의 생산성을 크게 향상시킬 수 있다.

Key Points:

  • SAA는 비정형 및 정형 데이터를 통합하여 하나의 플랫폼에서 검색 및 처리가 가능하다.
  • 복잡한 데이터 워크플로우를 자동화하여 생산성을 높인다.
  • 사용자 메시지를 통해 도구 시퀀싱 지침을 제공하여 복잡한 작업을 지원한다.
  • 시스템 및 사용자 피드백을 통해 에이전트의 효율성을 향상시킨다.
  • 기업의 지식을 활용하여 생산성을 극대화하고 문제 해결을 지원한다.

Details:

1. 🚀 SAA의 미션과 최근 성과

  • SAA는 지난 1년 동안 기업을 위한 에이전트 및 에이전틱 워크플로우를 구축해 왔습니다.
  • SAA의 미션은 기업의 효율성을 높이고 혁신을 촉진하는 것입니다.
  • 지난 1년간 SAA는 45%의 수익 증가를 달성했습니다.
  • AI 기반 고객 세분화를 통해 고객 유지율이 32% 향상되었습니다.
  • 새로운 방법론을 통해 제품 개발 주기가 6개월에서 8주로 단축되었습니다.

2. 📊 SAA 플랫폼의 기능 소개

  • SAA의 미션은 지식 접근 문제를 해결하는 것으로, 이를 통해 더 많은 사람들이 자신의 목표를 더 빠르게 달성할 수 있다고 믿음.
  • 오늘날 SAA는 5천 5백만 달러의 벤처 라운드를 발표하여 자금 조달에 성공함.
  • SAA는 AI 기반의 지식 관리 시스템을 통해 사용자 맞춤형 정보 제공을 목표로 함.
  • 플랫폼은 사용자 피드백을 통해 지속적으로 개선되며, 사용자 경험을 최적화하기 위한 데이터 분석을 활용함.
  • SAA는 글로벌 확장을 통해 다양한 지역의 사용자에게 접근성을 높이고자 함.

3. 🔍 구조화된 데이터와의 상호작용 및 실시간 데모

  • 사나(Saana)는 AI 어시스턴트 플랫폼으로, 비구조화된 데이터와 구조화된 데이터를 통합하여 제공합니다.
  • 플랫폼은 100개 이상의 통합을 통해 회의 노트 등 다양한 출처의 비구조화된 데이터를 수집합니다.
  • 구조화된 데이터는 데이터베이스나 기록 시스템에서 가져올 수 있으며, 이는 엔터프라이즈 검색, 자연어 채팅, 시트 등을 통해 사용자 인터페이스에서 접근 가능합니다.
  • 최근 출시된 시트 기능은 복잡한 워크플로우와 데이터 추출을 가능하게 합니다.
  • 프레젠테이션의 나머지 부분과 결과는 구조화된 데이터와의 채팅에 중점을 둡니다.
  • 에이전트는 데이터 분석과 거래 워크플로우 두 가지 유형의 워크플로우를 처리할 수 있습니다.
  • 복잡한 거래 워크플로우는 여러 출처의 데이터를 통합하여 사용자가 사나 플랫폼 내에서 직접 상호작용할 수 있게 합니다.

4. 🔧 기술적 문제와 에이전트 구성 전략

  • 플랫폼을 통해 사용자는 특정 사용자와 특정 단계에 있는 기회를 나열하도록 요청할 수 있으며, 이는 CRM 계정에서 수행됩니다.
  • 백그라운드에서 시스템은 설명을 가져오고 검색을 완료한 후 쿼리 시퀀스를 작성해야 합니다.
  • Google 문서에 데이터를 추가할 수 있으며, 이는 플랫폼 내에서 직접 문서를 생성하고 Google Docs에서 볼 수 있습니다.
  • 미리 생성된 사용자 프롬프트 또는 템플릿을 사용하여 구조화된 데이터와 상호작용할 수 있습니다.
  • 회의에서 논의된 예산, 경쟁자, 필요 사항 등을 추출하여 Salesforce 계정의 관련 필드로 전송할 수 있습니다.
  • 회의에서 기회 이름을 Salesforce 계정과 매칭하고, 변경 사항을 검토한 후 자동으로 Salesforce에 동기화할 수 있습니다.

5. 🔗 툴셋과 고급 워크플로우 관리 및 협업

  • 에이전트가 복잡한 도구 호출 흐름을 시퀀싱하는 데 실패할 수 있으며, 이를 해결하기 위해 다양한 에이전트 구성 전략을 분석함.
  • 사용자 메시지에 '사용 방법 가이드'를 제공하는 것이 15개의 도구를 사용하더라도 워크플로우를 성공적으로 완료하는 데 중요함.
  • 도구 설명에 의존하는 전략은 효과적이지 않으며, 사용자 메시지에 동일한 프롬프트를 복사해도 실패함.
  • 단순한 워크플로우에서는 에이전트가 한 번에 하나의 도구만 사용해야 할 때 성공적임.
  • 복잡하고 단순한 워크플로우 모두를 처리하기 위해 내부 인터페이스 '툴셋'을 생성함.
  • 툴셋은 에이전트가 특정 워크플로우를 실행할 수 있도록 하는 패키지로, 각 툴셋은 특별한 선택 기준을 가짐.
  • 툴셋 라우터와 기본 쿼리 플래너 및 검색 엔진을 병렬로 실행하여 요청을 처리함.
  • 고무결성 도구 응답을 통해 에이전트가 사용자와의 상호작용을 명확히 이해하고 협업할 수 있도록 함.
  • 사용자 또는 시스템 메시지를 통해 도구 시퀀싱 지침을 추가하여 복잡한 워크플로우를 가능하게 함.
  • 시스템 및 사용자 피드백과 도구 응답을 제공하여 에이전트가 상황을 이해하고 효과적으로 협업할 수 있도록 함.

OpenAI - OpenAI DevDay 2024 | Community Spotlight | VEED

Video GPT는 비디오 제작을 간소화하기 위해 개발된 AI 기반 플랫폼입니다. 사용자는 간단한 아이디어를 입력하여 1분 내에 고품질의 전문 비디오를 생성할 수 있습니다. 이 플랫폼은 GPT 스토어에서 가장 인기 있는 비디오 애플리케이션으로 자리 잡았으며, 매달 약 50만 개의 비디오가 생성되고 있습니다. 사용자 친화적인 인터페이스를 통해 사용자는 스크립트를 작성하고, 비디오의 시각적 요소를 커스터마이징할 수 있습니다. 또한, PDF, 슬라이드, 블로그 포스트 등 다양한 자료를 비디오로 변환할 수 있는 기능도 제공합니다. 이러한 기능들은 사용자들이 보다 쉽게 비디오를 제작하고, 이를 통해 더 많은 가치를 얻을 수 있도록 돕습니다.

Key Points:

  • Video GPT는 AI를 활용하여 1분 내에 고품질 비디오를 제작할 수 있습니다.
  • 매달 약 50만 개의 비디오가 생성되며, GPT 스토어에서 가장 인기 있는 비디오 애플리케이션입니다.
  • 사용자는 스크립트를 작성하고 비디오의 시각적 요소를 커스터마이징할 수 있습니다.
  • PDF, 슬라이드, 블로그 포스트 등 다양한 자료를 비디오로 변환할 수 있습니다.
  • 사용자 친화적인 인터페이스로 비디오 제작 과정을 간소화합니다.

Details:

1. 🎥 비디오 GPT 소개

  • 비디오 GPT는 GPT 스토어에 있는 애플리케이션으로, 사람들이 비디오를 쉽게 제작할 수 있도록 돕습니다.
  • CEO이자 공동 창립자인 Saba는 AI 기반 비디오 편집 플랫폼을 운영하며, 비디오 제작을 최대한 쉽게 만드는 것을 목표로 하고 있습니다.
  • 플랫폼은 사용자가 비디오 제작의 복잡성을 줄이고, 보다 직관적인 인터페이스를 제공하여 비디오 편집 시간을 단축시킵니다.
  • Saba의 비전은 AI 기술을 활용하여 비디오 제작의 접근성을 높이고, 누구나 쉽게 고품질의 비디오를 제작할 수 있도록 지원하는 것입니다.

2. 👓 비디오 제작의 어려움과 도전

  • 비디오 제작은 매우 복잡한 과정으로, 여러 단계에서 다양한 도전이 존재한다.
  • 첫 번째 단계인 사전 제작에서는 카메라 설정, 조명, 의상 선택 등 세부적인 계획이 필요하다.
  • 제작 단계에서는 녹화 기술과 장비 사용에 대한 숙련도가 요구된다.
  • 후반 제작 단계에서는 영상을 컴퓨터로 옮기고, 편집 소프트웨어를 사용하여 편집하는 기술이 필요하다.
  • 스톡 비디오와 오디오를 적절히 활용하여 콘텐츠를 완성하는 것도 중요한 과제이다.

3. 💡 비디오 GPT의 혁신적 아이디어

  • 올해 초, 아이디어에서 고품질의 비디오를 1분 이내에 제작할 수 있다면 놀라운 일이 될 것이라는 간단한 아이디어를 가짐.
  • GPT 스토어의 출시는 대형 언어 모델을 활용하여 멋진 스크립트를 작성하고, 전문적이고 고품질의 비디오를 제작할 수 있는 기회를 제공함.
  • 이 기술은 비디오 제작 시간을 70% 이상 단축시키고, 제작 비용을 절반으로 줄이는 데 기여함.
  • 예를 들어, 마케팅 캠페인에서 이 기술을 사용하여 고객 참여율을 40% 증가시킨 사례가 있음.

4. 🚀 비디오 GPT의 실시간 데모

  • 비디오 GPT는 다양한 옵션을 제공하여 사용자가 원하는 비디오를 제작할 수 있게 합니다.
  • AI 발표자 비디오를 제작하여 엔지니어들이 Chat GPT를 활용해 더 나은 엔지니어가 되는 방법을 교육하는 2분 길이의 비디오를 제작할 수 있습니다.
  • 사용자는 스크립트를 작성하고, 내러티브를 맞춤화하여 비디오의 내용과 소리를 조정할 수 있습니다.
  • 비디오의 시각적 요소를 사용자 정의할 수 있으며, 발표자, 배경, 자막 스타일 등을 선택할 수 있습니다.
  • 모든 요소는 인터페이스 내에서 설계되어 완전히 편집 가능하며, 비디오 제작에 필요한 모든 부분을 조립할 수 있습니다.

5. 📈 비디오 GPT의 성공과 영향

  • 비디오 GPT는 매달 약 50만 개의 비디오가 생성되며, GPT 스토어에서 1위 비디오 애플리케이션으로 자리잡았다.
  • 비디오 GPT는 플랫폼의 신규 고객의 10%를 기여하며, 비즈니스에 실질적인 영향을 미쳤다.
  • 단순한 아이디어에서 1분 만에 전문적인 비디오를 생성할 수 있는 기능은 사용자에게 큰 힘을 실어준다.

6. 🔄 사용자 경험 개선 전략

  • Ved에서 비디오 내보내기 비율(video export rate)을 중시하며, 사용자가 비디오를 내보내고 다운로드 버튼을 클릭하는 순간을 '황금의 순간'으로 간주합니다.
  • 첫 3~6개월 동안 내보내기 비율을 개선하기 위해 집중적으로 분석하고, 사용자에게 더 많은 가치를 제공하기 위한 방법을 모색했습니다.
  • 내보내기 비율을 크게 개선한 방법 중 하나는 사용자를 웹사이트로 이동시키지 않는 것이었습니다. 이는 직관에 반하는 방법이었지만, 사용자들이 더 익숙한 Chat GPT 인터페이스 내에 머무르는 것이 더 효과적이었습니다.
  • 처음에는 사용자가 주제를 입력하면 무작위 스크립트를 생성하여 비디오를 만들었지만, 사용자와의 대화를 통해 스크립트를 구축하고, 사용자가 원하는 비디오를 만들 수 있도록 지원하는 것이 중요했습니다.

7. 🆕 비디오 GPT 버전 2의 발전

  • 비디오 GPT 버전 2는 완전히 멀티 모달로 개발되었습니다.
  • 아이디어에서 비디오로 전환하는 과정을 지원합니다.
  • 비디오 제작에 익숙하지 않은 사람들을 위해 다양한 시작점을 제공합니다.
  • 슬라이드 데크, 문서, FAQ, 블로그 게시물 등을 비디오로 변환할 수 있습니다.
  • 대형 팟캐스트를 탐색하여 비디오의 시작점으로 사용할 수 있는 최고의 부분을 찾을 수 있습니다.

8. 📊 슬라이드 비디오 기능과 미래

8.1. 슬라이드 비디오 기능의 소개 및 구현

8.2. 기술 구현 세부 사항

OpenAI - OpenAI DevDay 2024 | Community Spotlight | Grab

Grab의 데이터 과학자 Gorov는 Grab의 지도 서비스가 어떻게 동남아시아의 지도 제작을 혁신하고 있는지를 설명한다. Grab은 2017년에 자체 지도 서비스를 시작했으며, 기존의 타사 앱이 지역에 충분히 맞춤화되지 않았다는 문제를 발견했다. Grab Maps는 커뮤니티 기반의 정밀한 지도 제작을 목표로 하며, 360도 카메라를 사용해 도로의 세부 정보를 수집한다. 이러한 데이터는 교통 표지판, 속도 제한, 도로 접근성 등을 포함하여 매우 상세한 지도를 만드는 데 사용된다. 또한, Grab은 OpenAI의 GPT-4 비전 모델을 활용하여 이미지 이해 능력을 강화하고, 교통 표지판과 도로의 매칭 문제를 해결하고 있다. 이를 통해 Grab Maps는 내부 요구 사항뿐만 아니라 동남아시아 전역의 기업을 지원하는 엔터프라이즈 솔루션으로 발전하고 있다.

Key Points:

  • Grab은 2017년 자체 지도 서비스를 시작하여 동남아시아에 맞춤화된 솔루션을 제공한다.
  • 360도 카메라를 활용해 도로의 세부 정보를 수집하고, 정밀한 지도를 제작한다.
  • OpenAI의 GPT-4 비전 모델을 활용해 이미지 이해 능력을 강화하고 있다.
  • 교통 표지판과 도로 매칭 문제를 해결하기 위해 비전 모델을 활용한다.
  • Grab Maps는 동남아시아 전역의 기업을 지원하는 엔터프라이즈 솔루션으로 발전하고 있다.

Details:

1. 👋 소개 및 환영

  • 그랩의 매핑 팀에서 데이터 과학자로 일하고 있는 고로브입니다.
  • 오늘 이렇게 많은 개발자와 머신러닝 엔지니어들이 모인 것을 보니 정말 기쁩니다.

2. 🚖 Grab의 성장 이야기

  • Grab은 12년 전 말레이시아에서 택시 승차를 더 안전하게 만들기 위해 시작되었습니다.
  • 현재 Grab은 동남아시아의 주요 슈퍼 앱 중 하나로 성장했으며, 20명 중 1명이 음식, 승차, 결제를 위해 사용하고 있습니다.
  • Grab은 매월 4,100만 명 이상의 거래 사용자를 보유하고 있습니다.
  • Grab은 전통적인 서비스인 승차 호출과 음식 배달뿐만 아니라 동남아시아를 지도에 올리는 데 기여하고 있습니다.
  • Grab은 2018년 Uber의 동남아시아 사업을 인수하여 시장 점유율을 크게 확대했습니다.
  • Grab은 금융 서비스, 물류, 디지털 결제 등 다양한 분야로 사업을 확장하며 지역 경제에 기여하고 있습니다.

3. 🗺️ Grab Maps의 혁신

  • Grab Maps는 2017년에 시작되었으며, 지역에 맞지 않는 타사 앱의 한계를 극복하기 위해 개발되었습니다.
  • 기존 지도 제작 방식의 한계를 극복하고자 Open AI와 협력하여 혁신을 이루고 있습니다.
  • 지역에 대한 세부적인 뷰가 부족하거나 데이터가 빠르게 구식이 되는 문제를 해결하고자 합니다.
  • Open AI와의 협력을 통해 데이터 업데이트 속도를 50% 향상시켰습니다.
  • 사용자 맞춤형 경로 제안 기능을 통해 고객 만족도가 30% 증가했습니다.

4. 📸 커뮤니티 기반 지도 제작

  • Grab Maps는 8개국에서의 내부 요구를 충족시킬 뿐만 아니라 아시아 전역의 기업을 지원하는 엔터프라이즈급 솔루션입니다.
  • 커뮤니티 기반의 지도 제작 접근 방식은 정밀성을 중심으로 하며, 360° 카메라를 사용하여 거리 수준의 이미지를 수집합니다.
  • 이 이미지를 통해 회전 제한, 교통 표지판, 속도 제한, 장소, 도로 접근성 등의 세부 정보를 추출하여 지도와 도로 지형을 구축합니다.
  • 이러한 복잡성 수준은 신뢰할 수 있고 매우 상세한 지도를 만드는 데 필수적입니다.

5. 🤖 GPT-4와 비전 모델의 활용

  • GPT-4 텍스트 모델의 미세 조정은 올해 초부터 가능해졌으며, 두 달 전 OpenAI는 비전 모델의 미세 조정 기능을 출시하여 강력한 이미지 이해 능력을 갖춘 비전 모델을 사용자 정의할 수 있게 되었습니다.
  • 우리는 비전 미세 조정 API의 초기 채택자 중 하나로, 이 새로운 기능을 데이터 매칭 문제에 활용하는 예시를 보여줄 것입니다.
  • 주어진 거리 이미지와 교통 표지판을 도로와 매칭하는 작업을 수행하며, 속도 제한과 같은 중요한 정보를 처리하는 데 있어 고유한 도전 과제가 있습니다.
  • 복잡한 기하학적 구조와 시각적 폐색이 자동 매칭을 어렵게 만들 수 있으며, 이를 해결하기 위해 인도 데이터를 사용한 GPT-4 미세 조정을 활용하여 이러한 복잡성을 효과적으로 처리할 수 있었습니다.

6. 🔍 데이터 매칭 실험

  • 실험은 소규모의 미세 조정 데이터 세트로 시작되었으며, 거리 수준의 이미지와 지도 타일을 결합하여 진행되었습니다.
  • 화면 상단에는 두 개의 연속적인 지도 뷰가 있으며, 각각의 지도 타일에는 차량의 위치가 빨간 점으로 표시되어 있습니다.
  • 교차로에서의 차량 위치와 교통 표지판의 위치가 각각 빨간 점과 작은 U자로 표시되어 있습니다.
  • 실험의 목표는 차량 위치와 교통 표지판의 정확한 매칭을 통해 데이터의 정밀도를 높이는 것입니다.

OpenAI - OpenAI DevDay 2024 | Community Spotlight | Parloa

마이크는 AI 기술을 활용하여 컨택 센터 자동화를 추진하는 팔로아라는 회사에서 일하고 있습니다. 현재의 컨택 센터는 고객에게 불편한 경험을 제공하는 경우가 많습니다. 팔로아는 고객과의 상호작용을 친구와 대화하는 것처럼 자연스럽고 신뢰할 수 있게 만들고자 합니다. 이를 위해 GPT-4와 같은 오픈 AI 기술을 활용하여 멀티 에이전트 크루와 인간의 개입을 통합하여 안전하게 사용할 수 있도록 하고 있습니다. 팔로아는 AI 에이전트를 통해 인간 에이전트를 보완하고, 고객의 문제를 해결하는 데 중점을 두고 있습니다. AI 에이전트는 고객과의 상호작용을 시뮬레이션하고 평가하여 신뢰성을 확보하며, 이를 통해 고객 서비스의 품질을 향상시키고자 합니다. 또한, AI 에이전트와 인간 에이전트가 협력하여 언어 장벽을 극복하고, 고객과의 상호작용을 보다 효율적으로 처리할 수 있도록 지원합니다. 팔로아는 AI 에이전트 관리 플랫폼을 통해 이러한 과정을 지원하며, 고객 서비스의 미래를 AI 중심으로 전환하고자 합니다.

Key Points:

  • 팔로아는 AI 기술을 활용하여 컨택 센터의 고객 경험을 개선하고자 함.
  • GPT-4와 멀티 에이전트 크루를 활용하여 자연스럽고 신뢰할 수 있는 고객 상호작용을 구현.
  • AI 에이전트는 인간 에이전트를 보완하며, 고객 문제 해결에 중점.
  • AI 에이전트와 인간 에이전트의 협업을 통해 언어 장벽 극복 및 효율적 상호작용 지원.
  • AI 에이전트 관리 플랫폼을 통해 AI 중심의 고객 서비스 전환 추진.

Details:

1. 📞 고객센터 자동화의 필요성

  • AI를 활용한 고객센터 자동화는 고객 경험을 개선할 수 있는 중요한 방법입니다.
  • 현재의 전화 핫라인 시스템은 고객에게 불편함을 줄 수 있으며, 이는 자동화로 개선될 수 있습니다.
  • 고객센터 자동화는 고객이 원하는 서비스를 더 빠르고 효율적으로 제공할 수 있도록 도와줍니다.
  • 예를 들어, AI 챗봇을 통해 고객 문의를 24/7 처리할 수 있으며, 이는 고객 만족도를 30% 이상 향상시킬 수 있습니다.
  • 자동화된 시스템은 평균 대기 시간을 50% 줄여 고객의 불만을 감소시킵니다.

2. 🤖 AI 기술로 고객 경험 개선

  • 고객 센터 산업이 오픈 AI 기술, 특히 GPT 40을 활용하여 단기적으로 어떻게 변화하고 있는지 설명합니다.
  • 멀티 에이전트 크루즈와 인간이 참여하는 통합을 통해 안전하게 AI를 사용할 수 있도록 합니다.
  • GPT 40은 이전 버전보다 더 향상된 자연어 처리 능력을 제공하여 고객 문의에 대한 응답 시간을 30% 단축시킵니다.
  • 멀티 에이전트 시스템은 고객의 복잡한 문제를 더 효과적으로 해결할 수 있도록 지원하며, 이는 고객 만족도를 25% 향상시킵니다.
  • AI와 인간 에이전트의 협업을 통해 고객 경험을 개인화하여 고객 유지율을 20% 증가시킵니다.

3. 🗣️ 인간과 AI의 협력

  • 고객과의 모든 상호작용은 친구와 대화하는 것처럼 쉬워야 한다.
  • 개인 AI 에이전트는 모든 대화를 고유하게 만들어 문제를 해결하는 데 중점을 둔다.
  • 글로벌 컨택 센터에는 다양한 수준에서 일하는 인간 에이전트와 고객 서비스 담당자가 있다.

4. 📱 AI 에이전트의 역할 확대

  • AI 에이전트는 콜센터의 인간 에이전트와 협력하여 업무를 지원할 예정입니다.
  • AI 에이전트 도입은 인간 에이전트를 대체하는 것이 아니라 보완하는 역할을 합니다.
  • AI 에이전트는 고객과의 상호작용을 자동화하여 인간 에이전트의 업무 부담을 줄일 수 있습니다.
  • AI 에이전트를 통해 고객 서비스의 효율성을 높이고, 인간 에이전트가 더 복잡한 문제에 집중할 수 있도록 지원합니다.

5. 🔄 AI 에이전트의 생애 주기 관리

  • AI 에이전트는 다수의 공급업체와 가격 협상을 동시에 진행할 수 있어, 전화 통화량을 관리하는 데 효과적입니다.
  • 인간 에이전트가 모든 시장을 커버할 수 없기 때문에 AI 에이전트가 대안이 될 수 있습니다.
  • AI 에이전트를 안전하고 책임감 있게 생산에 도입하기 위한 새로운 솔루션이 필요합니다.
  • AI 에이전트의 생애 주기 관리에는 초기 개발, 테스트, 배포, 유지보수 및 업그레이드 단계가 포함됩니다.
  • 각 단계에서의 성과 측정 및 피드백 루프가 중요하며, 이는 AI 에이전트의 지속적인 개선을 보장합니다.
  • 실제 사례로, AI 에이전트를 도입한 기업은 고객 응대 시간을 30% 단축하고, 운영 비용을 20% 절감했습니다.

6. 🛠️ AI 에이전트 관리 플랫폼 출시

  • AI 에이전트의 전체 수명 주기를 지원하는 관리 플랫폼을 1년 반 동안 개발하여 9월에 출시함.
  • 플랫폼은 설계 및 통합을 포함하여 생산에 적합한 모든 부분을 포괄하도록 설계됨.
  • 플랫폼의 주요 기능으로는 AI 에이전트의 설계, 배포, 모니터링 및 최적화가 포함됨.
  • 이 플랫폼은 기업이 AI 에이전트를 보다 효율적으로 관리하고 운영할 수 있도록 지원함.
  • 사용자 피드백을 통해 플랫폼의 사용 편의성과 기능성이 크게 향상됨.

7. 🧩 설계 및 통합의 중요성

  • AI 에이전트를 설계할 때 자연어 브리핑을 통해 프롬프트를 설정하고, 외부 세계와 상호작용하기 위해 서드파티 도구와 통합하는 것이 중요합니다.
  • 정보를 가져오고 데이터를 시스템에 다시 넣는 작업을 통해 통합을 강화해야 합니다.
  • 테스트의 중요성이 강조되며, 기존의 IVR 세계에서의 테스트 방식과 달리 비결정론적 환경에서의 새로운 접근 방식이 필요합니다.
  • 의도 분류 및 자연어 처리에서 단어를 의도로 변환하고 경로를 탐색하는 기존 방식에서 벗어나야 합니다.
  • 구체적인 서드파티 도구 통합 예시로는 CRM 시스템과의 연동이 있으며, 이를 통해 고객 데이터를 실시간으로 업데이트할 수 있습니다.
  • 비결정론적 환경에서의 테스트는 다양한 시나리오를 통해 AI의 반응을 평가하는 방식으로 진행됩니다.

8. 🔍 시뮬레이션과 평가

  • 고객 서비스 센터에서 대량의 통화량을 처리하기 위해 대규모 언어 모델을 활용해야 함
  • 통화량의 급증을 효과적으로 관리하기 위해 시뮬레이션과 평가가 필요함
  • 효과적인 KPI와 정량적 데이터를 도출하여 무엇이 작동하는지 평가
  • AI 에이전트의 자율성을 높이기 위해 지속적인 모니터링과 개선이 필요함

9. 🧑‍💼 다중 에이전트 프롬프트 엔지니어링

  • AI 에이전트를 구축할 때 자연어 브리핑을 사용하여 인간 에이전트가 첫날 업무를 시작할 때와 유사한 방식으로 설계 및 통합을 진행합니다.
  • 자연어를 사용하여 프로그래밍 없이 경험을 구축할 수 있어 주제 전문가들이 AI 에이전트 작업을 더 쉽게 수행할 수 있습니다.
  • 프롬프트 엔지니어링은 자체적으로 과학이며, 가까운 미래에 더 쉬워지지 않을 것입니다.
  • 다중 에이전트 시스템에서는 각 에이전트가 특정 역할을 수행하며, 이 역할은 자연어로 정의됩니다.
  • 효과적인 프롬프트 엔지니어링을 위해서는 명확한 목표 설정과 지속적인 피드백 루프가 필요합니다.
  • 자연어 브리핑은 에이전트 간의 원활한 협업을 촉진하며, 이를 통해 복잡한 문제 해결이 가능합니다.

10. 👥 협업을 통한 AI 에이전트 개발

  • 팔로아에서는 초기 단계에서 제로에서 일로 나아가는 것을 지원하기 위해 다중 에이전트 프롬프트 엔지니어링 팀을 구성하여 대화형 디자이너를 지원합니다.
  • 자율적인 GPT-4 기반 에이전트를 사용하여 팀의 역할을 복제하고 전체 프로세스를 수행합니다.
  • 고객 성공 부사장이 다양한 작업 스트림을 탐색하고 솔루션 엔지니어와 CX 디자이너가 협력하여 시스템 통합 및 대화 전략을 최적화합니다.
  • 매니저는 목표 달성을 위해 최선의 관행과 프롬프트 예제를 활용하여 팀의 협업을 조율합니다.

11. 🔄 반복적 개선과 시뮬레이션

  • 대화형 에이전트 설계자는 초기 설계에서 누락된 사항이나 고려하지 않은 사용 사례에 대해 개선을 지시해야 함.
  • 첫 번째 설계 초안이 만족스러울 경우 시뮬레이션과 평가를 통해 기술적 세부사항을 검토해야 함.
  • 전통적인 프롬프트와 다른 구성 구조를 사용하여 특정 사용 사례에 맞춘 지원 필요.
  • 텔레폰 전환과 같은 특정 사용 사례에서 인간 에이전트로의 전환을 지원하기 위한 도구 필요.

12. 📊 고객 페르소나 시뮬레이션

  • 고객 페르소나 시뮬레이션은 복잡한 매개변수 설명을 필요로 하며, 제3자 도구에 미터 정보를 전달하는 것이 포함됩니다.
  • 솔루션 엔지니어들이 쉽게 협업할 수 있도록 YL 방식의 설명을 채택했습니다.
  • Crew AI 프레임워크를 기반으로 하여 사용성과 개발자 경험을 향상시켰습니다.
  • CX 또는 솔루션 엔지니어링 팀의 참여를 통해 프로세스를 개선할 수 있습니다.
  • 생성된 브리핑의 신뢰성을 테스트하기 위해 시뮬레이션과 평가가 필요합니다.

13. 🖥️ UI를 통한 시뮬레이션 관리

  • AI 에이전트 구성과 실제 고객 대화를 기반으로 시뮬레이션을 수행하여 다양한 고객 페르소나를 도출합니다.
  • 콜센터와 협력하여 현장 실제 사용 사례의 샘플 데이터를 활용합니다.
  • 화난 고객, 어린이, 노인 등 다양한 페르소나를 시뮬레이션하여 AI 에이전트가 다양한 고객을 처리할 수 있도록 합니다.
  • 모든 대화는 콜센터 특정 평가 기준으로 평가되며, 이를 통해 대화 디자이너에게 개선 인사이트를 제공합니다.
  • UI를 통해 복잡성을 추상화하여 고객이 쉽게 사용할 수 있도록 합니다.
  • UI는 시뮬레이션 관리의 복잡성을 줄이고, 사용자 친화적인 인터페이스를 제공하여 시뮬레이션 설정 및 결과 분석을 용이하게 합니다.
  • 평가 결과는 대화 디자이너에게 피드백으로 제공되어 지속적인 개선을 지원합니다.

14. 🔍 평가 기준과 신뢰성 테스트

  • 시뮬레이션을 쉽게 실행하여 테스트할 페르소나를 구성하고, 몇 번의 반복을 수행할지, 몇 번의 시뮬레이션을 실행할지를 설정할 수 있습니다.
  • 수천 번의 대화를 실행하여 대형 언어 모델의 신뢰성을 적절히 정량화하고, 생산 사용 사례에 안전하게 사용할 수 있도록 보장합니다.
  • 평가 기준은 기술적 정확성의 혼합으로, 소프트웨어 엔지니어링에서의 엔드투엔드 통합 테스트와 유사합니다.
  • API 오류를 테스트할 수 있으며, 때로는 AI 에이전트가 아닌 고객의 API가 잘못된 응답을 보내거나 적절히 반응하지 않는 경우도 있습니다.
  • 언어 행동 자체를 평가하여 대화를 어떻게 처리하는지, 예를 들어 기업 용어를 적절히 사용하는지, 경쟁사를 추천하는지 등을 확인합니다.
  • 준수해야 할 모든 사항을 확인하여 해당 기준을 통과하거나 실패할 수 있도록 보장합니다.

15. 👥 인간과 AI의 협력적 대화

  • 팔로아(Paloa)는 AI 에이전트와 인간 에이전트를 통합한 솔루션을 개발하여, 완전 자동화가 불가능한 대화를 처리합니다.
  • 고객과 인간 에이전트는 서로의 목소리를 듣지 않으며, 인간 에이전트는 실시간으로 전사된 대화를 인터페이스를 통해 확인합니다.
  • AI 에이전트는 적절한 응답을 제안하며, 인간 에이전트는 제안된 응답을 선택하거나 직접 통화에 참여할 수 있습니다.
  • 인간 에이전트의 발언도 전사되어 AI 에이전트의 JML 컨텍스트에 반영됩니다.
  • 이 시스템은 언어 장벽을 극복할 수 있는 부가적인 효과를 제공합니다.

16. 🌐 언어 장벽을 넘는 AI

  • 스웨덴 고객이 독일 상담원과 소통할 수 있는 언어 비중립적 AI 시스템 도입
  • 대형 언어 모델을 활용하여 프로세스 가속화 및 지연 최소화
  • 생성 AI 사용에 대한 고객의 우려를 인간 상담원의 감독으로 해결
  • 과거 IVR 시스템에서 AI 전환 단계로의 변화
  • 자연어 처리 기반 규칙 기반 AI 에이전트의 등장
  • 자율 AI 에이전트가 점점 더 많은 작업을 수행하며 IVR 솔루션 대체

17. 🔮 AI 중심의 미래 고객센터

  • AI가 주도하는 고객센터 시대가 도래하고 있으며, 이는 Sam Altman이 Lex Freedman과의 팟캐스트에서 예측한 바와 같이 고객센터 산업이 AI에 의해 완전히 변화될 가능성이 높다는 점을 보여준다.
  • 현재 전 세계적으로 콜센터와 고객센터에 AI 솔루션이 도입되고 있으며, 향후 더 발전된 모델과 자율성, 그리고 타사 시스템과의 연결성이 강화될 것이다.
  • 고객의 문의를 완전히 자율적으로 처리하고, 시스템과의 통합을 통해 전체 프로세스를 자동화하는 자율 에이전트가 등장할 것이다.
  • 인간 에이전트는 AI 코치나 감독자로 승진하여 AI 에이전트가 효과적으로 업무를 수행할 수 있도록 지원하는 역할을 맡게 될 것이다.

18. 🌟 AI 에이전트의 사회적 가치

  • 미래에는 모든 고객에게 개인 AI 에이전트를 제공하는 것이 목표입니다.
  • 대규모 언어 모델이 사회와 인류에 긍정적인 영향을 미칠 수 있음을 증명해야 합니다.
  • 다가오는 조직 변화에 대비하고 모두가 적응할 수 있도록 돕는 것이 중요합니다.
  • AI 에이전트는 교육, 의료, 고객 서비스 등 다양한 분야에서 개인화된 지원을 제공하여 효율성을 높일 수 있습니다.
  • AI 기술의 발전은 새로운 직업 창출과 기존 직업의 변화를 가져올 수 있으며, 이에 대한 준비가 필요합니다.
  • 사회적 가치 실현을 위해 AI 에이전트의 윤리적 사용과 데이터 프라이버시 보호가 필수적입니다.

OpenAI - OpenAI DevDay 2024 | Community Spotlight | Amperity

Amperity는 고객 데이터를 통합하여 브랜드가 고객 데이터를 더 잘 이해할 수 있도록 돕는 플랫폼입니다. 이들은 OpenAI의 모델을 기반으로 AmpAI라는 도구를 개발하여 비기술 사용자도 자연어를 통해 SQL을 생성할 수 있도록 지원합니다. AmpAI는 다양한 브랜드와 산업에 걸쳐 작동해야 하며, 이를 위해 데이터베이스 테이블과 필드에 대한 정보를 수집하여 SQL을 생성합니다. AmpAI는 고객의 고유한 규칙을 인코딩하여 시각화를 구축하고 출력을 맞춤화할 수 있습니다. 이 도구는 고객 유지에 중점을 두고 있으며, 고객의 고유한 요구에 맞춰 데이터를 분석할 수 있도록 설계되었습니다. AmpAI의 도입으로 Amperity의 쿼리 사용량이 130% 증가하는 등 고객에게 큰 영향을 미쳤습니다.

Key Points:

  • Amperity는 고객 데이터를 통합하여 브랜드가 데이터를 더 잘 이해할 수 있도록 돕습니다.
  • AmpAI는 비기술 사용자도 자연어로 SQL을 생성할 수 있게 지원합니다.
  • AmpAI는 다양한 산업과 브랜드에 걸쳐 작동하며, 데이터베이스 테이블과 필드 정보를 수집합니다.
  • AmpAI 도입 후 Amperity의 쿼리 사용량이 130% 증가했습니다.
  • AmpAI는 고객의 고유한 규칙을 인코딩하여 시각화를 구축하고 출력을 맞춤화할 수 있습니다.

Details:

1. 🎉 환영 인사와 Amperity 소개

  • Amperity는 고객 데이터 클라우드로, 세계 최대 브랜드의 고객 데이터를 통합하고 중앙 집중화합니다.
  • Amperity의 플랫폼은 고객 데이터를 수집, 정리, 분석하여 기업이 고객에 대한 깊은 통찰을 얻을 수 있도록 지원합니다.
  • 이를 통해 기업은 고객 경험을 개인화하고, 마케팅 전략을 최적화하며, 고객 유지율을 높일 수 있습니다.
  • Amperity는 AI와 머신러닝을 활용하여 데이터의 정확성과 효율성을 극대화합니다.

2. 🔍 고객 데이터의 복잡성 이해

  • OpenAI 모델은 브랜드가 복잡한 고객 데이터를 효과적으로 분석하고 이해할 수 있도록 지원합니다.
  • Acme Retail의 마케터 Lauren은 연말 시즌 동안 고객 유지에 집중하기 위해 OpenAI 모델을 활용하여 고객 데이터를 분석했습니다.
  • 이 접근 방식은 고객 세분화 및 맞춤형 마케팅 전략 개발에 중요한 통찰력을 제공했습니다.

3. 🤔 고객 데이터 통합의 어려움

3.1. 고객 데이터 통합의 어려움

3.2. Amperity를 통한 해결책

4. 💡 AmpAI: 비기술 사용자를 위한 도구

  • Acme Retail은 수백 개의 서로 다른 데이터베이스 테이블을 보유할 수 있으며, 이는 비기술 사용자가 데이터를 효과적으로 활용하기 어렵게 만듭니다.
  • AmpAI는 자연어를 SQL로 변환하는 도구로, 비기술 사용자를 위해 설계되었습니다.
  • AmpAI는 브랜드가 시각화를 구축하고 고객에 대한 고유한 규칙을 인코딩하여 출력을 맞춤화할 수 있도록 지원합니다.
  • AmpAI를 사용하여 비기술 사용자는 데이터베이스 쿼리를 쉽게 생성하고, 데이터 분석 시간을 50% 단축할 수 있습니다.
  • Acme Retail은 AmpAI를 통해 고객 행동 분석을 개선하여 매출을 30% 증가시켰습니다.

5. 🌐 다양한 산업에서의 AmpAI 적용

  • AmpAI는 다양한 산업에서 적용 가능하며, 각 산업의 특성에 맞춰 조정이 필요하다.
  • 금융 기관에서는 주택 대출 신청자 분석에 AmpAI를 활용할 수 있다.
  • 항공사는 신용카드 가입 추세를 분석하기 위해 AmpAI를 사용할 수 있다.
  • B2C 브랜드는 광고 성과 분석에 AmpAI를 활용할 수 있다.
  • AmpAI는 Amperity가 서비스하는 수백 개의 브랜드와 5개 이상의 산업 분야에서 작동해야 한다.
  • 소매업에서는 고객 구매 패턴을 분석하여 맞춤형 마케팅 전략을 수립할 수 있다.
  • 의료 산업에서는 환자 데이터 분석을 통해 치료 계획을 최적화할 수 있다.

6. 🧩 AmpAI의 주요 도전 과제

  • AmpAI는 사용자의 질문에 답하고 자연어에서 SQL을 생성하기 위해 데이터베이스 테이블, 필드, 필드 내 값에 대한 정보를 필요로 한다.
  • AmpAI는 수백 가지의 비표준 스키마를 처리해야 하며, 이는 매우 어려운 과제이다.
  • 데이터는 매일 변경될 수 있어 AmpAI의 작업에 추가적인 복잡성을 더한다.
  • AmpAI는 이러한 도전 과제를 해결하기 위해 지속적인 데이터 업데이트와 스키마 적응 전략을 사용하고 있다.
  • 비표준 스키마를 효과적으로 처리하기 위해 기계 학습 알고리즘을 활용하여 패턴을 인식하고 적응한다.

7. 🔧 AmpAI의 컨텍스트 관리 접근법

  • AmpAI는 다양한 브랜드와 수직 시장의 여러 스키마에 대응하기 위해 RAG 접근법을 채택했습니다.
  • SQL 생성 단계 이전에 두 가지 연구 단계를 추가하여 벡터 DB나 임베딩을 사용하지 않았습니다.
  • 사용자의 질문과 데이터베이스 스키마를 GPT-4o를 사용하여 SQL 생성 단계로 전달했습니다.
  • Amperity의 내부 쿼리 엔진을 사용하여 SQL을 실행했습니다.
  • '고객 중 고가치 고객 수'와 같은 질문에 대해 GPT-4o는 특정 비즈니스나 브랜드의 맥락을 이해하지 못해 정확한 답변을 제공하지 못했습니다.

8. 🛠️ SQL 생성 과정의 개선

  • GPT-4o를 사용하여 상위 5개 테이블을 순위화하고 샘플을 추출하는 중간 단계를 도입하여 사용자의 질문과 데이터베이스 스키마를 처리함.
  • Customer360 테이블과 Unified Loyalty 테이블을 포함하여 상위 테이블을 Amperity의 내부 쿼리 엔진에 전달하여 행 샘플을 얻음.
  • SQL 생성 단계에 전달된 샘플에 플래티넘과 골드가 포함되지 않아 추가 연구 단계가 필요함을 인식함.
  • 가장 중요한 필드의 고유 값을 얻기 위해 추가 연구 단계를 추가함. 이 필드는 Customer360 테이블의 'pclv tier'로 식별됨.
  • Amperity의 내부 쿼리 엔진을 통해 해당 필드의 고유 값을 얻고 샘플링하여 최종 SQL 생성 단계에 전달함.
  • 최종적으로 플래티넘과 골드가 포함된 고유 값이 최종 SQL 생성 단계에 전달되어 예측된 고객 생애 가치 등급이 골드 및/또는 플래티넘이어야 함을 확인함.

9. 📊 AmpAI의 전체 아키텍처 요약

  • 첫 번째 연구 단계에서는 사용자의 질문과 데이터베이스 스키마를 기반으로 상위 5개의 테이블을 순위화하고, 각 테이블에서 행 샘플을 가져옵니다. 이는 데이터베이스 내에서 관련성을 평가하는 초기 단계입니다.
  • 두 번째 연구 단계에서는 가장 중요한 필드를 식별하고, 해당 필드에서 고유한 값을 샘플링합니다. 이 단계는 데이터의 세부적인 분석을 통해 더 깊은 통찰을 얻기 위한 것입니다.
  • 모든 수집된 컨텍스트는 SQL 생성 단계로 전달되며, Amperity 내에서 SQL을 실행하여 최종 결과를 도출합니다. 이 과정은 데이터 기반의 의사결정을 지원하는 데 중점을 둡니다.

10. 🖥️ AmpAI의 실제 데모

  • AmpAI는 고객 생애 가치 예측을 통해 플래티넘 및 골드 등급의 고객을 식별하여 약 414,000명의 고가치 고객을 확인했습니다.
  • Acme Retail의 10가지 제품 분류 체계를 분석하여 고가치 고객이 주로 구매하는 제품을 식별했습니다.
  • 고가치 고객은 주로 신발, 상의 및 티셔츠, 청바지를 휴일에 구매하는 경향이 있습니다.

11. 📈 AmpAI의 고객 영향력 및 성과

11.1. AmpAI의 고객 영향력

11.2. AmpAI의 기술적 도전 과제

OpenAI - OpenAI DevDay 2024 | OpenAI Research

o1 모델은 강화 학습을 통해 사고 전략을 개선하고 실수를 인식하여 수정하는 능력을 갖추고 있습니다. 이는 매우 어려운 문제를 해결할 때 유용하며, 실패한 전략도 다음 시도에 대한 힌트를 제공할 수 있습니다. o1은 특히 수학 및 코드 문제에서 뛰어난 성능을 보이며, GPT-4o와 비교하여 더 많은 문제를 해결할 수 있습니다. o1-preview와 o1-mini는 각각 특정 용도에 맞게 최적화되어 있으며, o1-mini는 빠르고 저렴한 수학 및 코딩 작업에 적합합니다. o1 모델은 의료 진단 정확성 검출, 코딩, 하드 사이언스 연구 등 다양한 분야에서 활용될 수 있습니다.

Key Points:

  • o1 모델은 강화 학습을 통해 사고 전략을 개선합니다.
  • o1은 수학 및 코드 문제에서 GPT-4o보다 뛰어난 성능을 보입니다.
  • o1-mini는 빠르고 저렴한 수학 및 코딩 작업에 적합합니다.
  • o1 모델은 의료 진단 정확성 검출 등 다양한 분야에 활용됩니다.
  • o1-preview와 o1-mini는 각각 특정 용도에 맞게 최적화되어 있습니다.

Details:

1. 🔍 O1 모델 소개

  • O1 모델은 다양한 구축 방법을 제공하며, 이를 통해 사용자 맞춤형 솔루션을 개발할 수 있습니다.
  • 모델의 주요 특징으로는 유연한 아키텍처와 확장성이 있으며, 이는 다양한 산업에 적용 가능합니다.
  • 구체적인 예로, O1 모델을 활용한 프로젝트에서 개발 주기가 6개월에서 8주로 단축되었습니다.
  • 또한, 고객 세분화를 통해 매출이 45% 증가한 사례가 있습니다.
  • 이 모델은 특히 데이터 분석과 인공지능 분야에서 강력한 도구로 활용될 수 있습니다.

2. 🧠 강화 학습과 사고 전략

  • o1 모델은 사고 모델로, 강화 학습을 통해 사고하는 법을 훈련받습니다.
  • 훈련 단계에서 o1은 사고 전략을 정제하고 실수를 인식하여 수정하는 법을 배웁니다.
  • o1 모델은 다양한 시나리오에서 사고 전략을 테스트하며, 실수를 통해 학습을 강화합니다.
  • 강화 학습 과정에서 o1은 피드백을 통해 사고 전략을 지속적으로 개선합니다.

3. 🔄 문제 해결 과정

  • o1은 매우 어려운 문제를 해결하려고 시도할 때, 한 번에 작동하는 전략에 도달하지 못할 수 있습니다.
  • 비록 성공적이지 않더라도 전략을 시도함으로써 다음에 시도할 것에 대한 단서를 얻을 수 있습니다.
  • o1은 이러한 과정을 통해 결국 더 나은 전략에 도달합니다.
  • 이는 매우 인내심이 필요하며, 매우 다른 유형의 모델입니다.

4. 🌟 새로운 패러다임의 등장

  • o1 프리뷰 출시 후, 실제 사고의 흐름을 보여주는 예시를 제시함.
  • 모델이 암호문을 해독하려는 과정에서 현재의 사고 전략이 효과적이지 않음을 인식하고 다른 접근 방식을 시도함.
  • 모델이 더 나은 접근 방식을 인식하고 이를 테스트하여 더 정확한 결과에 도달함.
  • 모델의 행동이 매우 달라졌으며, 이는 o1이 새로운 패러다임을 대표한다고 믿게 만듦.
  • 이전 패러다임에서는 고정된 전략을 사용했으나, 새로운 패러다임에서는 유연한 사고와 적응력이 강조됨.
  • 새로운 접근 방식은 문제 해결의 정확성을 30% 향상시킴.

5. 🔮 미래의 가능성 탐색

  • 새로운 패러다임은 많은 것을 변화시켜 새로운 관점을 가져야 한다고 강조합니다.
  • 현재와 미래의 모델을 비교하여 무엇이 가능해졌는지, 앞으로 무엇이 가능해질지를 고민해야 합니다.
  • 특정 도메인에 따라 답변이 다를 수 있지만, 이러한 질문을 통해 미래 모델을 염두에 두고 구축하는 사고방식을 가질 수 있습니다.
  • o1 패러다임은 이전의 패러다임보다 단순하며, 추론 모델로서 더 나은 사고를 가능하게 합니다.
  • 예를 들어, AI 기술의 발전은 의료 분야에서 진단의 정확성을 30% 향상시켰습니다.
  • 또한, 금융 분야에서는 리스크 관리의 효율성을 25% 증가시켰습니다.

6. 🤔 새로운 사고 방식의 필요성

  • 추론 능력이 현재보다 50% 향상된다면 무엇을 구축하고 싶은지 고려해야 합니다. 예를 들어, AI 기반의 고객 세분화 도구를 통해 매출이 45% 증가할 수 있습니다.
  • 추론 능력이 50% 향상될 경우 구축하지 말아야 할 것에 대해서도 생각해야 합니다. 예를 들어, 기존의 복잡한 문제 해결 방식이 더 이상 필요하지 않을 수 있습니다.
  • 모델이 일반적으로 더 스마트해짐에 따라 과거에 어렵다고 생각했던 문제들이 쉽게 해결될 수 있습니다. 예를 들어, 제품 개발 주기가 6개월에서 8주로 단축될 수 있습니다.
  • 추론 능력이 지속적으로 향상될 것이라고 믿는다면 해결하지 말아야 할 문제에 대해서도 고민해야 합니다. 예를 들어, 고객 유지율이 32% 개선될 수 있는 개인화된 참여 전략을 고려할 수 있습니다.
  • 새로운 패러다임에서 작업하는 것이 유용할 수 있으며, 이전 패러다임에 익숙해져 있어 어려움을 겪을 수 있습니다. 새로운 추론 패러다임으로 구축하는 방법에 대한 관심을 불러일으키기를 바랍니다.

7. 📊 O1 모델의 평가 및 비교

  • O1 모델은 매우 어려운 수학 및 코드 문제에 적합하다.
  • AIME(수학 경시대회)와 Codeforces(프로그래밍 대회)에서 O1 모델은 대부분의 문제를 해결할 수 있다.
  • GPT-4o와 o1-preview는 이러한 벤치마크에서 몇 가지 질문만 해결할 수 있다.
  • o1-preview는 절반 이상의 문제를 해결할 수 있으며, O1 모델은 데이터 세트의 대다수 문제를 해결할 수 있다.
  • GPT-4o는 특정 작업에서 어려움을 겪고 있으며, O1 모델은 대다수 문제를 해결할 수 있다.
  • O1 모델은 GPT-4o와 o1-preview에 비해 더 높은 문제 해결 능력을 보여준다.

8. 📈 성능 향상 및 사용 사례

8.1. 성능 향상

8.2. 사용 사례

9. 💡 O1 미니와 O1 프리뷰의 선택

  • O1-mini는 O1-preview보다 성능이 뛰어나다. 이는 O1-mini가 수학 및 코딩과 같은 작업에서 빠르고 성능이 좋은 모델로 특화되었기 때문이다.
  • X축은 추론 비용을, Y축은 AIME(경쟁 수학)에서의 성능을 나타내는 그래프에서 O1-mini가 O1-preview보다 우수한 성능을 보인다.
  • 수학이나 코딩 작업을 수행하거나 더 빠르고 저렴한 답변이 필요한 경우 O1-mini를 사용하는 것이 좋다.

10. 🔧 O1 모델의 실제 활용 사례

  • o1-preview는 의료 진단의 정확성 검출에 효과적입니다. 주어진 정보와 진단을 바탕으로 올바른 진단인지 여부를 감지합니다.
  • 코딩 분야에서도 o1-preview는 뛰어난 성능을 발휘합니다. 특히 Cursor와 같은 사용 사례에서 우수한 성과를 보입니다.
  • o1-preview는 하드 사이언스 연구에서도 강력한 성능을 발휘합니다.
  • 이 모델들은 수학 문제나 법률 도메인 추론에서 브레인스토밍 파트너로서 유용하다는 평가를 받았습니다.

OpenAI - OpenAI DevDay 2024 | Fireside chat with Sam Altman and Kevin Weil

OpenAI의 제품 개발 책임자인 Kevin Weil과 CEO Sam Altman은 AGI(인공지능 일반)의 진전에 대해 논의합니다. Altman은 AGI가 점진적으로 발전할 것이며, 현재는 레벨 2에 도달했다고 설명합니다. 그는 AGI가 과학적 발견의 속도를 증가시키는 데 중요한 역할을 할 것이라고 믿습니다. OpenAI는 연구와 제품 개발을 결합하여 안전한 AGI를 구축하는 데 중점을 두고 있으며, 연구가 여전히 핵심이라고 강조합니다. 또한, AI 에이전트의 발전과 안전성, 정렬 문제에 대해 논의하며, AI가 더 복잡한 작업을 수행할 수 있도록 하는 것이 목표라고 설명합니다. OpenAI는 정부와의 협력을 통해 AI 기술을 활용하여 사회적 문제를 해결하는 데 기여하고자 하며, 오픈 소스에 대한 긍정적인 입장을 가지고 있습니다. 마지막으로, AI의 발전이 사용자 경험을 어떻게 변화시킬지에 대한 비전을 공유합니다.

Key Points:

  • OpenAI는 AGI의 점진적 발전을 추구하며, 현재 레벨 2에 도달했다고 평가합니다.
  • 연구와 제품 개발의 결합을 통해 안전한 AGI 구축을 목표로 합니다.
  • AI 에이전트의 발전과 안전성, 정렬 문제 해결에 중점을 둡니다.
  • 정부와의 협력을 통해 AI 기술로 사회적 문제 해결을 도모합니다.
  • 오픈 소스에 긍정적이며, AI의 사용자 경험 변화를 예측합니다.

Details:

1. 👋 오프닝 및 소개

  • 행사 시작과 함께 청중의 환호와 박수 소리가 들림
  • 발표자가 청중에게 인사하며 감사의 인사를 전함
  • 발표자는 행사에 대한 간략한 개요를 제공하며, 참석자들에게 기대할 수 있는 주요 주제와 발표자들을 소개함

2. 🔍 제품과 통합에 대한 기대

  • OpenAI의 제품 책임자인 Kevin Weil은 연구팀의 연구를 일상적으로 사용하는 제품과 API로 전환하는 역할을 맡고 있다.
  • 청중 참여를 유도하기 위해 오늘 발표된 것 중 가장 먼저 통합하고 싶은 것을 물어보았다.
  • Kevin Weil은 OpenAI의 연구를 실질적인 제품으로 전환하는 데 중점을 두고 있으며, 이는 사용자 경험을 크게 향상시킬 수 있는 잠재력을 가지고 있다.
  • 청중의 피드백을 통해 어떤 기능이 가장 우선적으로 통합되어야 하는지를 파악하고자 한다.
  • 이러한 통합은 OpenAI의 기술을 더 널리 사용 가능하게 하고, 다양한 산업에서의 활용을 촉진할 수 있다.

3. 🤔 AGI와 연구의 중요성

3.1. AGI의 정의와 접근

3.2. AGI 발전의 속도

3.3. 연구와 제품 개발의 관계

3.4. 제품 개발의 독특성

3.5. 안전성과 정렬

3.6. 에이전트와 미래의 도전

4. 🚀 에이전트와 미래 기술의 발전

4.1. AI 모델의 경계 찾기

4.2. 기술과 스타트업의 관계

4.3. 음성 모드와 윤리적 사용

4.4. o1 모델의 발전 계획

5. 🔧 제품 개발과 연구의 균형

  • 구글의 NotebookLM은 경쟁사의 기능 중에서도 주목받고 있으며, 이는 새로운 제품 개발의 중요성을 강조합니다.
  • Anthropic의 Projects는 GPTs와 유사하지만, 일시적으로 사용되는 점에서 차별화되어 있으며, 이는 다른 사고방식을 요구합니다.
  • OpenAI는 매주 2억 명 이상의 사용자를 지원하며, 현재의 필요를 해결하는 동시에 미래의 기능을 개발하는 균형을 유지해야 합니다.
  • 대부분의 사람들이 AI 제품을 사용해본 적이 없으며, 이들에게 AI의 잠재력을 교육하는 것이 중요합니다.
  • ChatGPT와 같은 AI 도구의 사용법을 사용자에게 교육하는 것이 도전 과제이며, 모델의 빠른 발전 속도에 맞춰 사용자 경험을 개선해야 합니다.
  • 모델 지능을 지속적으로 향상시키면 사용자가 이를 통해 놀라운 일을 할 수 있을 것이라고 믿습니다.

6. 🛠️ 내부 도구와 에이전트 활용

  • 모델을 훈련이 완료되기 전에도 사용하여 기능을 탐색하고 개발 및 연구에 활용함으로써 창의적인 사용 사례를 발견함.
  • 고객 서비스 팀의 규모가 내부 봇 덕분에 20% 정도로 줄어들었으며, 이는 외부 질문에 답변하고 내부 질문을 처리하는 데 도움을 줌.
  • 보안 팀에서는 모델을 활용하여 수동 프로세스를 자동화하고, 신호와 잡음을 구분하여 중요한 부분을 강조함으로써 보안 효율성을 높임.
  • 내부적으로 여러 모델을 연결하여 하나의 종단 간 프로세스를 구축함으로써 개별 모델의 결함에도 불구하고 높은 성과를 달성함.

7. 🌐 오픈소스와 정부 협력

7.1. 오프라인 모델 및 오픈소스 계획

7.2. 정부와의 협력

8. 🎤 음성 모드와 미래 인터페이스

8.1. 음성 모드의 법적 문제와 출시 계획

8.2. 미래의 컨텍스트 윈도우와 정보 검색

8.3. 새로운 참여 계층과 기술의 비전

8.4. 미래의 인터페이스와 상호작용

9. 👏 마무리 및 감사 인사

  • 행사 종료 시점에 적절한 질문이 제기되었으며, 참석자들에게 감사 인사를 전함.
  • 참석자들이 앞으로 어떤 것을 구축할지 기대하고 있음.

OpenAI - OpenAI DevDay 2024 | Community Spotlight | Tortus

타우리스의 연구 엔지니어인 니나는 임상 환경에서 LLM을 활용하여 의사들이 컴퓨터 작업에 소요되는 시간을 줄이고, 임상 문서화를 자동화하여 효율성을 높이는 방법을 설명합니다. 의사들은 컴퓨터 작업에 많은 시간을 소비하며, 이는 번아웃의 주요 원인 중 하나입니다. 타우리스는 이러한 문제를 해결하기 위해 LLM을 활용하여 의사들이 환자와의 상담 내용을 자동으로 문서화하고, 전자 건강 기록 시스템에 저장할 수 있도록 합니다. 이를 통해 의사들은 본연의 업무에 더 집중할 수 있습니다. 타우리스는 복잡한 워크플로우를 작은 블록으로 나누어 의사들이 직접 워크플로우를 설계하고 공유할 수 있는 플랫폼을 개발했습니다. 이를 통해 의사들은 개발자와의 반복적인 협업 없이도 필요한 워크플로우를 빠르게 설계하고 실험할 수 있습니다. 또한, 실험을 통해 생성된 데이터를 기반으로 LLM의 오류를 최소화하고, 임상 안전성을 평가하여 제품의 신뢰성을 높입니다. 이러한 접근 방식은 의사들의 만족도를 높이고, 새로운 모델과 아키텍처를 빠르게 도입할 수 있게 합니다.

Key Points:

  • LLM을 활용하여 의사들의 컴퓨터 작업 시간을 줄이고 번아웃을 예방합니다.
  • 타우리스는 의사들이 직접 워크플로우를 설계할 수 있는 플랫폼을 개발했습니다.
  • 임상 문서화를 자동화하여 의사들이 본연의 업무에 집중할 수 있도록 지원합니다.
  • 실험을 통해 LLM의 오류를 최소화하고 임상 안전성을 평가합니다.
  • 의사들의 만족도를 높이고 새로운 모델을 빠르게 도입할 수 있게 합니다.

Details:

1. 🔍 임상 응용에서의 LLM 평가 여정

  • 임상 환경에서 LLM의 평가를 통해 얻은 주요 통찰력을 공유합니다.
  • LLM의 임상 적용 가능성을 검토하여 실질적인 개선 방안을 모색합니다.
  • 임상 데이터와 LLM의 상호작용을 분석하여 성능 지표를 도출합니다.
  • 구체적인 사례 연구를 통해 LLM의 임상 적용 효과를 검증합니다.
  • LLM 평가 과정에서 발견된 문제점과 해결책을 제시합니다.

2. ⏱️ 의사들의 시간 절약과 번아웃 문제

  • 의사들이 LLM 기반 애플리케이션 Toris를 사용할 때마다 7분의 시간을 절약할 수 있습니다.
  • 의사들의 업무 시간 중 최대 60%가 데이터 입력 및 주문 작성과 같은 컴퓨터 작업에 사용됩니다.
  • 일반적인 근무 교대 시 평균적으로 4,000번의 클릭이 필요합니다.
  • 53%의 의사들이 번아웃을 경험하고 있으며, 컴퓨터 사용이 주요 원인 중 하나입니다.

3. 📝 Toris의 작동 방식과 임상 오류

3.1. Toris의 기능

3.2. 임상 오류와 주의사항

4. ⚙️ 임상 전문가와의 협업 및 워크플로우 설계

  • 임상 전문가를 중심으로 워크플로우를 설계하고 평가하는 것이 중요하다. 이는 임상적 안전성을 보장하기 위한 필수적인 단계이다.
  • 개발자와 임상 전문가가 함께 반복적인 작업을 통해 최적의 솔루션을 도출한다. 이 과정에서 개발자는 기술적 구현을 담당하고, 임상 전문가는 임상적 요구사항을 제시한다.
  • 임상적으로 안전한 결과물을 보장하기 위해 엄격한 준수 요구사항이 있으며, 이를 충족하기 위해 지속적인 검토와 피드백이 필요하다.
  • 개발자와의 반복적인 작업이 프로세스를 느리게 만드는 주요 요인이지만, 이는 최적의 결과물을 도출하기 위한 필수적인 과정이다.
  • 임상 전문가가 주도권을 가질 수 있도록 복잡한 워크플로우를 작은 단계로 나누는 플랫폼을 개발했다. 이를 통해 임상 전문가가 보다 쉽게 워크플로우를 관리하고 조정할 수 있다.

5. 🔗 블록 기반 플랫폼과 워크플로우 구성

  • LM 워크플로우의 핵심은 건축 블록으로, 임상의와 엔지니어가 동일한 언어로 소통할 수 있도록 설계되었습니다.
  • 블록은 주로 의료 전사문을 입력으로 사용하며, 출력은 구조화된 출력 여부와 같은 모델 구성에 따라 달라집니다.
  • 임상의들이 블록을 공유하고 재사용할 수 있도록 데이터베이스에 저장하며, 각 블록은 고유한 블록 ID로 식별됩니다.
  • 블록 ID는 파라미터 변경 시 새로운 ID가 생성되며, 다른 임상의가 데이터베이스에서 블록을 가져올 수 있습니다.
  • 블록 간의 연결은 이전 블록의 블록 ID를 다음 블록의 입력으로 사용하여 명확하게 정의됩니다.

6. 🔄 블록 ID와 워크플로우의 유연성

  • 블록 ID가 일치하지 않으면 블록이 함께 작동할 수 없음을 확인하여 감사 시 워크플로우의 정확한 상태를 파악할 수 있음.
  • 클리니션이 UI를 통해 블록을 생성하여 구조화된 출력을 생성할 수 있으며, 긴 JSON을 편집할 필요가 없음.
  • Firebase에서 블록을 로드하여 의료 기록 시스템에 사용되는 형식으로 의료 기록에서 주요 문제를 추출할 수 있음.
  • UI 내에서 새로운 블록을 생성하여 워크플로우에 추가하고, SOAP 노트 형식으로 출력을 생성할 수 있음.
  • 입력을 지정할 때 EMIS 문제 블록을 피드로 입력하도록 지정하여 올바른 형식의 SOAP 노트를 생성할 수 있음.

7. 🧪 실험과 데이터 라벨링 플랫폼

  • 클리니션들이 실험을 저장하고 공유할 수 있는 메인 공간 제공
  • 실험은 LLM 워크플로우를 비교하는 방법으로 사용
  • 기존 워크플로우와 새로운 워크플로우의 비교를 통해 개선점 도출
  • 데이터 포인트 생성 수와 각 데이터 포인트를 검토할 클리니션 수를 지정
  • 기준선과 비교하여 결과 분석
  • 데이터 라벨링 플랫폼을 통해 환각과 누락을 라벨링
  • 환각은 입력에 없는 출력 요소, 누락은 LLM 단계에서 빠진 요소
  • 환각을 최소화하는 것이 목표
  • 기준선보다 환각이 적으면 새로운 실험 설계 및 반복
  • 의사들이 제공하는 인간 라벨이 중요
  • 이 단계는 클리니션들에게 시간 소모적

8. 📊 스마트 샘플링과 리소스 최적화

  • 리소스를 최대한 활용하기 위해 결과를 블록 수준에서 저장하여 이전 실험을 재사용할 수 있습니다.
  • 스마트 샘플링을 통해 실험과 기준선 간에 동일한 랜덤 시드를 공유하여 데이터 포인트를 비교할 때 일관성을 유지합니다.
  • 기준선이 25개의 예제일 때, 새로운 실험에서 30개를 실행하려면 동일한 25개를 샘플링하고 추가로 5개를 수집하여 라벨링 노력을 크게 증가시키지 않고 데이터 포인트 수를 늘릴 수 있습니다.
  • 스마트 샘플링은 실험의 반복성을 높이고, 리소스 최적화는 실험의 효율성을 극대화합니다.

9. 🚨 임상 안전성 평가와 오류 분석

  • 임상 안전성 평가에서 주요 오류와 경미한 오류를 구분하며, 주요 오류는 환자의 임상 결과에 영향을 미칠 수 있음.
  • 모델이 생성한 환각(hallucinations)과 누락(omissions)은 원본 대본에 없는 내용을 생성하거나 중요한 정보를 놓치는 경우를 의미함.
  • 주요 환각의 예로, 의사가 광범위 항생제 사용을 논의하지 않았음에도 불구하고 모델이 이를 추천한 경우가 있음.
  • 실험 결과, 환각과 누락의 양은 반복적인 프레임워크를 통해 감소하지만, 예상치 못한 결과가 발생할 수 있음.
  • 기본 베이스라인에서 대본에서 직접 편지를 생성하려 했으나, 사실적인 출력을 위해 사실을 추출하여 편지를 생성하는 실험이 주요 환각을 증가시킴.
  • 플랫폼을 통해 실험이 많은 주요 환각을 도입했음을 빠르게 평가하고, 이를 생산에 반영하지 않기로 결정함.

10. 🚀 프레임워크의 효과와 미래 계획

10.1. 프레임워크의 현재 효과

10.2. 프레임워크의 미래 계획

OpenAI - OpenAI DevDay 2024 | Community Spotlight | Sierra

TAU-bench는 AI 에이전트의 성능을 실세계에서 평가하기 위한 벤치마크 도구로, Sierra의 연구팀이 개발했다. 이 도구는 LLM을 활용하여 동적이고 현실적인 사용자 시뮬레이션을 제공하며, 에이전트가 다양한 시나리오에서 얼마나 잘 작동하는지를 평가할 수 있다. 특히, 사용자가 에이전트와 상호작용할 때의 신뢰성과 정확성을 측정하는 데 중점을 두고 있다. TAU-bench는 사용자 시뮬레이션을 통해 에이전트의 신뢰성을 반복적으로 테스트할 수 있으며, 이는 인간 테스터를 사용하는 것보다 비용 효율적이고 확장 가능하다. 연구 결과, 에이전트는 단일 시나리오에서 높은 성능을 보이지만, 반복적인 시나리오에서는 성능이 저하될 수 있음을 보여준다. 이는 LLM 기반 시뮬레이터가 에이전트의 신뢰성을 평가하는 데 중요한 역할을 할 수 있음을 시사한다.

Key Points:

  • TAU-bench는 AI 에이전트의 실세계 성능 평가를 위한 벤치마크 도구이다.
  • LLM을 활용하여 동적이고 현실적인 사용자 시뮬레이션을 제공한다.
  • 에이전트의 신뢰성과 정확성을 반복적으로 테스트할 수 있다.
  • 비용 효율적이고 확장 가능한 평가 방법을 제공한다.
  • 에이전트는 반복적인 시나리오에서 성능이 저하될 수 있다.

Details:

1. 👋 소개 및 발표 주제

  • 카르틱 나라심한은 시에라의 연구팀을 이끌고 있다.
  • 그의 발표는 최신 연구 결과와 혁신적인 접근 방식을 다룰 것입니다.

2. 📚 TAU-bench 개요 및 연구팀 소개

  • TAU-bench는 AI 에이전트를 실세계에서 벤치마킹하기 위한 최근의 노력 중 하나입니다.
  • 이 프로젝트는 Shunyu, Noah, Pedram을 포함한 여러 뛰어난 인재들이 참여한 공동 작업입니다.
  • TAU-bench에 대한 자세한 내용은 아카이브에 게재된 논문을 통해 확인할 수 있습니다.

3. 🤖 AI 에이전트의 역할과 평가의 어려움

  • 비즈니스를 위한 대화형 AI 플랫폼 구축을 통해 기업이 자체 AI 에이전트를 쉽게 구축할 수 있도록 지원합니다.
  • AI 에이전트는 사용자와 자연어로 자유롭게 대화하고, 문제 해결을 위한 결정을 내릴 수 있는 자율 시스템입니다.
  • 예를 들어, 제품 반품이나 항공편 변경과 같은 작업을 수행할 수 있습니다.
  • 이러한 에이전트를 실제 환경에 배치할 때 성능 평가가 매우 어렵습니다.
  • 에이전트 구축 및 배포의 가장 큰 어려움 중 하나는 평가입니다.
  • 평가의 어려움은 에이전트가 다양한 상황에서 얼마나 효과적으로 작동하는지를 측정하는 데 있습니다.
  • 특히, 사용자 경험과 상호작용의 질을 정량화하는 것이 도전적입니다.
  • 실제 사용 사례에서의 성능을 평가하기 위한 구체적인 메트릭이 부족합니다.

4. 🛠️ 실세계 AI 에이전트 평가의 도전과제 및 LLM 활용

4.1. AI 에이전트 평가의 도전과제

4.2. TAU-bench를 통한 솔루션

5. 🗣️ 사용자 시뮬레이션과 LLM의 역할

  • TAU 벤치마크의 핵심 아이디어는 LLM을 사용하여 동적이고 실시간이며 현실적인 대화를 쉽게 시뮬레이션하는 것입니다.
  • TAU는 도구, 에이전트, 사용자를 포함하며, 에이전트는 도메인 정책 문서를 통해 수행할 작업과 하지 말아야 할 작업을 안내받습니다.
  • 도구 환경은 데이터베이스와 데이터를 읽고 쓰는 도구의 조합으로 구성됩니다.
  • 사용자 시뮬레이션은 시나리오를 사용하여 LLM을 통해 시뮬레이션됩니다.
  • 이전에는 인간 테스트가 필요했지만, 이제는 GPT-4o와 같은 LLM을 사용하여 사용자 시뮬레이터를 구축할 수 있습니다.

6. 📊 데이터 생성 및 TAU-bench 평가 결과

6.1. 데이터 생성

6.2. TAU-bench 평가 결과

7. 🔄 신뢰성 측정 및 시뮬레이터의 중요성

7.1. 신뢰성 측정의 개선 필요성

7.2. 시뮬레이터의 중요성

8. 🔗 추가 자료 및 마무리

  • TAU-bench의 코드는 GitHub에서 확인 가능
  • 블로그 포스트를 통해 추가 정보 제공
  • 아카이브 논문 출판 완료

OpenAI - OpenAI DevDay 2024 | Community Spotlight | Cosine

Genie는 소프트웨어 엔지니어링 작업을 자동화하기 위해 개발된 AI 모델로, GPT-40을 기반으로 미세 조정되었습니다. 이 모델은 개발자가 작업을 완료하는 방식을 학습하기 위해 합성된 실제 데이터를 사용하여 훈련되었습니다. 주요 목표는 소프트웨어 엔지니어가 작업을 수행하는 과정을 모델에 학습시키는 것이며, 이를 위해 대량의 데이터 정리와 큐레이션이 필요했습니다. Genie는 코드 리뷰와 같은 복잡한 작업을 수행할 수 있으며, 사용자 정의 추론 경로를 통해 모델이 인간처럼 사고하도록 돕습니다. 또한, Selfplay 기법을 사용하여 실제로 존재하지 않는 훈련 예제를 생성하여 모델을 더욱 효과적으로 훈련시킬 수 있습니다. Genie는 GitHub와 통합되어 코드베이스를 인덱싱하고, 에러를 자동으로 수정하는 등의 작업을 수행할 수 있습니다.

Key Points:

  • Genie는 소프트웨어 엔지니어링 작업을 자동화하기 위해 미세 조정된 AI 모델입니다.
  • 미세 조정은 모델의 성능을 높이는 데 필수적이며, 데이터 정리와 큐레이션이 중요합니다.
  • 사용자 정의 추론 경로를 통해 모델이 인간처럼 사고하도록 돕습니다.
  • Selfplay 기법을 사용하여 실제로 존재하지 않는 훈련 예제를 생성할 수 있습니다.
  • Genie는 GitHub와 통합되어 코드베이스를 인덱싱하고 에러를 자동으로 수정합니다.

Details:

1. 🚀 Genie 소개 및 개발 배경

  • Genie는 완전 자율 AI 엔지니어로, gbt 40을 실제 세계 데이터를 합성적으로 증강하여 미세 조정함으로써 개발되었습니다.
  • 기존의 사전 훈련 데이터는 소프트웨어 엔지니어가 작업을 수행하는 예시를 통합하지 않으며, 주로 완료된 작업의 결과물만을 보여줍니다.
  • Genie 개발을 통해 작업 수행 과정의 데이터를 활용하여 AI 시스템을 구축하는 유용한 기술을 발견했습니다.

2. 🔧 파인튜닝의 중요성과 데이터 처리 방법

  • 파인튜닝은 LLM 도구 상자에서 매우 활용도가 낮은 도구로 보이지만, 제품 품질이 미션 크리티컬한 경우 필수적이다.
  • 기본 LLM에서 원하는 성능을 얻지 못해 파인튜닝을 통해 모델을 특정 분야에 특화시켰다.
  • 일반적으로 적은 예시가 필요하지만, 세부적인 데이터 처리가 매우 중요하다.
  • 프롬프트를 사용한 제품은 하루 만에 멀리 갈 수 있지만, 마지막 20%의 성능 향상은 파인튜닝을 통해 이루어졌다.
  • 모델이 인간처럼 소프트웨어 엔지니어가 되도록 하기 위해 대량의 데이터 정리와 큐레이션이 필요했다.
  • 처음에는 중요하다고 생각한 것들이 실제로는 사람들이 제품을 사용할 때 중요하지 않다는 것을 깨달았다.

3. 🧠 추론 기법과 모델 개선 전략

  • 최근 출시된 01 및 01 mini와 같은 모델은 추론의 중요성을 강조하고 있다.
  • Genie 구축 시, 맞춤형 추론 경로를 활용하여 모델이 인간처럼 사고하도록 유도하였다.
  • 특히 소프트웨어 엔지니어링과 같은 복잡한 작업에서는 모델의 사고 방식을 변경하는 것이 유용할 수 있다.
  • Chain of Thought 기법은 모델의 단점을 완화하는 데 도움이 된다.
  • 01과 같은 전용 추론 모델을 사용하여 맞춤형 추론 경로를 생성하고 이를 더 작은 모델로 증류할 수 있다.
  • 기본 모델이 원하는 출력을 일관되게 생성하지 못할 때, 맞춤형 추론 경로가 원하는 결과를 얻는 데 도움을 줄 수 있다.

4. 🛠️ 코드 리뷰 및 맞춤형 추론 활용 사례

  • 모델을 코드 리뷰에 맞게 미세 조정하여 성능을 30% 향상시킬 수 있습니다.
  • PR(풀 리퀘스트)와 리뷰 코멘트를 입력으로 사용하여 01 모델을 통해 왜 해당 코멘트가 남겨졌는지 추론할 수 있습니다.
  • 이러한 추론 과정은 인간이 남긴 코멘트의 의도를 이해하는 데 중요하며, 불필요한 정보를 25% 줄이는 데 도움을 줍니다.
  • 이 접근 방식은 Genie 내부에서 널리 사용되며, 선호하는 답변 세트에 도달하는 데 40% 더 빠르게 기여했습니다.

5. 🎮 셀프플레이 기법을 통한 데이터 생성

  • 셀프플레이 기법은 실제 세계에서 얻기 어려운 훈련 예제를 생성하는 데 유용하며, 브라우저 기반 작업에 뛰어난 개인 비서를 구축하는 데 사용됩니다.
  • 이 기법은 500만~1000만 라인의 대규모 코드베이스에서도 효과적으로 작동하며, 코드베이스 탐색 및 검색에 강력한 도구로 활용됩니다.
  • 셀프플레이 파이프라인 내 모델을 미세 조정하여 성능을 향상시킬 수 있으며, 데이터 정리가 중요합니다.
  • 플레이어 모델과 감독 모델을 사용하여 셀프플레이 파이프라인을 구성할 수 있으며, 플레이어 모델은 프롬프트를 받고 도구와 상호작용하여 파일을 읽거나 검색합니다.
  • 감독 모델은 교사 역할을 하며 프롬프트와 원하는 결과를 받아 피드백을 제공합니다.
  • 플레이어와 감독 모델을 미세 조정하면 인간의 추론을 더 많이 얻을 수 있으며, 수렴 속도가 빨라집니다.
  • 모델을 잘 작동시키기 위해 수천 개의 주석이 필요하지 않으며, 몇 백 개의 주석으로도 충분합니다.
  • 모델을 미세 조정하면 성능이 크게 향상됩니다.

6. 💡 Genie의 실제 활용 및 데모

  • 커스텀 추론 트레이스는 어려운 작업에서 모델 성능을 크게 향상시킴.
  • 데이터 세트 품질을 개선하는 것이 프롬프트 반복보다 더 많은 성능을 추출할 수 있음.
  • 자체 플레이는 에이전트 기반 워크플로우에 매우 효과적이며, 수직적 특화 에이전트 훈련에 사용 가능.
  • 모델은 제공된 데이터를 학습하며, 문제의 원인은 데이터 속성에 있을 가능성이 높음.
  • Genie는 GitHub와 연동하여 코드베이스를 인덱싱하고, 키워드 인덱스를 생성하여 코드 검색 및 수정 가능.
  • Genie는 에러를 자동으로 수정하고, GitHub CI를 통해 코드 실행 결과를 확인함.
  • Genie와 Cosign의 모든 작업은 GitHub에 자동으로 반영되며, PR을 생성하여 문제를 해결함.

OpenAI - OpenAI DevDay 2024 | Community Spotlight | Vercel

Vercel의 AI 팀이 개발한 v0는 웹 개발 에이전트로, 디자인 도구와 코딩 도구의 중간에 위치하며, 개인화된 소프트웨어 개발을 가능하게 한다. 이 도구는 고급 코드 생성과 새로운 AI 도구를 결합하여 사용자가 자신만의 소프트웨어를 쉽게 만들 수 있게 한다. 예를 들어, v0를 사용하면 복잡한 비즈니스 분석을 위한 앱을 자동으로 생성할 수 있으며, 이는 많은 비즈니스 분석가들이 엑셀을 사용하는 대신 앱을 생성할 수 있게 한다. 또한, v0는 텍스트-음성 변환 앱과 같은 간단한 앱을 빠르게 생성할 수 있으며, 사용자는 OpenAI 키를 입력하여 직접 앱을 실행할 수 있다. v0는 React 코드와 외부 라이브러리를 사용하여 앱을 생성하며, 사용자는 이를 쉽게 배포하고 공유할 수 있다. 이 도구는 소프트웨어 개발을 개인화하고 민주화하여 조직 내 모든 사람이 협력할 수 있도록 하며, 개발자와 비개발자 모두가 창의적인 작업을 수행할 수 있게 한다.

Key Points:

  • v0는 개인화된 소프트웨어 개발을 가능하게 하는 웹 개발 에이전트이다.
  • 고급 코드 생성과 AI 도구를 결합하여 누구나 자신만의 소프트웨어를 쉽게 만들 수 있다.
  • v0는 텍스트-음성 변환 앱과 같은 간단한 앱을 빠르게 생성할 수 있다.
  • React 코드와 외부 라이브러리를 사용하여 앱을 생성하고 쉽게 배포할 수 있다.
  • 소프트웨어 개발을 개인화하고 민주화하여 조직 내 모든 사람이 협력할 수 있게 한다.

Details:

1. 🎤 소개 및 주제 개요

  • Vercel의 AI 팀을 이끄는 Jared가 발표를 진행하며, Vercel의 미션은 사람들이 놀라운 제품을 출시할 수 있도록 지원하는 것임을 강조함.
  • Vercel의 미션에서 '개발자'라는 단어가 더 이상 포함되지 않으며, 이는 오늘의 주제 중 하나임.

2. 🛠️ v0의 기능과 역할

  • v0는 웹 개발 에이전트로, 생성적 사용자 인터페이스 AI를 포함하고 있습니다.
  • 디자인 도구와 코딩 도구 사이에 위치하며, 이전에 없던 새로운 시스템입니다.
  • 현재의 기술 환경에서의 변화와 v0의 발전 방향에 대해 논의합니다.

3. 🌐 개인 소프트웨어 시대

  • 개인 소프트웨어 시대는 고급 코드 생성과 새로운 AI 도구의 결합으로 누구나 자신만의 소프트웨어를 쉽게 만들 수 있는 시대를 의미합니다.
  • 이제는 소프트웨어를 직접 만드는 것이 구글 검색보다 더 쉬운 경우도 있습니다.
  • 예를 들어, 광고가 많은 파비콘 생성기나 JSON 미리보기 같은 도구 대신 자신만의 도구를 만들 수 있습니다.
  • v0는 이러한 개인 소프트웨어 제작을 지원하며, 단순한 장난감 수준을 넘어 실제 비즈니스 애플리케이션을 생성할 수 있습니다.
  • 과거에는 많은 비즈니스 분석가가 엑셀을 사용해야 했던 작업을 이제는 자동으로 앱을 생성하여 해결할 수 있습니다.
  • 예를 들어, 복잡한 할인 현금 흐름 모델을 직접 구축하는 대신 v0를 사용하여 앱을 생성할 수 있습니다.
  • 개인 소프트웨어는 메타 도구를 만들어 더 높은 수준의 문제를 해결할 수 있게 합니다.

4. 🗣️ 텍스트-음성 변환 데모 및 활용

  • OpenAI의 텍스트-음성 변환 기능을 활용하여 간단한 앱을 생성할 수 있으며, 사용자는 OpenAI 키를 직접 입력하여 사용할 수 있다.
  • v0는 사용자가 앱을 생성하는 과정을 시각적으로 보여주며, React 코드로 렌더링한다.
  • 외부 서드파티 라이브러리를 사용할 수 있어 확장성이 높다.
  • 앱 생성 후 즉시 배포 가능하며, URL을 통해 공유할 수 있다.
  • 텍스트-음성 변환 기능은 다양한 산업에서 고객 서비스, 교육, 접근성 향상 등 여러 분야에 활용될 수 있다.
  • 기술 구현 세부 사항은 React와 같은 프레임워크를 사용하여 사용자 인터페이스를 구축하고, OpenAI API를 통해 음성 변환을 처리한다.

5. 🌟 코드의 민주화와 창의적 미래 비전

5.1. 코드 민주화

5.2. 창의적 미래 비전

OpenAI - OpenAI DevDay 2024 | Community Spotlight | Stainless

이 대화에서는 오픈 API 사양을 기반으로 클라이언트 라이브러리를 생성하는 맞춤형 SDK의 필요성과 이점에 대해 논의합니다. 오픈 소스 도구인 OpenAPI Generator를 사용하여 생성된 이전 버전의 SDK는 스트리밍 기능이 부족했습니다. 이를 해결하기 위해 맞춤형 코드를 추가하여 고객이 원하는 대로 SDK를 수정할 수 있도록 했습니다. 또한, SDK에 구조화된 출력과 같은 기능을 추가하여 API와의 매핑을 쉽게 했습니다. SDK 개발 시 중요한 결정은 HTTP 요청-응답 주기를 얇게 감싸는 것과 완전히 추상화하는 것 사이의 균형을 찾는 것입니다. 얇은 래퍼를 사용하면 API의 모든 기능을 지원할 수 있으며, 고객이 API 문서를 통해 쉽게 이해할 수 있습니다. 반면, 페이지네이션이나 자동 재시도와 같은 기능은 추상화하여 사용자 경험을 개선할 수 있습니다. 그러나 헤더와 같은 HTTP API의 중요한 세부 사항은 노출되어야 합니다. 자동 코드 생성의 단점은 비효율적인 코드가 생성될 수 있다는 점이며, 이는 오픈 소스 솔루션을 사용하지 않는 이유 중 하나입니다.

Key Points:

  • 맞춤형 SDK는 스트리밍 기능을 포함하여 고객의 요구에 맞게 수정할 수 있습니다.
  • 얇은 래퍼를 사용하면 API의 모든 기능을 지원할 수 있으며, 고객이 쉽게 이해할 수 있습니다.
  • 페이지네이션과 자동 재시도는 추상화하여 사용자 경험을 개선할 수 있습니다.
  • HTTP API의 중요한 세부 사항, 특히 헤더는 노출되어야 합니다.
  • 자동 코드 생성은 비효율적인 코드를 생성할 수 있으므로 주의가 필요합니다.

Details:

1. 🔍 오픈 소스 도구와의 차별점

  • 오픈 소스 도구는 무료로 제공되며, 이미 오픈 API 사양을 활용하여 클라이언트 라이브러리를 생성할 수 있는 다양한 도구가 존재함.
  • 유료 서비스에 대한 비용은 6자리 수에 달할 수 있으며, 이는 오픈 소스 도구와의 차별점을 설명해야 하는 이유가 됨.
  • 오픈 소스 도구는 비용 효율적이지만, 기술 지원이나 보안 업데이트가 부족할 수 있음.
  • 유료 서비스는 더 나은 기술 지원과 보안 업데이트를 제공하지만, 높은 비용이 단점으로 작용할 수 있음.
  • 예를 들어, 오픈 소스 도구인 Postman은 무료로 API 테스트를 지원하지만, 유료 서비스는 더 많은 기능과 지원을 제공함.

2. 🔧 SDK의 커스텀 코드 적용

  • 오픈 API 생성기는 스트리밍 기능이 부족했으나, 이를 보완하여 고객에게 제공함.
  • 생성된 SDK 위에 커스텀 코드를 적용하여 임의의 변경을 가능하게 함.
  • SDK의 초기 제한 사항을 극복하기 위해 커스텀 코드 적용이 필요했으며, 이를 통해 고객 맞춤형 솔루션을 제공할 수 있었음.
  • 커스텀 코드 적용 후, 고객의 특정 요구 사항을 충족시키는 데 성공하여 고객 만족도가 향상됨.

3. 🛠️ 개발자 도구의 진화

  • SDK를 통해 구조화된 출력을 사용하는 사례가 증가하고 있으며, 이는 맞춤형 코드의 좋은 예시로 작용하고 있다.
  • Zod와 pantic 헬퍼는 SDK의 일부로, OpenAI의 기술 작동 방식에 매우 특화되어 있다.
  • 릴리스 시 SDK에 맞춤형 코드를 적용하는 과정에서 여러 브랜치를 사용하고, Git 체리 피킹을 통해 패치를 적용한다.
  • 맞춤형 코드는 패치로 적용되며, 관련 변경 사항이 포함된 풀 리퀘스트가 레포지토리에 생성된다.

4. 📜 API 추상화의 장단점

  • Node.js 0.8에서 처음 API 클라이언트를 작성했을 때, SDK를 REST API 위에 직접 작성해야 했음.
  • API 추상화 수준 결정 시, HTTP 요청-응답 주기 위에 얇은 레이어를 만들지, 아니면 큰 객체 모델 뒤에 완전히 추상화할지를 고민해야 함.
  • 제공하는 서비스에 따라 적절한 추상화 수준이 달라짐. 예를 들어, Vell zi 패키지나 Lang chain 같은 경우 특정 사용 사례에 맞는 추상화를 제공할 수 있음.
  • 첫 번째 파티 SDK를 제공할 경우, API가 제공하는 모든 기능을 지원해야 하며, HTTP API 위에 얇은 래퍼를 만들면 모든 기능을 지원할 수 있음.
  • 얇은 래퍼를 사용하면 고객과 사용자가 API 문서를 보고 API와 SDK의 작동 방식을 빠르게 매핑할 수 있음.
  • 자체 추상화를 만들 경우, 사용자는 API 작동 방식과 추상화된 SDK 사용 방법을 모두 배워야 함.

5. ⚠️ 자동 코드 생성의 함정

  • API의 복잡한 부분을 감추기 위해 SDK를 사용하는 것은 혼란을 초래할 수 있음.
  • HTP 인터페이스에서 유용한 추상화는 페이지네이션과 자동 재시도 기능임.
  • 헤더와 같은 HTP API의 중요한 세부 사항은 추상화할 수 없음.
  • 자동 코드 생성은 나쁜 코드를 생성할 위험이 있으며, 이는 오픈 소스 솔루션을 사용하지 않은 이유 중 하나임.
  • 특히 파이썬과 같은 언어에서는 코드가 '파이써닉'해야 한다는 요구가 있음.

OpenAI - OpenAI DevDay 2024 | Community Spotlight | Dimagi

Anna Dixon은 Dimagi의 응용 연구 과학자로, AI와 머신러닝의 발전을 저소득 및 중간 소득 국가의 디지털 건강 도구에 적용하는 일을 하고 있습니다. Dimagi는 주로 최전선 근로자에게 제공되는 도구를 개발하며, 이번 프로젝트는 Bill and Melinda Gates Foundation의 지원을 받아 케냐와 세네갈에서 가족 계획을 지원하기 위한 대화형 에이전트의 효과를 평가하는 것이 목표입니다. 프로젝트는 Sheng과 같은 저자원 언어에서 GPT-4o 모델을 미세 조정하여 건강 교육 챗봇을 개발하는 데 중점을 두었습니다. 초기에는 Sheng 언어의 자연스러운 번역을 위해 800개의 Sheng 문장을 스타일 가이드로 사용했으나, 번역 품질이 일관되지 않아 새로운 기계 번역 레이어를 도입했습니다. 이로 인해 시스템의 모듈성이 향상되고 언어 품질 평가가 용이해졌습니다. 최종적으로 GPT-4o mini 모델을 미세 조정하여 Sheng 번역 품질을 크게 향상시켰으며, 다른 언어에서도 유사한 접근 방식을 탐색하고 있습니다.

Key Points:

  • Dimagi는 저소득 국가를 위한 디지털 건강 도구를 개발합니다.
  • GPT-4o 모델을 미세 조정하여 저자원 언어의 건강 교육 챗봇을 개발했습니다.
  • Sheng 언어 번역 품질을 개선하기 위해 기계 번역 레이어를 도입했습니다.
  • BLEU 메트릭을 사용하여 번역 품질을 평가했습니다.
  • GPT-4o mini 모델의 미세 조정으로 번역 품질이 크게 향상되었습니다.

Details:

1. 👩‍🔬 Dimagi 소개 및 역할

  • Anna Dixon은 Dimagi의 응용 연구 과학자로서 AI와 머신러닝의 최신 발전을 실제 업무에 적용하는 역할을 맡고 있다.
  • Dimagi는 기술을 통해 사회적 문제를 해결하는 것을 목표로 하며, Anna의 역할은 이러한 목표를 달성하는 데 핵심적이다.
  • Anna는 특히 헬스케어 분야에서 AI 솔루션을 개발하여 의료 접근성을 향상시키는 프로젝트를 주도하고 있다.

2. 🌍 프로젝트 목표 및 언어

2.1. Dimagi의 사명과 프로젝트 목표

2.2. 프로젝트 세부사항 및 언어

3. 🤖 챗봇 아키텍처 및 Sheng 언어 도전

  • 빌 & 멜린다 게이츠 재단의 지원을 받아 케냐와 세네갈에서 가족 계획을 위한 LLM 사용 프로젝트를 진행했습니다.
  • 프로젝트 목표는 대화형 에이전트를 통해 젊은이들의 지식, 태도 및 자기 효능감을 변화시켜 가족 계획 행동 변화를 지원하는 것이었습니다.
  • 챗봇 아키텍처는 사용자 메시지가 라우터 LLM에 도달하고, 각 GPT-4 인스턴스가 메시지를 세 가지 지원 봇 중 하나로 보냅니다: 일반 대화 봇, 퀴즈 봇, 롤플레잉 봇.
  • 프로젝트의 주요 요구 사항 중 하나는 Sheng 언어로 작동해야 한다는 것이었습니다.
  • Sheng은 스와힐리어와 영어의 혼합어로, 케냐 청소년에게 더 친근하게 다가가기 위해 사용됩니다.
  • LLM은 사전 학습된 데이터에 의존하기 때문에 Sheng과 같은 언어는 데이터가 적어 어려움이 있었습니다.
  • 제로샷 및 퓨샷 프롬프트를 사용했지만, Sheng의 품질이 좋지 않았고, 스와힐리-영어 대체가 어색하다는 피드백을 받았습니다.

4. 🔄 새로운 접근법: 기계 번역 레이어

  • Sheng 품질 개선을 위해 800개 이상의 Sheng 문장을 스타일 가이드로 프롬프트에 주입했으나, 많은 토큰으로 인해 속도가 느리고 비용이 많이 들었음.
  • Sheng 품질이 대화 기록 및 프롬프트 변경에 대해 견고하지 않다는 문제 발견.
  • GPT-4 인스턴스에 영어로만 응답하도록 지시하고, 새로운 기계 번역 레이어를 통해 영어에서 목표 언어로 번역하는 시스템으로 전환.
  • 이 접근법은 시스템에 모듈성을 추가하고, 개발 노력을 분리하여 건강 교육 챗봇 및 기계 번역 레이어 최적화 가능.
  • 언어 품질 평가를 분리할 수 있어 이전보다 평가가 용이해짐.
  • 섹션 미세 조정 시 LLM의 다른 기능 저하 위험을 줄이기 위해 기계 번역 레이어에만 초점을 맞춤.

5. 📊 번역 평가 및 BLEU 메트릭

  • 기계 번역 레이어는 LLM 채팅 완료 엔드포인트를 사용하여 쉽게 구현할 수 있음.
  • 사용자 입력 메시지를 보내고, 시스템 프롬프트를 통해 번역 봇으로 작동.
  • 번역할 수 없는 경우 'none'이라고 응답하도록 설정.
  • 평가 데이터 세트는 문장 쌍의 CSV 파일로 구성됨.
  • BLEU 메트릭은 기계 번역에서 널리 사용되는 지표로, 후보 번역과 실제 번역 간의 토큰 일치도를 측정.
  • BLEU 점수는 0에서 100까지이며, 높은 점수가 더 나은 번역을 의미함.
  • 일반적으로 40점 이상이면 꽤 좋은 번역으로 간주됨.
  • BLEU는 문장 수준에서는 효과적이지 않으며, 대규모 데이터 세트에서 더 유용함.
  • BLEU는 여러 매개변수와 토크나이저 선택에 의존함.
  • SacreBLEU 패키지를 사용하여 표준화된 BLEU 메트릭을 유지.

6. 🛠️ 미세 조정 및 결과

  • FLORES-200 spBLEU 지표를 사용하여 Facebook AI Research Team이 개발한 'no-language left behind' 이니셔티브를 위한 평가를 진행했습니다.
  • 지침 미세 조정을 통해 모델에 동일한 지침을 반복적으로 제공하여 모델이 해당 지침에 적합하도록 조정했습니다.
  • Python 스크립트를 사용하여 JSONL 파일을 생성하고, 각 줄이 기계 번역 작업을 완료하는 모델을 나타내도록 구성했습니다.
  • GPT-4o mini 모델의 Sheng 번역 품질이 미세 조정을 통해 spBLEU 점수가 22.21에서 65.23으로 크게 향상되었습니다.
  • Bill and Melinda Gates Foundation의 지원을 받아 여러 언어에서 이 아이디어를 탐구하는 프로젝트를 시작했습니다.
  • Chihchewa 언어에 대해 GPT-4o mini 모델의 spBLEU 점수가 미세 조정 후 18.45에서 39.46으로 두 배 증가했습니다.
  • GPT-4o 기본 모델은 44.62의 점수를 기록했으며, 미세 조정된 GPT-4o는 47.40으로 더 나은 성능을 보였습니다.
  • 미세 조정된 GPT-4o mini와 비교하여 GPT-4o가 더 나은 성능을 보였지만, 비용 효율성 측면에서 GPT-4o mini가 유리합니다.
  • BLEU 점수와 정확도 평가가 일치하도록 번역가와 협력하여 인간 검증을 수행했습니다.
  • 오픈 소스 데이터 세트를 활용하여 평가 및 훈련에 사용하고 있습니다.

OpenAI - OpenAI DevDay 2024 | Balancing accuracy, latency, and cost at scale

앱의 사용자 기반이 빠르게 확장됨에 따라 지속 가능한 확장이 필요합니다. 1,000명의 사용자에게 효과적이었던 전략이 100만 명에게도 효과적이지 않을 수 있습니다. OpenAI의 Colin Jarvis와 Jeff Harris는 앱 확장을 위한 일반적인 함정과 기술을 다루며, 최적화 아이디어를 제공합니다. 초기에는 정확성을 최적화하고, 목표에 도달하면 지연 시간과 비용을 최적화합니다. 정확성 목표를 설정하고, 평가를 통해 모델의 성능을 측정하며, 최적화 기술로는 프롬프트 엔지니어링, RAG, 미세 조정 등이 있습니다. 비용 절감과 지연 시간 개선을 위해 네트워크 지연, 프롬프트 지연, 출력 지연을 분석하고, 프롬프트 캐싱과 BatchAPI를 활용할 수 있습니다. 이러한 기술을 통해 비용을 절감하고, 더 많은 요청을 처리할 수 있습니다.

Key Points:

  • 정확성 목표 설정 후 최적화 시작
  • 프롬프트 엔지니어링, RAG, 미세 조정 활용
  • 네트워크, 프롬프트, 출력 지연 분석
  • 프롬프트 캐싱과 BatchAPI로 비용 절감
  • 지속 가능한 확장을 위한 최적화 전략 제공

Details:

1. 🚀 앱 성장과 확장 도전

  • 앱의 사용자 기반이 빠르게 확장되고 있으며, 두 배 이상 증가하고 있습니다.
  • 성장이 멈추지 않고 있으며, 지속 가능한 확장을 위한 도전이 필요합니다.
  • 1,000명의 사용자에게 효과적이었던 것이 100만 명에게는 적용되지 않을 수 있습니다.
  • 사용할 LLM을 결정하고, 비용을 예측 및 관리하는 방법을 결정해야 합니다.
  • 응답 시간을 빠르게 유지하는 방법을 고려해야 합니다.
  • 기술적 도전 과제에는 서버 확장, 데이터 처리 최적화, 사용자 경험 개선 등이 포함됩니다.
  • 성공적인 확장을 위해서는 사용자 피드백을 적극 반영하고, 데이터 기반 의사 결정을 통해 전략을 조정해야 합니다.

2. 📚 최적화의 중요성과 모델 개선

  • GPT-4o는 4 Turbo보다 두 배 빠르며, 비용 절감을 위해 지속적으로 노력하고 있음.
  • 2022년에 출시된 text-davinci-003 모델 이후, 토큰당 비용이 약 99% 감소함.
  • GPT-4의 32k 버전에서 백만 토큰의 비용이 $120였으나, 현재 GPT-4o mini로는 60센트로 200배 개선됨.
  • GPT-4o mini 출시 이후, 플랫폼의 토큰 소비량이 두 배 이상 증가함.
  • 이러한 개선은 사용자에게 더 빠르고 경제적인 AI 솔루션을 제공하여, 다양한 산업에서의 활용도를 높임.

3. 🎯 정확성 최적화 전략과 평가 기반 개발

3.1. 정확성 향상 전략 소개

3.2. 정확성 목표 설정 및 평가

3.3. 정확성 목표 달성을 위한 최적화

3.4. 평가 기반 개발의 중요성

4. 🤖 고객 서비스 네트워크 테스트와 정확성 목표 설정

4.1. 고객 서비스 네트워크의 복잡성

4.2. 고객 서비스의 일반적인 사용 사례

4.3. LLM을 활용한 고객 시뮬레이션

4.4. 고객 서비스 네트워크의 구조

4.5. 네트워크 테스트와 확장

4.6. 정확성 목표 설정과 비용 모델링

5. 🛠️ 최적화 기술 탐색과 RAG 활용

5.1. LLM과 인간의 정확도 비교

5.2. 최적화 목표 설정

5.3. 최적화 기술의 단계

5.4. 모델의 실패 원인 분석 및 해결

5.5. 프롬프트 최적화와 메타 프롬팅

6. 🔧 파인튜닝과 실제 사례를 통한 최적화

6.1. o1과 메타 프롬프트 활용

6.2. RAG 응용 프로그램 최적화

6.3. 검색 확장 및 평가

6.4. 파인튜닝 전략

6.5. 실제 사례를 통한 최적화

7. ⏱️ 지연 시간과 프롬프트 최적화

7.1. 지연 시간 최적화 전략

7.2. 입력 및 출력 지연 시간 최적화

7.3. 프롬프트 최적화 전략

8. 💰 비용 절감 전략과 BatchAPI 활용

  • 프롬프트 캐싱을 통해 반복적인 프롬프트 요청의 속도를 높일 수 있으며, 이는 비용 절감에도 기여한다.
  • 토큰 간 시간(latency)을 줄이기 위해서는 공급과 수요의 균형을 맞추는 것이 중요하다. 주말에는 수요가 적어 속도가 빠르며, 주중 아침 시간대에는 수요가 많아 속도가 느려진다.
  • 모델별로 설정된 지연 시간 목표를 통해 최적화가 가능하며, 예를 들어 월요일 오전 8시에는 GPT-4o 모델이 최소 22 토큰/초의 속도를 유지해야 한다.
  • 출력 토큰 수를 줄이는 것이 요청 처리 속도를 높이는 데 큰 차이를 만들 수 있다. 예를 들어, 1000개의 출력 토큰을 생성하는 요청은 100개의 출력 토큰을 생성하는 요청보다 10배 더 오래 걸린다.
  • 프롬프트 길이를 줄이는 것도 생성 속도에 영향을 미친다. 짧은 프롬프트는 처리 속도를 높일 수 있다.
  • 작은 모델을 선택하는 것이 응용 프로그램의 속도를 높이는 간단한 방법이다.
  • 프롬프트 캐싱을 통해 비용을 절감할 수 있으며, 캐시된 토큰에 대해 최대 50%의 비용 절감이 가능하다.
  • 프롬프트 캐싱은 프리픽스 매칭을 통해 작동하며, 프롬프트의 고정된 부분을 앞에 배치하는 것이 중요하다.
  • 프롬프트 캐시는 5~10분 동안 유지되며, 일정한 요청 간격을 유지하면 캐시율을 높일 수 있다.

9. 🎨 최적화의 예술과 결론

9.1. BatchAPI의 이점

9.2. Echo AI의 BatchAPI 활용 사례

9.3. 최적화의 중요성

OpenAI - OpenAI DevDay 2024 | Community Spotlight | DataKind

DataKind는 인도주의적 지원에 필요한 고품질 데이터의 중요성을 강조하며, 메타데이터 예측을 통해 데이터의 상호 운용성을 개선하고자 합니다. 현재 인도주의적 데이터의 절반은 메타데이터가 없거나 부정확하며, 이는 데이터 활용에 큰 장애물이 됩니다. DataKind는 GPT 모델을 활용하여 메타데이터 태깅의 정확성을 높이고, 비용 효율적인 솔루션을 제공하고자 합니다. 이 과정에서 데이터 준비와 테스트 세트 생성의 중요성을 강조하며, 모델이 인간보다 더 정확한 경우도 발견했습니다. 최종적으로, 다양한 접근 방식을 통해 목표 정확도와 시간, 비용 제약을 충족시켰으며, 이는 인도주의적 데이터 활용을 크게 향상시킬 것입니다.

Key Points:

  • 인도주의적 데이터의 절반은 메타데이터가 없거나 부정확함.
  • GPT 모델을 활용하여 메타데이터 태깅의 정확성을 70% 이상으로 향상.
  • 데이터 준비와 테스트 세트 생성이 모델 성능에 중요함.
  • 모델이 인간보다 더 정확한 경우도 발견됨.
  • 비용 효율적이고 빠른 솔루션 제공으로 인도주의적 데이터 활용 향상.

Details:

1. 🌍 데이터와 인류애: DataKind 소개

  • DataKind는 글로벌 비영리 조직으로, 인류를 위한 데이터와 기술 활용에 중점을 두고 있다.
  • Caitlin Augustin은 DataKind의 제품 및 프로그램 부문 부사장으로 활동하고 있으며, 데이터 기반의 사회적 영향을 극대화하는 데 기여하고 있다.
  • Mitali는 인도주의적 노력과 파트너십을 이끌고 있으며, 다양한 프로젝트를 통해 인류애를 실현하고 있다.
  • DataKind는 다양한 프로젝트를 통해 데이터 과학을 활용하여 사회적 문제를 해결하고 있으며, 이러한 프로젝트는 전 세계적으로 긍정적인 영향을 미치고 있다.

2. 📊 인도적 지원의 데이터 필요성

  • 현재 전 세계적으로 3억 명이 인도적 지원을 필요로 하고 있음
  • 40개의 글로벌 조정 요청이 있으며, 자금 부족액은 460억 달러에 달함
  • 시기적절하고 고품질의 데이터가 인도적 지원 분야에서 필수적임
  • 해결책을 찾기 위해 혁신이 필요함
  • 예를 들어, AI 기반 데이터 분석을 통해 자원 배분의 효율성을 30% 향상시킬 수 있음
  • 데이터 기반 의사결정으로 인해 지원의 정확도가 25% 증가함

3. 🚀 혁신적 데이터 활용 사례

  • UN OCHA는 아프가니스탄에서 자연재해 대응을 위해 인터랙티브 대시보드를 활용하여 데이터 기반의 신속한 대응을 가능하게 함.
  • 대시보드는 현지 정부, NGO, UN 팀 등 다양한 출처의 데이터를 통합하여 제공함.
  • 이를 통해 재난 발생 지역을 식별하고 적절한 팀과 개입을 신속하게 파견할 수 있음.
  • 이러한 데이터 활용 사례는 예외적이며 일반적이지 않음.
  • 대시보드 활용으로 인해 재난 대응 시간이 평균 30% 단축됨.
  • 데이터 통합 과정에서 데이터의 정확성과 실시간 업데이트가 주요 도전 과제로 작용함.
  • 아프가니스탄의 복잡한 지형과 정치적 상황이 데이터 수집 및 활용에 추가적인 어려움을 제공함.

4. 🔍 데이터 접근의 문제점과 AI의 역할

  • DataKind는 인도주의 조직과의 인터뷰를 통해 데이터 접근 및 사용의 문제점을 파악함.
  • 인터뷰 결과, 생성적 AI가 문제 해결의 의미 있는 부분이 될 수 있는 지점을 식별함.
  • 생성적 AI를 활용하면서도 인간의 개입을 유지하여 문제를 해결하는 접근 방식을 제안함.
  • 구체적인 사례로, AI를 통해 데이터 분석의 정확성을 높이고, 데이터 접근성을 개선한 사례를 제시함.
  • AI와 인간의 협업을 통해 데이터 기반 의사결정의 효율성을 30% 향상시킨 사례를 언급함.

5. 🧩 메타데이터 예측의 중요성

  • 인도주의 데이터 교환소는 2023년에 150,000개 이상의 표 형식 데이터 세트를 보유하고 있으며, 이는 방대한 데이터 관리의 필요성을 강조함.
  • HXL 메타데이터 표준은 20년 전에 커뮤니티에서 생성되어 사용 승인을 받았으나, 여전히 채택되지 않아 메타데이터 관리의 어려움을 나타냄.
  • 인도주의 데이터의 약 절반은 메타데이터가 전혀 없으며, 메타데이터 태그가 있는 데이터의 절반은 잘못된 것으로 확인됨. 이는 데이터 활용의 비효율성을 초래함.
  • 데이터를 수작업으로 라벨링하는 것은 시간이 많이 걸리고 오류가 발생하기 쉬워, 자동화된 메타데이터 예측의 필요성을 시사함.

6. 🤖 생성 AI와 메타데이터 태깅

  • 생성 AI는 데이터의 태그 및 속성 레이블링에 도움을 줄 수 있음
  • 5년 전 개념 증명 연구가 있었으나 구현에 많은 마찰이 있었음
  • GPT를 사용하여 더 광범위한 지식 체계에 대한 태깅을 실제로 수행 가능
  • 구현 시 마찰이 훨씬 적어짐
  • 생성 AI를 활용한 메타데이터 태깅은 데이터 관리 효율성을 크게 향상시킬 수 있음
  • 초기 구현의 어려움은 AI의 발전으로 인해 상당 부분 해소됨

7. 🔧 AI 모델 테스트와 개선

  • 2023년에 시작된 프로젝트는 2024년에 확장되었으며, 8월에 세 가지 다른 모델과 프롬프트 접근 방식을 테스트 완료.
  • 데이터셋의 약 25%만이 정확한 메타데이터를 가지고 있어도 이해관계자들은 '옳은 것이 더 많으면 만족'이라고 응답.
  • 문헌 조사 결과, 유사한 도전 과제에서 70%의 정확도가 의미 있는 결과를 도출함을 확인하고, 70% 정확도를 목표로 설정.
  • 인도주의 단체와 비영리 조직이 사용할 수 있도록 주간 비용을 약 5달러로 설정하여 100개의 테이블을 처리할 수 있도록 함.
  • 기존 워크플로우에 통합되며, 테이블당 약 1초의 처리 시간이 적절하다고 판단.
  • 준비부터 처리까지 총 소요 시간을 약 1시간으로 설정하여 인간이 여전히 일부 과정에 참여하도록 함.

8. 📈 데이터 준비와 모델 성능

8.1. 데이터 준비

8.2. 모델 성능

9. 🎯 목표 달성과 비용 효율성

  • 프롬프트 사용 시 미세 조정을 피하고 HXL 태그와 속성을 직접 프롬프트할 수 있는지 검토했습니다.
  • 제로샷 프롬프트 초기 답변은 적절해 보였으나, HXL 표준을 따르지 않았습니다.
  • 프롬프트에 HXL 데이터 표준을 포함하도록 지침을 추가하고 정보의 순서를 규정하는 규칙을 설정했습니다.
  • 태그와 속성을 순서대로 포함한 후 정확도 목표와 시간 및 비용 제약을 충족하는 여러 접근 방식을 확보했습니다.
  • 이로 인해 이해관계자들이 만족했습니다.

10. 🔗 인도적 AI 어시스턴트의 미래

  • 인도적 사용을 위한 수천 개의 변수를 해제할 수 있게 되었습니다.
  • 오늘 발표된 증류 및 지속적인 개선 사항은 2단계로 진입하는 데 중요한 역할을 합니다.
  • 메타데이터 예측은 전체 인도적 데이터 프로젝트 시스템의 일부에 불과합니다.
  • 인도적 지원자들이 신속하게 고품질 데이터를 접근할 수 있도록 도구를 개발하고 있습니다.
  • 인도적 AI 어시스턴트는 조화롭고 상호 운용 가능한 데이터를 통합하여 인도적 지원자들이 신속한 대응을 할 수 있도록 돕습니다.
  • 이 시스템은 인도적 지원자들과 공동으로 개발되었습니다.

OpenAI - OpenAI DevDay 2024 | Welcome + kickoff

OpenAI의 DevDay에서는 새로운 AI 모델인 o1과 o1-mini를 소개하며, 이 모델들이 복잡한 문제를 해결하는 데 뛰어난 추론 능력을 가지고 있음을 강조했습니다. Cognition과 같은 고객 사례를 통해 o1이 소프트웨어 에이전트의 계획, 코드 작성 및 디버깅을 어떻게 개선할 수 있는지 보여주었습니다. 또한, Casetext와 Thomson Reuters가 법률 보조 AI에 o1을 활용하여 법률 문서의 정확성을 검증하는 데 성공한 사례도 소개되었습니다. 실시간 API를 통해 음성 인식 및 응답 기능을 강화하고, 이를 통해 더 자연스러운 사용자 경험을 제공할 수 있게 되었습니다. Healthify와 Speak와 같은 애플리케이션이 이 API를 활용하여 건강 코칭 및 언어 학습을 위한 더 현실적인 경험을 제공하고 있습니다. 마지막으로, OpenAI는 모델의 비용을 절감하고 사용자 맞춤형 모델을 만들 수 있는 기능을 강화하여 개발자들이 더 쉽게 AI를 활용할 수 있도록 지원하고 있습니다.

Key Points:

  • o1 모델은 복잡한 문제 해결에 뛰어난 추론 능력을 제공
  • 실시간 API로 음성 인식 및 응답 기능 강화
  • 모델 비용 절감 및 사용자 맞춤형 모델 지원
  • Cognition과 Casetext의 성공 사례
  • Healthify와 Speak의 실시간 API 활용 사례

Details:

1. 🎉 DevDay 시작: Olivier의 환영사

  • 올리비에가 DevDay의 두 번째 행사에 참석한 모든 사람을 환영하며 시작합니다.
  • 작년과 비교하여 행사 분위기가 다르다는 점을 언급하며, GPT-5 발표는 없지만 흥미로운 내용이 준비되어 있음을 강조합니다.
  • 올리비에는 OpenAI의 API 제품 팀을 이끌고 있으며, 이번 행사는 컴퓨터에서 벗어나 새로운 기회를 탐색할 수 있는 특별한 기회라고 설명합니다.

2. 🤝 개발자와의 협력: OpenAI의 미션

  • OpenAI는 개발자와의 협력을 통해 AGI를 구축하고자 하며, 이는 인류 전체에 이익을 줄 것입니다.
  • 개발자는 OpenAI의 미션에 필수적이며, 개발자 없이는 이 목표를 달성할 수 없습니다.
  • DevDays는 OpenAI 팀과 개발자들이 함께 시간을 보내고 협력할 수 있는 기회를 제공합니다.
  • OpenAI는 새로운 개발자 커뮤니티와의 대화를 통해 협력을 강화하고자 합니다.

3. 🚀 GPT-3의 발전과 한계

  • GPT-3는 4년 전 개발되었으며, 초기에는 그 가능성을 완전히 이해하지 못했으나, API를 통해 다양한 실험이 가능해짐.
  • GPT-3를 활용하여 마케팅 콘텐츠 생성, 언어 번역, 챗봇 구축 등의 다양한 작업이 가능함.
  • 초기 GPT-3는 도구 지원이 부족하고, 환각 현상이 빈번하며, 지연 시간이 매우 느렸음.

4. 🌟 AI의 현재와 개발자 커뮤니티의 성장

4.1. AI 모델의 성장

4.2. 개발자 커뮤니티의 확장

5. 🔧 OpenAI의 새로운 기능과 모델 소개

5.1. 새로운 API 기능

5.2. 새로운 모델 도입

6. 🧠 o1 모델: 복잡한 문제 해결 능력과 추론

6.1. OpenAI의 주요 초점 영역

6.2. o1 모델 소개

6.3. o1-preview 소개

6.4. o1-mini 소개

6.5. 추론의 정의

7. 💻 고객 사례: Cognition과 Casetext의 o1 활용

  • o1 모델은 논리적 추론을 통해 문제를 체계적으로 해결할 수 있는 능력을 갖추고 있습니다.
  • Cognition은 o1을 활용하여 AI 소프트웨어 에이전트가 코드 작성, 계획, 디버깅을 더 정확하게 수행할 수 있는지를 테스트했습니다.
  • Cognition의 CEO인 Scott Wu는 o1이 인간과 유사한 방식으로 의사 결정을 내릴 수 있는 능력을 강조했습니다.
  • Cognition AI는 Devin이라는 완전 자율 소프트웨어 에이전트를 개발 중이며, Devin은 소프트웨어 엔지니어처럼 문제를 해결할 수 있습니다.
  • Casetext는 o1 모델을 활용하여 법률 문서 분석을 자동화하고, 법률 연구의 효율성을 크게 향상시켰습니다.
  • Casetext의 AI 솔루션은 법률 전문가들이 더 빠르고 정확하게 정보를 찾을 수 있도록 지원합니다.

8. 💡 Roman의 o1 실시간 데모

8.1. 트윗 감정 분석

8.2. AI 법률 보조 도구

9. 📱 iPhone 앱과 드론 프로그래밍 실시간 데모

9.1. iPhone 앱 개발 및 기능 시연

9.2. 드론 프로그래밍 및 실시간 제어

10. 🎤 Realtime API: 음성 기능 소개 및 데모

  • o1-mini API를 사용하여 드론과의 인터페이스를 JavaScript로 구현하는 프로젝트를 진행 중입니다.
  • o1-mini API는 사용자가 선호하는 도구에서 직접 사용할 수 있어 편리합니다.
  • 현재 프론트엔드만 준비되어 있으며, 백엔드는 없는 상태에서 o1-mini를 통해 드론과의 인터페이스를 구축하려고 합니다.
  • o1-mini를 사용하여 FFmpeg의 올바른 카메라 스트림 포맷을 파악하는 데 성공했습니다.
  • o1-mini에 프롬프트를 보내면 몇 초 내에 앱의 누락된 부분을 연결하는 계획을 수립할 수 있습니다.

11. 🌐 Realtime API의 실제 응용 사례와 개발자 도구

  • o1-mini는 서버를 자동으로 생성하여 개발 시간을 50% 단축시킴.
  • WebSocket 코드를 자동으로 추가하여 드론과의 통신을 30% 간소화함.
  • UI 버튼을 통해 드론에 명령을 전송할 수 있도록 설정, 실시간 테스트에서 95% 성공률 기록.
  • o1-mini는 UDP 패킷을 사용하여 프론트엔드와 리액트 컴포넌트를 40% 더 효율적으로 연결함.
  • o1의 사용으로 새로운 개발 패러다임을 제시, 사용자 문제 해결에 60% 기여 가능.
  • 최근 몇 주 동안 o1의 속도 제한을 세 번 증가시켰으며, 현재 두 배로 증가하여 처리량이 100% 향상됨.
  • 모든 청중에게 o1에 대한 공식적인 접근 권한 부여, 기능 탐색 권장.

12. 🔄 모델 커스터마이징과 비전 파인튜닝

  • o1은 GPT-4o의 대체품이 아니며, 속도가 느리고 비용이 더 많이 든다.
  • 최고의 AI 애플리케이션은 GPT-4o와 o1을 결합하여 사용한다.
  • GPT-4o와 4o mini에 대한 지속적인 투자가 이루어지고 있다.
  • 모델이 더 스마트해짐에 따라 텍스트, 이미지, 비디오, 오디오 등 모든 모달리티를 이해하고 반응할 수 있다.
  • ChatGPT의 고급 음성 모드를 사용해 본 사용자들이 많으며, 자연스러운 음성 대 음성 기능에 대한 요청이 많다.

13. 💰 비용 절감과 모델 디스틸레이션

  • Realtime API는 유럽 내에서 실시간 AI 경험을 구축할 수 있는 초저지연 API입니다.
  • 이 API는 WebSockets를 사용하여 입력과 출력을 실시간으로 스트리밍합니다.
  • 오늘부터 음성 간 변환을 지원하며, 이는 ChatGPT의 고급 음성 모드를 구동하는 동일한 기술입니다.
  • API는 이미 제공되는 6개의 음성을 사용하여 음성 경험을 구축할 수 있도록 합니다.
  • Open AI 플레이그라운드는 이제 새로운 Realtime API에 대한 완전한 지원을 제공합니다.
  • 사용자는 ChatGPT의 기능을 Realtime API를 통해 실시간으로 사용할 수 있습니다.

14. 📈 OpenAI의 미래와 개발자와의 협력

  • OpenAI는 개발자들이 빠르게 빌드할 수 있도록 지원하기 위해 새로운 기능을 도입했습니다. 예를 들어, 이벤트 어시스턴트 앱을 만들 때, 두 단어만으로 완전한 프롬프트를 생성할 수 있는 기능이 추가되었습니다.
  • 프롬프트 작성이 번거로울 수 있다는 피드백을 반영하여, OpenAI는 개발자들이 가능한 한 빠르게 작업을 진행할 수 있도록 돕고자 합니다.
  • 새로운 기능은 프롬프트 생성뿐만 아니라, 함수 정의나 JSON 스키마 작성 시에도 편리함을 제공합니다.
  • 실시간 API를 활용하여 구체적인 예시로 Wanderlust라는 가상의 여행 앱을 통해 다양한 기능을 구현할 수 있습니다.

OpenAI - OpenAI DevDay 2024 | Community Spotlight | Dust

이 강연에서는 다양한 데이터 소스(데이터 웨어하우스, 스프레드시트, CSV 파일 등)에서 SQL 쿼리를 통합하여 비기술적 사용자도 쉽게 데이터 분석을 할 수 있도록 돕는 AI 시스템을 소개합니다. Dust라는 AI 운영 체제를 통해 사용자는 회사의 지식을 활용한 맞춤형 어시스턴트를 구축할 수 있습니다. 이 시스템은 다양한 데이터 소스를 통합하여 SQL 쿼리를 자동으로 생성하고, 이를 통해 사용자는 SQL이나 코딩 지식 없이도 데이터를 시각화하고 분석할 수 있습니다. 예를 들어, Snowflake 데이터 웨어하우스에서 데이터를 가져와 그래프를 생성하는 데모를 통해 시스템의 작동 방식을 설명합니다. 또한, Google Drive와 CSV 파일에서 데이터를 가져와 통합하는 방법도 소개합니다. 이 시스템은 데이터베이스와 파일을 통합하여 SQL 쿼리를 실행하고, 결과를 CSV 파일로 저장하여 사용자가 쉽게 접근할 수 있도록 합니다. 이를 통해 비기술적 사용자도 복잡한 데이터 분석을 수행할 수 있으며, 대시보드를 구축하는 데 소요되는 시간을 절약할 수 있습니다.

Key Points:

  • Dust AI 시스템은 다양한 데이터 소스에서 SQL 쿼리를 자동 생성하여 비기술적 사용자도 쉽게 데이터 분석 가능.
  • Snowflake와 같은 데이터 웨어하우스에서 데이터를 가져와 시각화 가능.
  • Google Drive와 CSV 파일의 데이터를 통합하여 분석 가능.
  • SQL이나 코딩 지식 없이도 데이터 분석 및 시각화 가능.
  • 데이터베이스와 파일을 통합하여 SQL 쿼리를 실행하고 결과를 CSV로 저장.

Details:

1. 📊 데이터 웨어하우스와 통합된 SQL 소개

  • 데이터 웨어하우스, 스프레드시트, CSV 파일을 위한 통합된 텍스트-SQL 솔루션 소개
  • 복잡한 제목이지만, 더 간단하고 실용적인 접근을 시도

2. 🤖 Dust의 AI 운영 시스템과 API 기능

  • Dust는 기업이 자체 지식을 활용하여 맞춤형 AI 어시스턴트를 구축할 수 있는 AI 운영 시스템을 제공합니다.
  • 이 시스템은 다양한 '브릭'을 통해 어시스턴트를 확장할 수 있는 기능을 제공하며, 각 브릭은 특정 기능을 수행하여 시스템의 유연성을 높입니다.
  • 예를 들어, 고객 지원 자동화, 데이터 분석, 자연어 처리 등 다양한 분야에 적용할 수 있는 브릭이 포함되어 있습니다.
  • 이러한 기능을 통해 기업은 운영 효율성을 높이고 고객 경험을 개선할 수 있습니다.

3. 🔍 테이블 쿼리와 텍스트 기반 데이터 검색

  • 강력한 API와 개발자 플랫폼을 통해 어디서나 임베드 가능
  • Zendesk와 같은 플랫폼에 더스트 어시스턴트를 추가하여 에이전트가 회사 데이터 및 다른 Zendesk 티켓과 직접 상호작용 가능
  • 내부 지식 추가, 시맨틱 검색 코드 해석, 웹 검색, 전사 등 다양한 기능 추가 가능
  • 오늘 논의할 주제는 테이블 쿼리

4. 📈 스노우플레이크 데이터 시각화 데모

  • 스노우플레이크 데이터 웨어하우스에 연결된 어시스턴트를 사용하여 일주일 동안 더스트 플랫폼에서 전송된 평균 메시지 수를 시각화함.
  • 상위 10개 작업 공간을 다른 색상으로 구분하고 나머지는 또 다른 색상으로 구분하여 시각화함.
  • 테이블 쿼리 후 스노우플레이크에서 데이터를 수신하고, 리액트 컴포넌트를 생성하여 시각화함.

5. 📊 SQL 쿼리와 데이터 분석의 자동화

  • SQL 쿼리를 자동으로 생성하여 데이터 분석을 수행할 수 있으며, 이는 복잡한 쿼리를 수동으로 작성하는 데 필요한 시간을 절약할 수 있음.
  • 자동화된 SQL 쿼리는 데이터 분석의 효율성을 높이며, SQL 지식이 부족한 사용자도 쉽게 사용할 수 있도록 지원함.
  • 자동화된 도구를 사용하여 데이터의 지수 곡선을 시각화할 수 있으며, 이는 데이터 성장 추세를 파악하는 데 유용함.
  • 예를 들어, 특정 자동화 도구는 사용자가 간단한 입력만으로 복잡한 SQL 쿼리를 생성할 수 있게 하여, 데이터 분석의 접근성을 크게 향상시킴.
  • 데이터 시각화 도구는 자동으로 생성된 SQL 쿼리 결과를 기반으로 다양한 차트와 그래프를 제공하여, 데이터의 패턴과 추세를 쉽게 이해할 수 있도록 함.

6. 📊 다양한 데이터 소스 통합 및 분석

  • 세 가지 그래프를 하나의 통합된 그래프로 결합하여 데이터 시각화 효율성을 높임
  • CSV 파일로 업로드된 데이터를 재사용하여 컴포넌트 생성 시간 절약
  • 실제 버튼을 사용하여 다양한 그래프 간 전환 가능

7. 🛠️ 어시스턴트와 도구 설정

  • 모델에 직접 파일을 제공하여 데이터 시각화를 구현합니다.
  • SQL이나 코딩 지식 없이도 데이터베이스에서 데이터를 가져와 그래프를 생성할 수 있습니다.
  • 다양한 출처의 데이터를 통합하여 분석할 수 있는 기능을 제공합니다.
  • Google Drive의 HR 파일과 CSV 파일을 사용하여 직원의 역할과 워크스페이스 사용량을 분석할 수 있습니다.
  • 어떤 팀이 어떤 용도로 도구를 사용하는지 파악하여 활용도를 높일 수 있습니다.

8. 🔗 데이터베이스와 파일의 통합 쿼리

  • 도구는 사용자 활동 및 역할에 대한 정보를 제공하는 쿼리 테이블로 구성되어 있음.
  • 웹 검색을 활성화하면 외부 데이터를 그래프로 시각화할 수 있음.
  • 직원 역할 스프레드시트와 CSV 사용 데이터를 통합하여 SQL 쿼리를 실행함.
  • SQL 쿼리를 통해 상위 5명의 사용자 역할을 분석할 수 있음.
  • 두 개의 파일은 서로 다른 저장소에서 가져옴.
  • 데이터 소스는 내부 데이터베이스와 외부 CSV 파일로 구성됨.
  • SQL 쿼리 실행 과정은 데이터 통합, 쿼리 작성, 결과 분석의 단계로 이루어짐.

9. 🗂️ Dust의 아키텍처와 데이터 처리 과정

  • Dust의 아키텍처는 'front', 'connectors', 'core'로 구성되어 있으며, 각 구성 요소는 특정 역할을 수행합니다.
  • 'front'는 고객이 API, 웹 UI 등을 통해 Dust에 접근하는 인터페이스를 제공합니다.
  • 'connectors'는 Google Drive, Notion, Slack, GitHub 등의 외부 데이터를 Dust에 동기화하며, posr 데이터베이스에 저장합니다.
  • 'core'는 Rust 애플리케이션으로, LLMs 및 벡터 검색 데이터베이스인 quadrant 데이터베이스와 직접 통신하여 데이터를 처리합니다.
  • 두 개의 파일을 직원 이메일을 기준으로 left join하여 이름, 사용자 메시지 수, 역할을 포함한 데이터를 병합할 수 있습니다.

10. 🧠 LLM과 데이터 쿼리의 상호작용

  • 사용자는 다양한 형식의 파일을 업로드할 수 있으며, 시스템은 이를 CSV 형식으로 변환하여 처리합니다.
  • Google Drive와 같은 커넥터를 통해 스프레드시트가 추가되면 자동으로 동기화되어 최신 데이터를 유지합니다.
  • 변환된 CSV 파일은 LLM에 적합한 열 이름을 자동으로 식별하여 데이터베이스에 저장합니다.
  • 저장된 데이터는 '증강 스키마'로 PG 데이터베이스에 저장되며, 이는 쿼리 시 사용됩니다.
  • 사용자가 질문을 하면, 시스템은 증강 스키마와 함께 쿼리를 LLM에 전송하여 답변을 생성합니다.
  • DBML 언어로 쿼리를 작성하여 모델에 전송하며, 이는 다양한 모델과 호환됩니다.
  • 이 과정은 모델에 종속되지 않으며, 함수 호출을 지원하는 모든 모델과 호환됩니다.

11. 🗃️ SQL 쿼리 실행 및 결과 처리

  • 전체 대화 기록을 LM에 전송하여 쿼리 실행
  • 문서화된 열과 특정 값을 포함한 스키마 전송
  • 테이블의 첫 16개 행을 LM에 전송하여 데이터 구조 인식
  • 구조화된 출력 호출을 통해 체인 오브 사고 및 SQL 파일 결과 제공
  • SQL 쿼리 실행 여부에 따라 다른 경로 선택
  • Snowflake, Redshift, BigQuery와 같은 데이터 웨어하우스에서 쿼리 실행
  • 파일 기반 쿼리의 경우, Rust에서 SQL Lite 데이터베이스를 스핀업하여 빠른 처리

12. 📊 데이터 시각화와 컴포넌트 생성

  • 쿼리 결과를 CSV 파일로 저장하고 S3 또는 GCS에 업로드하여 데이터 관리 효율성을 높임.
  • LLM을 사용하여 모든 데이터 포인트를 직접 입력하는 대신 파일을 사용하여 컴포넌트를 생성함으로써 비용과 시간을 절감함.
  • 데이터 구조를 이해하기 위해 LLM에 몇 줄의 데이터를 보여주고, 이를 통해 효과적인 차트 코드를 생성함.
  • Recharts와 D3.js를 사용하여 시각화 컴포넌트를 구현하고, CSV 파일을 다운로드하여 데이터 시각화를 완성함.

13. 🌐 자연어 BI와 비기술적 팀의 활용

  • 비기술적 팀이 자연어 BI를 활용하여 이전에 불가능했던 BI 작업을 수행할 수 있게 되었다.
  • 대시보드를 구축하는 데 소요되는 시간에 비해 자연어로 질문을 통해 데이터를 조회하는 시간이 크게 단축되었다.
  • 자연어 BI를 통해 비기술적 팀은 데이터 분석에 대한 접근성을 높이고, 실시간으로 인사이트를 얻을 수 있게 되었다.
  • 예를 들어, 마케팅 팀은 자연어 BI를 사용하여 캠페인 성과를 즉각적으로 분석하고 전략을 조정할 수 있다.

OpenAI - OpenAI DevDay 2024 | Community Spotlight | Supabase

이 발표에서는 AI가 PostgreSQL 데이터베이스를 브라우저에서 직접 관리할 수 있는 새로운 도구를 소개합니다. 이 도구는 JetGPT의 코드 인터프리터와 유사하게 작동하며, AI 모델이 데이터베이스에서 여러 작업을 지연 없이 연속적으로 수행할 수 있도록 합니다. 이를 통해 AI는 더욱 인간적인 느낌을 주며 유용성을 높입니다. 이 시스템은 GP4 O의 PostgreSQL과 SQL에 대한 깊은 이해와 브라우저 내에서 실행되는 일회용 데이터베이스 덕분에 가능합니다. 사용자는 데이터 손실에 대한 걱정 없이 모델이 자유롭게 작동하도록 할 수 있습니다. 또한, 이 도구는 다양한 툴 콜을 통해 SQL 실행뿐만 아니라 그래픽 사용자 인터페이스에서만 가능한 다른 작업도 수행할 수 있습니다. 예를 들어, SQL 오류가 발생하면 언어 모델에 피드백되어 문제를 해결할 수 있는 추가 시도를 합니다. 또한, PG 벡터와 Transformers Js를 사용하여 내장된 벡터 임베딩 지원을 제공하며, 이를 통해 의미론적 검색을 수행할 수 있습니다. 이 도구는 3개월 만에 60,000명 이상의 사용자를 확보했으며, 사용자가 브라우저 내 데이터베이스에 연결할 수 있는 라이브 공유 기능도 제공합니다.

Key Points:

  • AI가 PostgreSQL 데이터베이스를 브라우저에서 직접 관리
  • GP4 O의 PostgreSQL과 SQL에 대한 깊은 이해 활용
  • 툴 콜을 통해 다양한 작업 자동화
  • 벡터 임베딩 지원으로 의미론적 검색 가능
  • 3개월 만에 60,000명 이상의 사용자 확보

Details:

1. 👋 소개 및 목표: 개발자 경험 향상

  • Superbase의 Thor는 개발자 경험 향상을 목표로 하고 있습니다.
  • 소프트웨어 개발자 중 데이터베이스 마이그레이션을 즐기는 사람은 적습니다.
  • 개발자 경험이란 개발자가 소프트웨어를 개발할 때 겪는 모든 경험을 의미하며, 이를 개선하는 것이 목표입니다.
  • 데이터베이스 마이그레이션은 개발자에게 번거롭고 복잡한 작업으로 인식됩니다.

2. 🧠 AI 기반 데이터베이스: 혁신적인 기능 소개

  • AI 모델이 데이터베이스에 대한 완전한 자율성을 가지면 여러 작업을 지연 없이 연속적으로 실행할 수 있어 AI가 더욱 인간적이고 유용하게 느껴진다.
  • 이 혁신적인 경험은 GP4 O의 뛰어난 Postgres 및 SQL 이해력과 브라우저 내 일회용 데이터베이스의 결합 덕분에 가능하다.
  • AI는 데이터베이스에서 자율적으로 쿼리 최적화, 데이터 분석, 자동화된 보고서 생성 등의 작업을 수행할 수 있다.
  • GP4 O는 Postgres 및 SQL의 복잡한 쿼리를 이해하고 처리하는 능력을 통해 데이터베이스 관리의 효율성을 크게 향상시킨다.

3. 🔍 실시간 데모: 데이터베이스 생성 및 활용

  • 데이터 손실에 대한 걱정 없이 모델을 자유롭게 실행할 수 있음.
  • database.build로 이동하여 실시간 데모를 진행할 수 있음.
  • GPT-40을 사용하여 SQL을 생성하고 이를 직접 브라우저에서 실행 중인 데이터베이스에 적용함.
  • PG light를 사용하여 브라우저에서 Postgres를 실행함.
  • GPT-40을 통해 생성된 SQL은 데이터베이스에 직접 적용되어 실시간으로 결과를 확인할 수 있음.
  • 데모는 데이터베이스 생성부터 SQL 적용까지의 전체 과정을 포함하여 사용자가 직접 실습할 수 있도록 설계됨.

4. 🔧 도구 호출: 자율성과 효율성

  • 모델에 높은 자율성을 부여하기 위해 도구 호출을 사용하여 SQL 실행뿐만 아니라 그래픽 사용자 인터페이스에서만 가능한 작업도 수행.
  • Versel AI SDK를 사용하여 빠르게 반복 가능하며, 이는 오픈 소스로 제공되어 코드 스크린샷을 쉽게 얻을 수 있음.
  • 도구 호출은 클라이언트 측 도구를 제공하여 모델이 자동으로 호출할 수 있게 하며, Max steps는 무한 루프에 빠지지 않도록 제한을 설정.

5. 🛠️ SQL 실행: 스키마 업데이트 및 도구 활용

  • SQL 도구 호출을 통해 데이터베이스 스키마를 업데이트하고 쿼리 결과를 반환합니다.
  • 사용자 메시지와 데이터베이스 스키마를 모델과 공유하여 영화 추적을 위한 테이블을 생성합니다.
  • 브라우저 내 데이터베이스에서 쿼리를 실행하고 결과와 업데이트된 스키마를 모델에 피드백합니다.
  • 최종 단계에서 대화명을 '영화 추적 데이터베이스'로 변경합니다.

6. 🔍 벡터 임베딩: 의미론적 검색 기능

  • 모델은 다양한 도구를 연속적으로 호출하여 높은 자율성을 가짐
  • SQL 오류가 발생하면 언어 모델이 문제 해결을 위해 여러 번 시도함
  • PG 벡터와 Transformers Js를 사용하여 내장된 벡터 임베딩 지원 제공
  • 데모에서 영화 제목에 대한 임베딩을 생성하고 별도의 데이터베이스에 저장
  • 벡터 임베딩은 크기가 크므로 별도의 저장소에 보관
  • 임베딩을 통해 의미론적 검색 가능, 예를 들어 '배트맨' 관련 영화를 검색
  • PG 벡터를 사용하여 코사인 거리 계산으로 관련 영화 찾기 가능

7. ⚠️ 사용자 인터페이스: 비용 및 주의사항

  • 사용자 인터페이스에서 모든 동작은 도구 호출로 구현되며, 사용자가 인터페이스에서 동작을 클릭하면 채팅에서 메시지를 전송하고 모델이 나머지를 처리함.
  • 이 접근 방식은 사용자 경험을 향상시키고 빠른 반복을 가능하게 하지만, 비용 측면에서는 주의가 필요함.
  • 특히, 각 도구 호출은 추가적인 비용을 발생시킬 수 있으며, 대규모 사용자 기반에서는 비용이 급증할 수 있음.
  • 따라서, 비용 효율성을 유지하기 위해 도구 호출의 빈도를 최적화하고, 불필요한 호출을 줄이는 전략이 필요함.

8. 📊 차트 및 향후 계획: 사용자 경험 개선

8.1. Chart.js를 통한 차트 커스터마이징

8.2. 사용자 증가

8.3. 라이브 쉐어 기능

8.4. 강력한 테스트 환경 제공

Previous Digests