Lenny's Podcast: Product | Growth | Career: Salesforce의 공동 창립자이자 CEO인 마크 베니오프가 AI와 에이전트 기술의 중요성을 강조하며, 창업과 혁신에 대한 통찰을 공유합니다.
Latent Space: The AI Engineer Podcast: 2024년 NeurIPS에서 열린 Latent Space Live에서 컴퓨터 비전의 최신 동향과 발전을 다루었습니다.
Lenny's Podcast: Product | Growth | Career - Behind the founder: Marc Benioff
마크 베니오프는 Salesforce의 성공 비결과 AI 및 에이전트 기술의 중요성을 설명합니다. 그는 Salesforce의 초기 성공을 위해 창의적인 마케팅 전략을 사용했으며, 현재는 AI와 에이전트 기술을 통해 고객 지원을 자동화하고 있습니다. 베니오프는 AI가 우리의 삶을 변화시킬 중요한 기술이라고 강조하며, 이를 통해 고객 경험을 개선하고 비용을 절감할 수 있다고 말합니다. 그는 또한 창업자들에게 다양한 전략을 시도하고, 초심자의 마음가짐을 유지하며, 지속적인 개선을 추구할 것을 권장합니다. 베니오프는 AI와 에이전트 기술이 미래의 핵심이 될 것이라고 믿으며, 이를 통해 기업이 더 나은 서비스를 제공할 수 있을 것이라고 전망합니다.
Key Points:
- AI와 에이전트 기술은 고객 경험을 혁신하고 비용을 절감하는 데 중요한 역할을 합니다.
- 창업자는 다양한 전략을 시도하고, 초심자의 마음가짐을 유지하며, 지속적인 개선을 추구해야 합니다.
- Salesforce는 고객 지원을 자동화하여 인력 비용을 절감하고 효율성을 높이고 있습니다.
- 에이전트 기술은 개인화된 고객 경험을 제공하며, 미래의 핵심 기술로 자리잡을 것입니다.
- 성공적인 창업을 위해서는 제품, 마케팅, 세일즈 등 모든 요소를 조화롭게 운영해야 합니다.
Details:
1. 🔍 Salesforce의 시작과 교훈
- Salesforce는 스타트업 역사상 가장 전설적인 런칭 이벤트 중 하나를 개최했습니다.
- 이 이벤트는 1999년 3월에 열렸으며, '소프트웨어는 죽었다'라는 슬로건을 사용하여 큰 주목을 받았습니다.
- 이러한 주목을 끌기 위해 Salesforce는 혁신적인 마케팅 전략을 사용했습니다.
- Salesforce의 성공적인 런칭은 고객 중심의 접근 방식과 클라우드 기반 솔루션의 중요성을 강조했습니다.
- 이러한 전략은 이후 SaaS(Software as a Service) 모델의 확산에 기여했습니다.
2. 📈 성공의 비결과 주식에 대한 관점
- 다양한 전략을 시도하여 효과적인 방법을 찾고 있음
- 효과적인 전술을 발견하면 이를 장기적인 성공 전략으로 전환
- 주식이 사상 최고치를 기록하며 전략의 성공을 입증
3. 🤖 AI와 기술 혁신의 중요성
- AI는 우리 시대, 아마도 모든 시대를 정의하는 기술이다.
- AI는 다양한 산업에서 혁신을 주도하고 있으며, 이는 기업의 경쟁력을 강화하는 데 필수적이다.
- AI 기술을 활용한 기업은 고객 세분화를 통해 매출을 45% 증가시켰다.
- 새로운 방법론을 통해 제품 개발 주기가 6개월에서 8주로 단축되었다.
- 개인화된 참여 전략을 통해 고객 유지율이 32% 향상되었다.
4. 🎙️ 마크 베니오프와의 대화: 리더십과 비전
- AI의 빠른 발전 속도에 대한 경각심을 가져야 한다.
- 창업자로서 AI에 익숙해지는 순간, 새로운 기술에 대한 준비가 필요하다.
- 다음 기술 혁신에 대한 긍정적인 마인드셋을 유지하는 것이 중요하다.
- 리더는 AI가 가져올 수 있는 윤리적 문제를 사전에 고려해야 한다.
- AI 도입으로 인한 조직 내 변화 관리 전략을 수립해야 한다.
- AI 기술을 활용하여 고객 경험을 30% 향상시킨 사례를 참고할 수 있다.
5. 🌐 Salesforce의 성장과 시장 지배력
5.1. Salesforce의 시장 지배력과 성장
5.2. 리더십과 AI의 역할
5.3. 도메인 네임과 마케팅 전략
5.4. 제품 개발과 판매 전략
6. 💡 도메인 이름과 창의적 마케팅 전략
- Cloudinary는 인터넷 상의 모든 이미지와 비디오를 위한 기초 기술로, 200만 명 이상의 개발자와 세계 유수의 브랜드들이 신뢰하는 API 우선 이미지 및 비디오 관리 플랫폼입니다.
- 제품 리더들이 독특한 제품 가치를 표현하기 위해 시각적 스토리텔링에 의존하며, 웹 및 앱 경험을 구축하는 데 있어 AI의 힘을 활용하여 자동화하는 것이 유일한 방법임을 이해하는 데 도움을 줍니다.
- Fiverr의 엔지니어링 팀 리더인 Gil Grossman은 사용자들이 수십억 개의 이미지, 비디오 및 오디오 파일을 공유한다고 언급하며, Cloudinary의 능력을 강조합니다.
7. 🤝 스티브 잡스와의 관계와 교훈
- Interpret는 Gong 통화, Zendesk 티켓, Twitter 스레드, App Store 리뷰 등 모든 고객 상호작용을 통합하여 분석 가능하게 합니다.
- Canva, Notion, Loom, Linear, Monday.com, Strava와 같은 선도적인 제품 조직들이 Interpret를 신뢰하여 고객의 목소리를 제품 개발 과정에 반영하고 있습니다.
- Interpret는 고객의 요구 사항의 비즈니스 영향을 매핑하고 우선순위를 자신 있게 정할 수 있도록 도와줍니다.
- 팀 전체가 승패 분석, 중요한 버그 탐지, 이탈 요인 식별과 같은 사용 사례에 쉽게 대응할 수 있도록 지원합니다.
- Interpret의 AI 어시스턴트인 Wisdom을 통해 피드백 루프를 자동화하고 로드맵을 자신 있게 우선순위화할 수 있습니다.
- Notion, Canva, Linear처럼 연간 계획에 가입하면 두 달 무료 혜택을 받을 수 있는 제한된 시간 제공이 있습니다.
8. 🚀 에이전트 포스와 혁신 전략
9. 🧠 초심자의 마음과 지속적인 개선
- AI는 우리 시대의 결정적인 기술이며, 아마도 모든 시대의 결정적인 기술이다.
- AI의 빠른 발전 속도에 대한 창업자의 존재론적 불안감이 존재한다.
- 창업자는 AI에 익숙해지자마자 새로운 에이전트 기술을 도입해야 하는 압박을 느낀다.
- 다음 기술 혁신을 기대하는 마음가짐을 유지하는 것이 중요하다.
- AI의 발전은 다양한 산업에 걸쳐 혁신을 촉진하며, 기업들은 이를 통해 경쟁력을 유지해야 한다.
- 예를 들어, AI 기반의 고객 세분화 도입 후 매출이 45% 증가한 사례가 있다.
- AI 기술을 활용하여 제품 개발 주기를 6개월에서 8주로 단축한 사례도 있다.
10. 🎢 도전과 실패에서 배우기
- Salesforce는 세계에서 두 번째로 큰 B2B SaaS 회사로, 현재 가치가 약 3,500억 달러에 달하며 연간 350억 달러의 수익을 창출하고 있습니다.
- Salesforce는 설립 25년 후에도 여전히 빠르게 성장하고 있으며 시장을 지배하고 있습니다.
- 리더십, AI, 도메인 이름, 초심자의 마음가짐, 마케팅, 제품, 판매 등 다양한 주제를 다루었습니다.
- Mark Benioff의 Salesforce 구축 과정에서 가장 어려운 순간에 대해 논의했습니다.
11. 🌟 미래를 향한 비전과 성장 전략
- Cloudinary는 200만 명 이상의 개발자와 세계 유수의 브랜드들이 신뢰하는 API 기반 이미지 및 비디오 관리 플랫폼입니다.
- 제품 리더들이 독특한 제품 가치를 표현하기 위해 시각적 스토리텔링에 의존하는 데 적합하게 설계되었습니다.
- 웹 및 앱 경험을 구축하는 데 있어 AI의 힘을 활용하여 자동화하는 것이 유일한 방법임을 이해하는 리더들을 위해 만들어졌습니다.
- Fiverr의 엔지니어링 팀 리더 Gil Grossman은 사용자들이 수십억 개의 이미지, 비디오, 오디오 파일을 공유한다고 언급했습니다.
- Cloudinary는 AI를 활용하여 이미지 및 비디오 관리의 효율성을 극대화하고, 사용자 경험을 향상시키는 데 기여하고 있습니다.
Latent Space: The AI Engineer Podcast - 2024 in Vision [LS Live @ NeurIPS]
Latent Space Live는 NeurIPS 2024에서 개최된 미니 컨퍼런스로, 컴퓨터 비전 분야의 최신 동향을 다루었습니다. 주요 발표자로는 Roboflow의 Peter Robichaux와 Isaac Robinson, Moondream의 Vic Corapatti가 참여했습니다. 이들은 2024년의 컴퓨터 비전 분야에서 주목할 만한 연구와 기술 발전을 소개했습니다. 특히, 비전 언어 모델의 주류화와 YOLO를 대체하는 새로운 객체 탐지 모델의 부상을 강조했습니다. 또한, SAM2와 같은 비디오 세분화 기술과 MagVIT을 활용한 비디오 생성의 발전을 다루었습니다. Moondream의 Vic Corapatti는 작은 파라미터의 비전 언어 모델을 소개하며, 이를 통해 다양한 비전 애플리케이션을 구축할 수 있는 가능성을 제시했습니다. 이러한 발표들은 컴퓨터 비전 분야의 최신 기술과 연구 동향을 이해하는 데 큰 도움이 되었습니다.
Key Points:
- 비전 언어 모델의 주류화: GPT-40, CLAWD Claude 3, Gemini 1 및 2, Lama 3.2 등 다양한 모델이 멀티모달로 발전했습니다.
- YOLO를 대체하는 새로운 객체 탐지 모델: RT-DETTER, LW-DETTER, DEFINE 등이 YOLO를 능가하는 성능을 보였습니다.
- SAM2를 통한 비디오 세분화: SAM 전략을 비디오에 적용하여 객체 추적의 정확성을 높였습니다.
- MagVIT을 활용한 비디오 생성: 비디오 토크나이저를 통해 고품질의 비디오 생성이 가능해졌습니다.
- Moondream의 작은 파라미터 모델: Vic Corapatti는 작은 파라미터의 비전 언어 모델을 통해 다양한 애플리케이션 구축 가능성을 제시했습니다.
Details:
1. 🎉 Latent Space Live 소개
- Latent Space Live는 NeurIPS 2024에서 밴쿠버에서 개최된 첫 번째 미니 컨퍼런스입니다.
- 이 이벤트는 인공지능과 머신러닝 분야의 최신 발전을 논의하고, 업계 전문가들과 네트워킹할 수 있는 기회를 제공합니다.
- 주요 발표자에는 AI 연구의 선두주자들이 포함되어 있으며, 다양한 워크숍과 패널 토론이 진행됩니다.
- 참가자들은 최신 기술 트렌드와 연구 결과를 공유하고, 협업의 기회를 모색할 수 있습니다.
2. 🗣️ 설문조사와 발표자 초대
- 900명 이상의 참가자에게 설문조사를 실시하여 원하는 내용을 파악함
- 각 분야를 다루기 위해 Latent Space Network의 최고의 발표자를 초대함
3. 👁️ 비전 2024 키노트와 비전 언어 모델의 주류화
- 비전 2024 키노트에는 200명이 현장에 참석하고 2,200명이 온라인으로 시청했습니다. 이는 올해 가장 높은 관심 분야로, 비전 언어 모델의 중요성을 강조했습니다.
- Roboflow의 Peter Robichaux와 Isaac Robinson이 키노트를 진행하며, 오픈 소스 비전 모델과 도구의 발전을 소개했습니다.
- Roboflow는 최근 SuperVision 라이브러리가 PyTorch의 Vision 라이브러리를 능가하는 성과를 이루며, 오픈 소스 비전 모델의 선두주자로 자리매김했습니다.
- RoboFlow Universe는 수십만 개의 오픈 소스 비전 데이터셋과 모델을 호스팅하여, 연구자와 개발자에게 중요한 자원을 제공합니다.
- Google Ventures가 주도한 4천만 달러의 시리즈 B 투자를 발표하며, Roboflow의 성장과 혁신을 지원하고 있습니다.
4. 📊 비디오 생성과 SAM2의 혁신
4.1. Sora의 비디오 생성 혁신
4.2. SAM2의 비디오 생성 혁신
5. 🔍 실시간 객체 탐지와 Debtors의 발전
- MagVIT는 VQGAN과 유사한 비디오 토크나이저로, 비디오 시퀀스에 적용되어 수작업 비디오 압축 프레임워크를 초과하는 성능을 발휘합니다.
- 비트레이트 대비 인간의 품질 선호도에서 우수한 성능을 보입니다.
- 자동 회귀를 통해 생성된 비디오는 최대 5초 길이로 생성되며, 세부 사항은 다소 부족합니다.
- 몇 달 후, 1080p 해상도와 1분 길이의 비디오가 등장하며, RTX 데모와 유사한 그래픽 품질을 보여줍니다.
- 배경에 약간의 문제가 있지만, 대부분의 사용자들은 이를 인식하지 못할 가능성이 큽니다.
6. 🧠 Sora와 OpenSora의 비디오 생성 및 디퓨전 모델
- DALI 3에서 도입된 트릭으로, 이미지 캡셔닝 모델을 훈련하여 대규모 코퍼스에 대해 매우 고품질의 캡션을 생성하고, 이를 기반으로 디퓨전 모델을 훈련함.
- SORA와 복제 노력은 비디오 생성에 필요한 여러 단계를 보여주며, 미적 점수로 필터링하고 충분한 움직임이 있는지 확인하여 정적 프레임만 생성하지 않도록 함.
- OpenSora는 MagVIT v2를 사용하여 디스크리타이제이션 단계를 클래식 VAE 오토인코더 프레임워크로 교체함.
- 시간 압축을 통해 중복 정보를 피하면서 잠재 공간에 더 많은 의미 정보를 보유할 수 있음.
- OpenSora는 MagVIT V2를 사용하여 원래는 오토리그레시브 트랜스포머 디코더를 사용했으나, 이제는 디퓨전 트랜스포머를 사용함.
- 고성능 디퓨전 모델은 DDPM에서 벗어나 정류 흐름으로 전환하고 있으며, 이는 단일 단계로 샘플링할 수 있는 가능성을 높임.
- DDPM 모델은 고품질 샘플을 생성하는 데 많은 단계가 필요했으나, 정류 흐름은 이를 개선함.
- 페이스북의 원본 논문에서는 트랜스포머의 특정 하이퍼파라미터가 크게 중요하지 않으며, 모델에 더 많은 컴퓨팅을 투입하는 것이 중요하다고 언급함.
7. 🔄 SAM2의 비디오 적용과 메모리 뱅크
- Roboflow의 SAM은 사용자들의 라벨링 시간을 75년 절약했습니다.
- SAM API는 가장 큰 규모로 운영되고 있으며, 순수 바운딩 박스 회귀 모델을 통해 고품질 마스크를 생성할 수 있습니다.
- SAM2는 비디오에 적용되어 플러그 앤 플레이 방식으로 사용자 사례에 적합합니다.
- SAM2는 기존의 VIT 대신 계층적 인코더를 사용하여 6배 빠른 추론 속도를 제공합니다.
- 비디오 세그멘테이션에서는 메모리 뱅크를 생성하여 이미지 인코더의 특징을 기반으로 교차 주의합니다.
8. 📊 Debtors와 YOLO의 비교 및 성능 향상
- SAM2 전략은 최신 기술 수준을 개선함.
- 메모리 수를 늘리는 것이 성능을 의미 있게 증가시키지 않으며, 속도를 감소시킴.
- FIFO 큐 메모리 사용이 정당화됨.
- 실시간 객체 탐지기 훈련에 대한 관심 증가.
9. 🚀 Debtors의 프리트레이닝과 최적화
- YOLOs는 실시간 객체 탐지에서 오랫동안 지배적인 방법이었으나, 최근 성능이 정체됨.
- RT-DETTER, LW-DETTER, DEFINE 모델은 COCO 데이터셋에서 동일한 지연 시간에 4.6 AP 증가를 달성.
- RT-Dedr는 YOLOs와 속도를 맞추거나 초과할 수 있음을 보여줌.
- LW-Dedr는 프리트레이닝이 Debtors에 매우 효과적임을 입증.
- Define은 복잡한 손실 함수를 Debtors에 도입하여 다양한 프레임워크에서 일관된 개선을 보여줌.
- Debtors는 10밀리초 내에 거의 60 AP를 달성하며, 적은 데이터로 더 나은 모델을 구축하는 방향으로 발전 중.
- LW debtor는 50 에포크, RT debtor는 60 에포크로 빠르게 수렴.
- RobofFlow 100 데이터셋에서 우수한 성능을 보여줌.
- 프리트레이닝은 긴 훈련 주기로 인해 원래 가중치를 손상시키지 않음.
- 대규모 추론에서 백본을 교체할 때 잘 확장되는 모델을 기대.
10. 🔍 LLM의 시각적 한계와 Florence 2의 혁신
- LLM은 시각적 세부 사항을 인식하지 못하며, 이는 Claude나 ChatGPT와 같은 모델이 시계의 시간을 읽지 못하는 테스트에서 확인됨.
- MMVP 논문은 LLM이 세부 사항을 인식하지 못하는 이유를 조사하며, Clip을 비전 인코더로 초기화한 모델이 세부 사항을 잘 인식하지 못한다고 가정함.
- DynaV2는 이미지 데이터만으로 자가 지도 학습된 모델로, Clip 공간에서는 가깝지만 DynaV2 공간에서는 먼 임베딩을 찾아 어려운 이미지를 식별함.
- Clip과 DynaV2 특징을 혼합하여 시도했으나, DynaV2 특징이 언어 모델링 작업에 부정적인 영향을 미침.
- DynaV2 특징을 직접 사용하는 것은 효과적이지 않으며, 이는 DynaV2가 언어 작업에 충분하지 않음을 의미함.
11. 📈 PolyGemma와 PolyGemma 2의 발전
11.1. Florence 모델의 발전
11.2. PolyGemma 모델의 발전
12. 🔍 AIM-V2와 시각적 특징 학습
- AIM-V2 모델은 해상도와 언어 모델의 파라미터 수가 증가함에 따라 성능이 향상됨을 보여줍니다.
- AIM-V2는 2억 개의 파라미터를 가진 언어 모델로, ChatGPT와 비교할 때 상당한 성과를 보였습니다.
- AIM-V2는 복잡한 주석 없이 이미지 토큰과 픽셀 토큰을 결합하는 간단하고 효율적인 방법을 제안합니다.
- AIM-V2는 PolyGemo와 유사하게 비전 인코더가 이미지 토큰을 디코더 전용 트랜스포머에 덤프하는 방식을 사용합니다.
- AIM-V2는 이미지 토큰의 평균 제곱 오차를 자가 회귀적으로 학습하여 세밀한 특징을 학습합니다.
- AIM-V2는 고품질의 인터넷 스케일 데이터를 사용하여 훈련되었으며, 이는 최고의 클립 데이터로 평가받습니다.
- AIM-V2는 해상도가 증가할수록 성능이 향상되며, 이는 세밀한 시각적 특징을 잘 활용하고 있음을 의미합니다.
- AIM-V2는 Cocoa 데이터셋에서 60.2의 성능을 기록하며, 이는 시각적 특징을 잘 찾아내는 데 뛰어난 성과를 보입니다.
13. 🧠 AIM-V2의 성능과 한계
13.1. AIM-V2의 성능
13.2. AIM-V2의 한계
14. 🔍 Moonbeam의 비전 언어 모델과 최적화
- Moonbeam은 초기 작은 비전 언어 모델로 시작하여 툴링 및 클라이언트 라이브러리를 개발하여 배포를 지원합니다. 이는 개발자가 비전 애플리케이션을 어디서나 실행할 수 있도록 돕는 데 중점을 두고 있습니다.
- 엣지 및 실시간 실행을 중시하며, 다양한 출력 모달리티를 지원합니다. 이미지에 대한 일반적인 질문에 인간과 같은 답변을 제공하는 쿼리 기능을 제공합니다.
- 합성 데이터셋 생성을 위한 캡셔닝 기능을 제공하며, 이는 확산 모델 훈련에 사용됩니다. 환각을 최소화하기 위한 작업도 수행합니다.
- 오픈 보캐블러리 객체 탐지 기능이 내장되어 있어 특정 객체를 탐지할 수 있으며, 최근 포인팅 기능이 출시되어 객체의 중심을 식별할 수 있습니다. 이는 EOI 자동화에 유용합니다.
- 현재 두 가지 모델을 제공합니다: 일반 목적 2B 파라미터 모델과 0.5B 파라미터 모델. 2B 모델은 서버 및 플래그십 모바일에서 실행 가능하며, 0.5B 모델은 메모리 사용량이 적어 구형 모바일 및 엣지 디바이스에 적합합니다.
- 0.5B 모델은 2B 모델을 기반으로 가지치기 및 지속적 훈련을 통해 성능을 유지합니다. 모델의 다양한 구성 요소의 중요성을 추정하여 가지치기를 수행하며, 성능 손실을 최소화하고 성능을 회복하기 위해 모델을 재훈련합니다.
- 0.5B 모델은 개념 증명으로, 개발자가 2B 모델을 사용하여 애플리케이션을 탐색하고 배포 준비 시 필요한 기능을 작은 형태로 가지치기할 수 있습니다.
15. 🔧 게이지 판독 문제와 체인 오브 생각의 적용
- 제조 및 석유 가스 산업에서 아날로그 장치를 모니터링하는 것은 비용이 많이 든다. 기존 모델은 게이지 판독 문제를 해결하지 못했다.
- 인터넷에서 수집된 이미지 텍스트 데이터는 편향될 수 있으며, 게이지 이미지 대부분은 제품 세부 이미지로 실제 게이지 판독과는 차이가 있다.
- 합성 데이터를 사용하여 문제를 해결하려 했으나, 수백만 개의 합성 게이지 이미지가 필요했다.
- 게이지 판독은 단순한 과정이 아니며, 여러 단계의 사고 과정이 필요하다. 체인 오브 생각을 추가하여 모델이 더 나은 이해를 할 수 있도록 했다.
- 모델은 체인 오브 생각을 통해 더 효율적으로 학습할 수 있었으며, 예측 오류를 통해 체인 오브 생각을 조정할 수 있다.
- 고객이 특정 게이지에 대해 몇 가지 예시를 제공하면, 체인 오브 생각을 통해 오류를 수정할 수 있다.
- 현재 시계와 게이지에만 적용했지만, 일반화 가능성이 있다.
- 이미지 기반 체인 오브 생각 외에도 철자 기반 체인 오브 생각을 추가했다.
- VLMs는 LLMs에 비해 인식 능력이 뒤처지고 있다. 인터넷에는 문제 해결에 대한 데이터는 많지만, 인식에 대한 데이터는 부족하다.
- Moon Dream에서는 모든 곳에서 실행 가능한 PLMs를 개발 중이다.
Included Channels
Fireship
Anthropic
OpenAI
All-In with Chamath, Jason, Sacks & Friedberg
Lex Fridman Podcast
Modern Wisdom
In Depth
Greymatter
a16z Podcast
Lenny's Podcast: Product | Growth | Career
No Priors AI
Lightcone Podcast
The Twenty Minute VC (20VC): Venture Capital | Startup Funding | The Pitch
Latent Space: The AI Engineer Podcast
How I Built This with Guy Raz
BG2Pod with Brad Gerstner and Bill Gurley