Home
Categories
EXPLORE
True Crime
Comedy
Society & Culture
Business
Sports
History
TV & Film
About Us
Contact Us
Copyright
© 2024 PodJoint
00:00 / 00:00
Sign in

or

Don't have an account?
Sign up
Forgot password
https://is1-ssl.mzstatic.com/image/thumb/Podcasts211/v4/79/f3/66/79f366d3-dfb2-4c6e-ade6-e95e18261c4f/mza_6811336372335437524.jpg/600x600bb.jpg
晚点聊 LateTalk
晚点 LatePost
139 episodes
1 day ago
《晚点聊 LateTalk》由《晚点 LatePost》出品。 最一手的科技访谈,最真实的从业者思考。
Show more...
Business
Technology,
News
RSS
All content for 晚点聊 LateTalk is the property of 晚点 LatePost and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.
《晚点聊 LateTalk》由《晚点 LatePost》出品。 最一手的科技访谈,最真实的从业者思考。
Show more...
Business
Technology,
News
https://media24.fireside.fm/file/fireside-images-2024/podcasts/images/1/19a49f52-28ee-4e25-b8e9-4f0ee70917e0/cover.jpg?v=7
139: ICCV最佳论文、光年之外、Sand.ai:曹越十年AI之旅,从研究者到CEO
晚点聊 LateTalk
2 hours 6 minutes 28 seconds
1 week ago
139: ICCV最佳论文、光年之外、Sand.ai:曹越十年AI之旅,从研究者到CEO

「从模型驱动到垂直整合:Gaga-1 是第一个产物。」


图注:飞书“智能会议纪要”功能为本次播客生成的概要图。

本期节目由飞书特别支持播出!欢迎大家尝试“智能会议纪要”(https://www.feishu.cn/product/ai-meeting-summary?hideHeader=1&utm_from=latetalk),功能,点击前文晚点转述链接,可申请 1 个月免费使用。

2024 年初,刚听说曹越开始新一次创业时,我就找他聊过一次。那时他有一个吸引科技报道者的标签:光年之外联创。

今年 10 月的这次正式访谈中,我有点儿理解了为什么王慧文在 2023 年初见了那么多研究者后,会选择曹越来做技术合伙人——曹越是少数在 ChatGPT 之前,预判到大模型热潮的中国研究者。2021 年,他拿下 ICCV 最佳论文后,离开了微软亚研院,加入了国内最早做大模型的机构,智源研究院。

让我稍感意外的是,曹越做研究员时,就格外关注组织与机制;2021 年,在看到 DALL-E 和 CLIP 后,他开始研究 OpenAI 是怎么协作的,这也是他加入智源的原因之一。

这期节目,曹越回顾了他在清华读本科时,如何看到深度学习,那篇 ICCV 最佳论文的诞生;他从研究员到创业者的转变;对 Sora 的观察,以及 Sand.ai 打造新一代模型 Gaga-1 的思考与实践。

通过学习 OpenAI 等全球顶尖公司,更重要的是通过自己的实践和反馈,曹越现在的认知是,要做一个垂直整合的“端到端”的组织,更好平衡模型进展与从需求出发,10 月中旬 Sand.ai 新发布的模型 Gaga-1 就是垂直整合的产物。它聚焦解决人物表演问题,“人物不一致、表演假”,是许多试图使用 AI 的内容制作者之前最大的痛点。


图注:在 Gaga AI 网站 (https://gaga.art/zh/app) 上,现在可体验音画同出、聚焦人物表演能力的视频生成

在技术驱动的 AI 创业时代,一个模型出身的创始人,如何判断趋势,又怎么学习做 CEO?曹越分享了他的探索和体验。

本期嘉宾:曹越,Sand.ai 创始人兼 CEO
本期主播:程曼祺,《晚点 LatePost》科技报道负责人


**本期播客也有视频版,可在抖音、B站、小红书、视频号搜索《晚点 LatePost》观看。*

时间线跳转:
-从 ICCV 最佳论文到研究 OpenAI 组织力:设计一个系统,最大化压榨算力
02:08 2014 年转向深度学习
03:37 在微软亚研院学到的-1:关注最重要、且有提升空间的 topic
05:09 Swin Transfomer 的诞生,Transformer 被引入视觉任务的两个阶段
11:15 在微软亚研院学到的-2:判断 topic 还不够,得以足够资源做出极致效果
13:02 CLIP、DALL·E 冲击:OpenAI 不是论文驱动,而是设计一个系统,最大化压榨算力
18:10 从 GPT-3 到 ChatGPT,3 年疫情阻隔使 OpenAI 巨变被忽略

-中国为什么没有出现 OpenAI 这样的组织?王慧文说是“不够富”
21:30 和王慧文、梁文锋聊;他们都在 23 年初遍历国内研究者
26:57 问老王:为什么中国没有出现 OpenAI?——“不够富”
32:54 光年之外的经验:一开始就确立了正确的“找人方法论”
34:36 CEO 容易焦虑,这时可以想想大问题

-“真的了解创业后,突然感觉什么都对了”
37:16 23 年 8 月开始思考创业:视频生成让自己兴奋
40:54 创业前的自我觉察:ambitious
46:59 第一个模型 Magi-1 花了 1 年多:低估了自回归路线的难度
50:23 正在发生的业务窗口是“音画同出”

-“Sora 2 是一个端到端的模型,OpenAI 是一个端到端的组织”
52:36 Sora 2 的 3 个特点,第三点最让曹越惊艳
58:23 Sora 2 怎么实现“端到端叙事”的?
01:03:58 Vibes vs Sora,Meta 是缝合,OpenAI 是整合

-Gaga-1:从需求出发,优先解决人物表演
01:06:53 新模型 Gaga-1 聚焦人物表演,成本大幅下降
01:10:33 用 AI 做短剧,卡点正在人物表演和成本;Sora 的新启发是叙事
01:15:27 需求分析:短剧制作、广告片、C 端斗视频
01:19:42 Sora 能否成为 C 端新平台?曹越的两个判断指标

-垂直整合组织的核心就是:不同背景的人,能对齐上下文
01:23:10 PMF 一直讲,一直难:因为模型和产品的磨合就是要花时间
01:28:07 垂直整合:不同背景的人频繁交流,对齐上下文
01:31:16 再看“模型即产品”:早期产品跟着模型走,现在要互相放大

-成为 CEO
01:38:41 一个“专业”的 CEO
01:42:04 “Gemini 老师”的最大作用是对齐上下文
01:50:27 所有内容的终局都是“叙事”
01:52:29 老王的建议:研究皮克斯商业模式
01:56:06 研究者和 CEO 的“夹角”
01:58:24 最优先级的工作
02:01:01 Next Question:ASI 到来后会怎样

02:03:12 连点成线:往期推荐

相关链接:
晚点聊 136:《Sora新世界 & Lovart 4个月复盘 | 与陈冕聊怎么做垂类Agent|Agent#5》

晚点聊 58:《光年之外联创再出发,与袁进辉聊 AI Infra 到底做什么?》

晚点聊 39:《从美团收购光年之外,聊聊科技公司收并购的操作与故事》

附录:
CNN(卷积神经网络):由 Yann LeCun(杨立昆) 等人在 1989 年提出,用于从图像等网格数据中提取局部特征,是深度学习在计算机视觉领域的基础架构。
Transformer:由 Google Brain 在 2017 年 提出,用“自注意力机制”替代循环结构,实现了高效的并行训练,成为目前大模型的核心架构。
iGPT(Image GPT):由 OpenAI 在 2020 年提出,将 GPT 语言建模思想用于图像像素预测,验证了 Transformer 可用于视觉生成任务。
ViT(Vision Transformer):由 Google Research 在 2020 年提出,将图像分割为小块后输入 Transformer,首次在大规模数据上超越 CNN 的图像识别性能。
Swin Transformer:由微软亚洲研究院刘泽、曹越等人在 2021 年提出,通过“层次化窗口注意力”结构改进 ViT,使 Transformer 能高效处理不同尺度的视觉任务。
DALL·E:由 OpenAI 在 2021 年 发布,将 GPT-3 与图像生成结合,可根据文字生成符合语义的图像。
CLIP:由 OpenAI 在 2021 年提出,通过大规模图文对比学习,实现文本与图像的语义对齐,是后续多模态系统的基础模型之一。
Instruct-GPT:由 OpenAI 在 2022 年 发布,通过基于人类反馈的强化学习(RLHF)让 GPT-3 更好理解指令,是 ChatGPT 产品化的重要前提。

剪辑制作:甜食

本期主播:
小红书@曼祺_火柴Q即刻@曼祺_火柴Q

☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:

晚点聊 LateTalk
《晚点聊 LateTalk》由《晚点 LatePost》出品。 最一手的科技访谈,最真实的从业者思考。