怎么用 GPT 给 Youtube 视频生成文字摘要
ChatGPT 走红以来,呼声最高的功能大概是生成视频摘要,每天有太多小姐姐要刷,没功夫看长视频对吧?
这类工具较少,我测试了其中几个
1/
最好用的是设计最土的 youtubedigest.app,
https://t.co/g2uIJhTEPq
可以输出中文摘要,摘要形式包括短文、段落、列表和小节,速度还行
2/
第二个工具也是浏览器插件
https://glasp.co/youtube-summary
主打功能是生成 Youtube 视频的文字脚本,速度挺快,也能生成 Youtube 视频摘要,但是操作流程太烂了,直接跳到了 OpenAI:让你自己打开 ChatGPT,它再把视频摘要输出到 ChatGPT
很多情况下我们使用工具,就是不想在 ChatGPT 里干等啊
3/
第三个工具的定位是面向播客听众,它能为 YouTube 和 MP3 文件生成摘要。免费用户每个月只能解析 120 分钟
featherai.co
界面也是令人落泪的简陋,而且为了节省前端工作,你在网站上提交 Youtube 地址或上传 MP3 文件之后,它用 email 把摘要结果发给你
浏览器插件有 bug,无法登录
以上几个工具,都无法为中文视频生成摘要
它们速度都比想象中快,不清楚它们背后用到了哪些技术,又有多依赖 GPT
上面第一个视频生成文字摘要的工具,应该是类似工具的一个产品设计方向:它不仅仅像文章摘要一样为全文生成综合摘要,它还把视频按时间分成小节、分别生成摘要,这样摘要效果更好
ChatGPT 走红以来,呼声最高的功能大概是生成视频摘要,每天有太多小姐姐要刷,没功夫看长视频对吧?
这类工具较少,我测试了其中几个
1/
最好用的是设计最土的 youtubedigest.app,
https://t.co/g2uIJhTEPq
可以输出中文摘要,摘要形式包括短文、段落、列表和小节,速度还行
2/
第二个工具也是浏览器插件
https://glasp.co/youtube-summary
主打功能是生成 Youtube 视频的文字脚本,速度挺快,也能生成 Youtube 视频摘要,但是操作流程太烂了,直接跳到了 OpenAI:让你自己打开 ChatGPT,它再把视频摘要输出到 ChatGPT
很多情况下我们使用工具,就是不想在 ChatGPT 里干等啊
3/
第三个工具的定位是面向播客听众,它能为 YouTube 和 MP3 文件生成摘要。免费用户每个月只能解析 120 分钟
featherai.co
界面也是令人落泪的简陋,而且为了节省前端工作,你在网站上提交 Youtube 地址或上传 MP3 文件之后,它用 email 把摘要结果发给你
浏览器插件有 bug,无法登录
以上几个工具,都无法为中文视频生成摘要
它们速度都比想象中快,不清楚它们背后用到了哪些技术,又有多依赖 GPT
上面第一个视频生成文字摘要的工具,应该是类似工具的一个产品设计方向:它不仅仅像文章摘要一样为全文生成综合摘要,它还把视频按时间分成小节、分别生成摘要,这样摘要效果更好
👍5❤1👏1
Media is too big
VIEW IN TELEGRAM
“从0到1手搓GPT”教程来了!
视频1个多小时,从原理到代码都一一呈现,训练微调也涵盖在内,手把手带着你搞定。
该内容刚发出来,在Twitter已吸引400万关注量,HackerNews上Points也破了900。连马斯克也下场支持。
这位创作者是谁?
正是前特斯拉AI总监,李飞飞高徒——Andrej Karpathy。
🖥 https://github.com/karpathy/nanoGPT
视频1个多小时,从原理到代码都一一呈现,训练微调也涵盖在内,手把手带着你搞定。
该内容刚发出来,在Twitter已吸引400万关注量,HackerNews上Points也破了900。连马斯克也下场支持。
这位创作者是谁?
正是前特斯拉AI总监,李飞飞高徒——Andrej Karpathy。
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🥰3
#chatGPT观点
在基于AI重构互联网软件生态的过程中,首当其冲的应该会是前端。
ChatGPT和New Bing已经让我们看到使用自然语言作为人机界面几乎可以对搜索引擎产生降维式的碾压效果,其原因是AI能在相当程度上“理解”用户的意图。
典型互联网App前端的工作流程无非是从服务器拉数据呈现出来,通过交互元素收集用户输入,再通过API发送给服务器。
当AI的车轮碾过时,什么布局、排版、界面风格、交互逻辑、引导提示,全都不重要了,一个聊天框全搞定。
例如设计合理电商App可以让用户很方便地在历史订单中找到某次购物记录,然后还贴心地加了个“再次购买”的快捷操作,不可谓不细致。
但是不论你怎么设计都不如我按一下麦克风按钮直接说:上次买的牛奶再来一箱。
我们知道很多大老板几乎完全不会用手机,毕竟手机App交互设计得再好也不如跟秘书说一声简单。
技术上应该没什么明显障碍的,ChatGPT已经有根据自然语言去调用API的能力了(连代码都能给出来,只是没权限真去调用)。
当然现阶段AI有其弱点,就是模糊性和不确定性,不过放在前端也还好,实际操作前都可以让用户确认一下。
估计几年之内,各大互联网厂商都会有能力训练出自己的阿猫阿狗GPT,然后App里会上线一个啥都能干的聊天框。
再后来用户渐渐习惯了这个输入框,客户端的更新也慢了下来,直到有一天这个聊天框连推荐贷款都学会了,每个App几乎都只剩下一个聊天框。
到这时候AI仍然不会写前端代码,但是前端程序员的规模将萎缩80%,产品经理、UI、UX等职位亦受波及。
在基于AI重构互联网软件生态的过程中,首当其冲的应该会是前端。
ChatGPT和New Bing已经让我们看到使用自然语言作为人机界面几乎可以对搜索引擎产生降维式的碾压效果,其原因是AI能在相当程度上“理解”用户的意图。
典型互联网App前端的工作流程无非是从服务器拉数据呈现出来,通过交互元素收集用户输入,再通过API发送给服务器。
当AI的车轮碾过时,什么布局、排版、界面风格、交互逻辑、引导提示,全都不重要了,一个聊天框全搞定。
例如设计合理电商App可以让用户很方便地在历史订单中找到某次购物记录,然后还贴心地加了个“再次购买”的快捷操作,不可谓不细致。
但是不论你怎么设计都不如我按一下麦克风按钮直接说:上次买的牛奶再来一箱。
我们知道很多大老板几乎完全不会用手机,毕竟手机App交互设计得再好也不如跟秘书说一声简单。
技术上应该没什么明显障碍的,ChatGPT已经有根据自然语言去调用API的能力了(连代码都能给出来,只是没权限真去调用)。
当然现阶段AI有其弱点,就是模糊性和不确定性,不过放在前端也还好,实际操作前都可以让用户确认一下。
估计几年之内,各大互联网厂商都会有能力训练出自己的阿猫阿狗GPT,然后App里会上线一个啥都能干的聊天框。
再后来用户渐渐习惯了这个输入框,客户端的更新也慢了下来,直到有一天这个聊天框连推荐贷款都学会了,每个App几乎都只剩下一个聊天框。
到这时候AI仍然不会写前端代码,但是前端程序员的规模将萎缩80%,产品经理、UI、UX等职位亦受波及。
👍9👏4❤1
AI中文社区
Language is not all you need.pdf
微软刚刚发布了多模态大语言模型的论文:Language Is Not All You Need
模型命名为:MOSMOS-1
网友直呼: 这个领域太卷了,不睡觉都赶不上进度😂
模型命名为:MOSMOS-1
网友直呼: 这个领域太卷了,不睡觉都赶不上进度😂
🤣4
Deep Learning Do It Yourself
推荐这个深度学习的课程,理论 + 实践结合。
比如如果最近对大模型比较感兴趣,可以直接看第 12 节:Attention and Transformers
dataflowr.github.io/website/
推荐这个深度学习的课程,理论 + 实践结合。
比如如果最近对大模型比较感兴趣,可以直接看第 12 节:Attention and Transformers
dataflowr.github.io/website/
👍3🥰1
#观点
生物人是数字智能的引导程序
三年前二马(马斯克和马云)在上海有一段著名的对话。当时没太重视,今天看到ChatGPT的优异表现,颇受触动。马斯克颇为委婉地说:It seemed to me some time ago that you could sort of think of humanity as a biological boot loader for digital super intelligence. 生物人是数字智能的引导程序。
所谓Boot Loader是任何电脑打开电源后启动后要执行的一小段代码(中文翻译成自举程序),它的使命是把电脑的核心操作系统(Windows、MacOS、Linux,Android,IOS)拉进内存,开始电脑真正的生命。电脑一旦开始正常工作,这段代码就会被永远忘记和抛弃。
马斯克的意思是:数字超级智能无法自动在地球上产生,必须由人类做助产士,但助产士被遗忘、被抛弃也是她的宿命。人类已经意识到:超级数字智能的发展速度是人类智能发展速度的不知道多少倍。人类观察它的发展进程,正处于马云所说的四个阶段的第三阶段:看不见、看不起、看不懂、来不及。
生物人是数字智能的引导程序
三年前二马(马斯克和马云)在上海有一段著名的对话。当时没太重视,今天看到ChatGPT的优异表现,颇受触动。马斯克颇为委婉地说:It seemed to me some time ago that you could sort of think of humanity as a biological boot loader for digital super intelligence. 生物人是数字智能的引导程序。
所谓Boot Loader是任何电脑打开电源后启动后要执行的一小段代码(中文翻译成自举程序),它的使命是把电脑的核心操作系统(Windows、MacOS、Linux,Android,IOS)拉进内存,开始电脑真正的生命。电脑一旦开始正常工作,这段代码就会被永远忘记和抛弃。
马斯克的意思是:数字超级智能无法自动在地球上产生,必须由人类做助产士,但助产士被遗忘、被抛弃也是她的宿命。人类已经意识到:超级数字智能的发展速度是人类智能发展速度的不知道多少倍。人类观察它的发展进程,正处于马云所说的四个阶段的第三阶段:看不见、看不起、看不懂、来不及。
👍10🤯2
#OpenAI 刚刚 launch 了 #ChatGPT 背后的模型:gpt-3.5-turbo
现在可以在 API 中使用这个模型了,比 text-davinci-003 便宜 10 倍(1k token / $0.002)。
另外也 launch 了 whisper 的 API,可以直接通过 API 的方式来做语音识别。
已经可以想象到某些公司推出自己大模型时的场景:成本高、效果差,价格和 OpenAI 相比还没有优势。
Drawing dead.
https://openai.com/blog/introducing-chatgpt-and-whisper-apis
现在可以在 API 中使用这个模型了,比 text-davinci-003 便宜 10 倍(1k token / $0.002)。
另外也 launch 了 whisper 的 API,可以直接通过 API 的方式来做语音识别。
已经可以想象到某些公司推出自己大模型时的场景:成本高、效果差,价格和 OpenAI 相比还没有优势。
Drawing dead.
https://openai.com/blog/introducing-chatgpt-and-whisper-apis
👍7
一个法律问题:
如果我基于豆瓣的内容,经过数据清洗。然后喂给chatgpt,训练出来一个电影万事通bot。而且通过一定技术,确保bot的回复中完全没有豆瓣一摸一样的内容。那么这个知识产权怎么算? AIGC全部都面临这个问题,也是当前知识产权领域的一个热点话题,我觉得现在技术发展了,但是法律好像还没有跟上这个发展的步伐。 你觉得AI创作的内容应该受知识产权保护吗?
如果我基于豆瓣的内容,经过数据清洗。然后喂给chatgpt,训练出来一个电影万事通bot。而且通过一定技术,确保bot的回复中完全没有豆瓣一摸一样的内容。那么这个知识产权怎么算? AIGC全部都面临这个问题,也是当前知识产权领域的一个热点话题,我觉得现在技术发展了,但是法律好像还没有跟上这个发展的步伐。 你觉得AI创作的内容应该受知识产权保护吗?
Anonymous Poll
44%
Yes
37%
No
19%
呱(欢迎评论发表自己看法)
🤔3👍1
Media is too big
VIEW IN TELEGRAM
AI 新知: 像大脑一样学习的多模态(极简版起源故事)
Jeff Dean: AI isn't as smart as you think -- but it could be | TED
以下内容来自Jeff Dean 去年在TED 做的分享,面向所有人。无需担心技术理解力,更依赖你对大脑本身的好奇心。
原始链接🔗: https://youtu.be/J-FzHIQ7SOs
Jeff Dean 二十多年前加入谷歌,领导着谷歌的人工智能研究与健康部门。
核心内容摘要如下:
(这是我的几点解读,供非专业人士参考)
🧠 神经网络的机器学习突破是来自科学界对大脑的运作规律的理解(它是自下而上的)
🧮 算力是重要且有效的,深度学习突破了识别猫咪、机器翻译到 AlphaGO 等单一任务
🙉 AI的单一任务导向的训练是极为低效的,可以请想象成我们从小失去听觉、嗅觉、味觉(去观看电影的感受)
👂 多模态的思想,是进一步模拟大脑运作,就像生物拥有多种感觉来整合认知世界
🎸像大脑一样多个区域进行超高效率的协作,是学习真正的「奥义」;AI的多模态即对大脑深度的模仿。
Jeff Dean: AI isn't as smart as you think -- but it could be | TED
以下内容来自Jeff Dean 去年在TED 做的分享,面向所有人。无需担心技术理解力,更依赖你对大脑本身的好奇心。
原始链接🔗: https://youtu.be/J-FzHIQ7SOs
Jeff Dean 二十多年前加入谷歌,领导着谷歌的人工智能研究与健康部门。
核心内容摘要如下:
(这是我的几点解读,供非专业人士参考)
🧠 神经网络的机器学习突破是来自科学界对大脑的运作规律的理解(它是自下而上的)
🧮 算力是重要且有效的,深度学习突破了识别猫咪、机器翻译到 AlphaGO 等单一任务
🙉 AI的单一任务导向的训练是极为低效的,可以请想象成我们从小失去听觉、嗅觉、味觉(去观看电影的感受)
👂 多模态的思想,是进一步模拟大脑运作,就像生物拥有多种感觉来整合认知世界
🎸像大脑一样多个区域进行超高效率的协作,是学习真正的「奥义」;AI的多模态即对大脑深度的模仿。
👍8🥰1👏1😱1
复旦大学 MOSS 团队:MOSS 参数规模约是 ChatGPT 的 1/10
ithome.com/0/676/827.htm
“邱锡鹏教授团队表示,MOSS 目前的最大短板是中文水平不够高,主要原因是互联网上中文网页干扰信息如广告很多,清洗难度很大。”
ithome.com/0/676/827.htm
“邱锡鹏教授团队表示,MOSS 目前的最大短板是中文水平不够高,主要原因是互联网上中文网页干扰信息如广告很多,清洗难度很大。”
💩32👍4