👍6
Scribe —— 99 种语言实时转录,超越 Whisper 的语音转文字模型
🎙️ ElevenLabs 推出 Scribe :一个超高准确性的语音转文字模型,能处理复杂真实场景的音频,支持99种语言转录,自动标记说话人切换和单词时间点,还能识别背景中的笑声等非语音事件,结构化数据输出方便开发者直接调用
📊 在多个国际测试中,Scribe 表现超越 Gemini、Whisper 等热门模型,尤其在意大利语、英语等97种小语种中错误率最低,让不同语言的语音识别更可靠。 开发者还可通过 API 接入获取带详细标记的JSON文本,普通用户也能在后台直接上传音视频生成格式化的文字稿 后续还会推出低延迟版本,适合实时场景使用
📝 在语音转文字的模型迭代下,我相信接下来会有更多的语音原生的产品出现
🎙️ ElevenLabs 推出 Scribe :一个超高准确性的语音转文字模型,能处理复杂真实场景的音频,支持99种语言转录,自动标记说话人切换和单词时间点,还能识别背景中的笑声等非语音事件,结构化数据输出方便开发者直接调用
📊 在多个国际测试中,Scribe 表现超越 Gemini、Whisper 等热门模型,尤其在意大利语、英语等97种小语种中错误率最低,让不同语言的语音识别更可靠。 开发者还可通过 API 接入获取带详细标记的JSON文本,普通用户也能在后台直接上传音视频生成格式化的文字稿 后续还会推出低延迟版本,适合实时场景使用
📝 在语音转文字的模型迭代下,我相信接下来会有更多的语音原生的产品出现
✍4❤3👍3
Meta 停止「事实核查」的制度
🎙️ Meta(Facebook)正在转变其内容管理策略,放弃自2016年以来实施的集中式事实核查机制。这个机制最初是因应川普当选和英国脱欧事件而设立的。Zuckerberg 认为 Twitter(现在的X)的「社区笔记」模式更有效,并计划采用类似的方案
📮 感觉维基百科式的社区笔记就是王道,社区笔记则能在普遍性话题上提供更快速和多元的反馈
🎙️ Meta(Facebook)正在转变其内容管理策略,放弃自2016年以来实施的集中式事实核查机制。这个机制最初是因应川普当选和英国脱欧事件而设立的。Zuckerberg 认为 Twitter(现在的X)的「社区笔记」模式更有效,并计划采用类似的方案
📮 感觉维基百科式的社区笔记就是王道,社区笔记则能在普遍性话题上提供更快速和多元的反馈
❤2👀1
One Court —— 视障人士看球神器,用指尖感受NBA全场
🏀 不晓得大家有没有想过视障人士是如何看球赛的
👁️ onecourt.io 所研发的触觉设备让视障人士正是一款可以通过指尖观看现场体育比赛的工具
👓 这款笔记本电脑大小的技术使用触觉或可追踪的振动。当球移动时,视障人士能在触觉设备上感受到振动,复制球在球场或竞技场中的位置和移动轨迹
📮 这篇文章是转发给你的吗?点击这里加入频道
🏀 不晓得大家有没有想过视障人士是如何看球赛的
👁️ onecourt.io 所研发的触觉设备让视障人士正是一款可以通过指尖观看现场体育比赛的工具
👓 这款笔记本电脑大小的技术使用触觉或可追踪的振动。当球移动时,视障人士能在触觉设备上感受到振动,复制球在球场或竞技场中的位置和移动轨迹
📮 这篇文章是转发给你的吗?点击这里加入频道
👍7❤5
Motiff 妙多 —— 让 AI 融入设计动线
🛠 传统设计工具如同手工作坊,图层整理、规范维护消耗大量精力。Figma 搭建了标准化工作台,而 Motiff 妙多正在探索人机协作的工业化路径,通过三个模块构建自动化设计动线:
⚙️ 标准化模块:AI 设计系统
- 快速识别过往设计稿,智能整理样式和组件
- 可回溯组件的使用场景和频次
- 支持对于文本、颜色、组件的检查
🗃 自动化产线:AI 工具箱
- AI 智能识别场景,并基于输入,生成相同结构的文本和图片
- 结合团队设计资源,智能填充文本、图片、图标,更符合实际需求
- 一键结构化,无需手动添加自动布局
🔮 创意试验场:AI 实验室
- 文生UI
- 根据框选位置推荐可填充内容
🤔 与 Figma AI 相比,Motiff 的 AI 功能介入更深,而 Figma 则选择在不打破设计师工作模式的前提下,专注于优化高频用例。界面设计,作为实践与创意交织的工种,AI 接管重复性劳动或许提升了效率,但当设计师将“非创意”视作琐碎而外包,是否会逐渐失去对细节的感知,反而削弱真正创意的深度与独特性?
📮 这篇文章是转发给你的吗?点击这里加入频道
🛠 传统设计工具如同手工作坊,图层整理、规范维护消耗大量精力。Figma 搭建了标准化工作台,而 Motiff 妙多正在探索人机协作的工业化路径,通过三个模块构建自动化设计动线:
⚙️ 标准化模块:AI 设计系统
- 快速识别过往设计稿,智能整理样式和组件
- 可回溯组件的使用场景和频次
- 支持对于文本、颜色、组件的检查
🗃 自动化产线:AI 工具箱
- AI 智能识别场景,并基于输入,生成相同结构的文本和图片
- 结合团队设计资源,智能填充文本、图片、图标,更符合实际需求
- 一键结构化,无需手动添加自动布局
🔮 创意试验场:AI 实验室
- 文生UI
- 根据框选位置推荐可填充内容
🤔 与 Figma AI 相比,Motiff 的 AI 功能介入更深,而 Figma 则选择在不打破设计师工作模式的前提下,专注于优化高频用例。界面设计,作为实践与创意交织的工种,AI 接管重复性劳动或许提升了效率,但当设计师将“非创意”视作琐碎而外包,是否会逐渐失去对细节的感知,反而削弱真正创意的深度与独特性?
📮 这篇文章是转发给你的吗?点击这里加入频道
👍8❤3👀3
👍2
写在频道突破 7000 位读者朋友
两年,这是从我们在世纪公园的第一次散步到今天,频道迎来第 7000 位读者的时间(按照 KK 的 1000 True fans 理论,我们已经有了 7 倍)。数字跳动的速度令人惊叹,从 500 到 1000 用了 18 天,而从 1000 到 7000,已悄然过了两年
站在这个节点,我们(Weiwei & Sen)想说的是:坚持的力量是惊人的。从最初的「督促」到现在的「习惯」,日更已经成为我们生活中不可或缺的一部分,我们也依然保持着各自独特的内容偏好和文风。无论频道如何发展,我们都会继续为人工趣味创造空间
七千人是什么概念?它是一个微型国家,一座中型剧场,也可以是一所大学。我们想感谢每一位读者的信任和陪伴。是你们的停留、阅读、支持和分享让这个频道从一个小小的想法成长为今天的样子。这成长过程中,我们有停更过(多次!),有迷失过方向,有为了增长而着迷,也有为了投递 AI 新闻而忘了初衷的时候,在这里要谢谢大家的提点和包容。无论是第一位还是第一万位,我们都为有一群人一起为了有想法的生活而眼睛发亮感到温暖
不论晴天雨天,我们的更新每天上演
下一个里程碑,我们再见❤️
两年,这是从我们在世纪公园的第一次散步到今天,频道迎来第 7000 位读者的时间(按照 KK 的 1000 True fans 理论,我们已经有了 7 倍)。数字跳动的速度令人惊叹,从 500 到 1000 用了 18 天,而从 1000 到 7000,已悄然过了两年
站在这个节点,我们(Weiwei & Sen)想说的是:坚持的力量是惊人的。从最初的「督促」到现在的「习惯」,日更已经成为我们生活中不可或缺的一部分,我们也依然保持着各自独特的内容偏好和文风。无论频道如何发展,我们都会继续为人工趣味创造空间
七千人是什么概念?它是一个微型国家,一座中型剧场,也可以是一所大学。我们想感谢每一位读者的信任和陪伴。是你们的停留、阅读、支持和分享让这个频道从一个小小的想法成长为今天的样子。这成长过程中,我们有停更过(多次!),有迷失过方向,有为了增长而着迷,也有为了投递 AI 新闻而忘了初衷的时候,在这里要谢谢大家的提点和包容。无论是第一位还是第一万位,我们都为有一群人一起为了有想法的生活而眼睛发亮感到温暖
不论晴天雨天,我们的更新每天上演
下一个里程碑,我们再见❤️
❤24🆒4👍3
AI 实验 —— 我如何用科幻小说摆脱AI新闻焦虑
😵💫 这几年有一个很深刻的感受,那就是每日的 AI 产品新闻和模型上的迭代都多到让人麻木了 —— 仅过去一周,就有 Claude 3.7 Sonnet、GPT-4.5、Sesame AI 等重磅模型发布,更不用说数十个新工具和应用。跟不上似乎意味着在技术理解上落后,但追踪这些发展却又耗费大量精力和情绪资源。我实在不是很喜欢这种焦虑感,所以决定尝试来缓冲一下这个焦虑感
🗞️ 我的解决方案是:让 AI 整理每日的技术新闻,并将其转化为一篇短篇小说通过邮件发送给我。我使用 ChatGPT 搭配 Val Town 自动化流程,设计了一个特殊提示词:"请将今天最重要的 3-5 条 AI 新闻转化为一篇 400 - 1200 字的短篇小说。你可以随机选择作家的文笔(如卡夫卡、村上春树或刘慈欣)、自由定义主角背景,以及选择时间点和时代背景。但必须确保故事情节准确反映新闻的核心内容和意义。"于是,这些小说像新鲜出炉的面包一样,每天早上 8 点准时出现在我的邮箱。
🔆 截图里是我这两天收到的短片小说。在经历了几天这场实验后,我发现它带给我了:
♦︎ 增强参与度: 当信息以有趣的叙事形式呈现,而不是枯燥的标题或技术文章时,我更有可能吸收和场景化这个科技
♦︎ 更好的记忆保留: 嵌入在故事中的信息往往比单独的事实更容易被记住
♦︎ 模式识别: 我注意到这些故事中出现了反复的主题——技术公司之间的合作与竞争、开源与封闭战略的拉锯、以及人机交互的逐步融合。这些模式在传统新闻中往往被单一事件的报道所掩盖。
♦︎ 情感背景: 故事提供了情感背景,有助于我理解技术发展对生活的影响
⚠️ 实验的局限: 当然,这种方法并非完美。有时 AI 会过度简化复杂的技术细节,或者将不同领域的新闻强行塞入同一个故事框架。我发现自己偶尔仍需阅读原始资料来获取更深入的理解。
🔦 如果你也想要试试看的话,可以在评论区留言。我计划建立一个小型社区,每周分享一篇最佳 AI 新闻小说,并探讨如何优化提示词以获得既准确又有趣的故事。你有没有特别喜欢的作家风格想在 AI 新闻小说中尝试?或者有什么特别想通过故事来理解的技术领域?
💡 随着信息过载成为常态,也许我们需要重新思考如何消化知识。在技术和人文的交叉点上,或许存在着更多创新的学习方式,等待我们去发现
📮 这篇文章是转发给你的吗?点击这里加入频道
😵💫 这几年有一个很深刻的感受,那就是每日的 AI 产品新闻和模型上的迭代都多到让人麻木了 —— 仅过去一周,就有 Claude 3.7 Sonnet、GPT-4.5、Sesame AI 等重磅模型发布,更不用说数十个新工具和应用。跟不上似乎意味着在技术理解上落后,但追踪这些发展却又耗费大量精力和情绪资源。我实在不是很喜欢这种焦虑感,所以决定尝试来缓冲一下这个焦虑感
🗞️ 我的解决方案是:让 AI 整理每日的技术新闻,并将其转化为一篇短篇小说通过邮件发送给我。我使用 ChatGPT 搭配 Val Town 自动化流程,设计了一个特殊提示词:"请将今天最重要的 3-5 条 AI 新闻转化为一篇 400 - 1200 字的短篇小说。你可以随机选择作家的文笔(如卡夫卡、村上春树或刘慈欣)、自由定义主角背景,以及选择时间点和时代背景。但必须确保故事情节准确反映新闻的核心内容和意义。"于是,这些小说像新鲜出炉的面包一样,每天早上 8 点准时出现在我的邮箱。
🔆 截图里是我这两天收到的短片小说。在经历了几天这场实验后,我发现它带给我了:
♦︎ 增强参与度: 当信息以有趣的叙事形式呈现,而不是枯燥的标题或技术文章时,我更有可能吸收和场景化这个科技
♦︎ 更好的记忆保留: 嵌入在故事中的信息往往比单独的事实更容易被记住
♦︎ 模式识别: 我注意到这些故事中出现了反复的主题——技术公司之间的合作与竞争、开源与封闭战略的拉锯、以及人机交互的逐步融合。这些模式在传统新闻中往往被单一事件的报道所掩盖。
♦︎ 情感背景: 故事提供了情感背景,有助于我理解技术发展对生活的影响
⚠️ 实验的局限: 当然,这种方法并非完美。有时 AI 会过度简化复杂的技术细节,或者将不同领域的新闻强行塞入同一个故事框架。我发现自己偶尔仍需阅读原始资料来获取更深入的理解。
🔦 如果你也想要试试看的话,可以在评论区留言。我计划建立一个小型社区,每周分享一篇最佳 AI 新闻小说,并探讨如何优化提示词以获得既准确又有趣的故事。你有没有特别喜欢的作家风格想在 AI 新闻小说中尝试?或者有什么特别想通过故事来理解的技术领域?
💡 随着信息过载成为常态,也许我们需要重新思考如何消化知识。在技术和人文的交叉点上,或许存在着更多创新的学习方式,等待我们去发现
📮 这篇文章是转发给你的吗?点击这里加入频道
👍16❤4
Poetry Camera —— 一键将眼前风景转化为诗歌
📸 Poetry Camera 是 Kelin Carolyn Zhang 和 Ryan Mather 做的 AI 相机:结合摄影与诗歌创作,用 Raspberry Pi 驱动
🤖 按下快门后,计算机视觉识别图像关键元素,再由 GPT 转化为俳句或十四行诗。这个相机最特别的点是作品会即时用内置的发票打印机打印出来,让数字艺术回归实体触感
🌈 这个开源项目目前已和 Anthropic 合作过,在伦敦的 TATE 博物馆展出
📮 这篇文章是转发给你的吗?点击这里加入频道
📸 Poetry Camera 是 Kelin Carolyn Zhang 和 Ryan Mather 做的 AI 相机:结合摄影与诗歌创作,用 Raspberry Pi 驱动
🤖 按下快门后,计算机视觉识别图像关键元素,再由 GPT 转化为俳句或十四行诗。这个相机最特别的点是作品会即时用内置的发票打印机打印出来,让数字艺术回归实体触感
🌈 这个开源项目目前已和 Anthropic 合作过,在伦敦的 TATE 博物馆展出
📮 这篇文章是转发给你的吗?点击这里加入频道
👍5🥰2
AI 随想:Cloud LLM vs Local LLM —— 算力与隐私的终极对决
🪄 最近看到一篇文章,讲到阿里巴巴认为未来 95% 的大模型 Tokens 会在云上传输,本地只会占到5%,所以会更加坚定的在云计算这项基础设施上投钱
👀 我看到这个结论的时候停顿了一下,真的是这样吗?某种程度上我更相信本地跑的模型未来会成为主流。如果回顾历史,当初的 IBM 靠着他们的 Work Stations(工作站)主宰了电脑市场,他们完全忽略了有一天个人电脑可能会达到一个大家所认为的「足够好」的性能水平,也因此整个电脑市场被叫做微软和苹果的小公司给吃下了
💾 IBM等公司认为企业会更青睐这种可控的专业环境,但他们低估了个人自主权和便利性的吸引力,个人电脑性能的巨大提升最终使得权衡倾向于个人计算
✍🏽 那么问题来了,未来的某一天我们会不会因为隐私和其他原因而都首选本地语言模型呢?
📮 这篇文章是转发给你的吗?点击这里加入频道
🪄 最近看到一篇文章,讲到阿里巴巴认为未来 95% 的大模型 Tokens 会在云上传输,本地只会占到5%,所以会更加坚定的在云计算这项基础设施上投钱
👀 我看到这个结论的时候停顿了一下,真的是这样吗?某种程度上我更相信本地跑的模型未来会成为主流。如果回顾历史,当初的 IBM 靠着他们的 Work Stations(工作站)主宰了电脑市场,他们完全忽略了有一天个人电脑可能会达到一个大家所认为的「足够好」的性能水平,也因此整个电脑市场被叫做微软和苹果的小公司给吃下了
💾 IBM等公司认为企业会更青睐这种可控的专业环境,但他们低估了个人自主权和便利性的吸引力,个人电脑性能的巨大提升最终使得权衡倾向于个人计算
✍🏽 那么问题来了,未来的某一天我们会不会因为隐私和其他原因而都首选本地语言模型呢?
📮 这篇文章是转发给你的吗?点击这里加入频道
👍9❤3
This media is not supported in your browser
VIEW IN TELEGRAM
Sesame AI —— 突破恐怖谷的真人级语音AI
🎙️ Sesame 在研究语音技术如何突破「恐怖谷效应」,主打「语音临场感」——让AI对话像真人般真实自然,能感知情绪、理解语境,对话时让人感觉被重视
💡 核心技术包括情绪识别(捕捉对话中的情感变化)、自然对话节奏(停顿/打断/重音的真实模拟)、场景适配(根据情境调整语气)和稳定人设(保持性格一致性)。最近发布的语音伴侣 demo 展示了友好度与表现力的优化成果
🤖 新推出的 CSModel 直接处理音频特征,比传统文本转语音模型更高效。它能实时理解上下文,像真人对话般灵活接话,解决了传统AI对话生硬的问题。技术文档详细拆解了模型架构与训练方法,揭秘如何用多模态技术提升语音交互的细腻度
📮 这篇文章是转发给你的吗?点击这里加入频道
🎙️ Sesame 在研究语音技术如何突破「恐怖谷效应」,主打「语音临场感」——让AI对话像真人般真实自然,能感知情绪、理解语境,对话时让人感觉被重视
💡 核心技术包括情绪识别(捕捉对话中的情感变化)、自然对话节奏(停顿/打断/重音的真实模拟)、场景适配(根据情境调整语气)和稳定人设(保持性格一致性)。最近发布的语音伴侣 demo 展示了友好度与表现力的优化成果
🤖 新推出的 CSModel 直接处理音频特征,比传统文本转语音模型更高效。它能实时理解上下文,像真人对话般灵活接话,解决了传统AI对话生硬的问题。技术文档详细拆解了模型架构与训练方法,揭秘如何用多模态技术提升语音交互的细腻度
📮 这篇文章是转发给你的吗?点击这里加入频道
👍15