本周内容概述
AI 在图像领域的迅速发展
AI 监管与行业对策
旧势力应对人工智能
11 款人工智能产品与应用
2 份指南与最佳实践
3 份论文与 1 门课程
01
图像领域的迅速发展
Stability AI 发布 Stable Diffusion XL 1.0,特性如下:
基于 3.5B 参数的基础模型和 6.6B 参数的细化模型组合构成,提供
SDXL 可以生成任何艺术风格的高质量图像,特别是照片写实主义风格 Photorealism;
针对鲜艳色彩调校,具备更好的对比度、照明和阴影;
高质量图像均采用原生 1024*1024 分辨率;
能够理解空间概念(如前后景),以及出色的手部、文字生成效果;
使用简单文本描述就能创建复杂的美观图像,能够区分不同情境的文本涵义;
现在就可以在 Clipdrop 或 DreamStudio 使用 SDXL 1.0 模型,同时也提供 API 访问。
上周,RunwayML 更新了 Gen-2 模型的 image to video 功能,支持直接使用图片创建视频,无需补充提示文本,同时也提供了更出色的视频生成能力。大量使用 Midjourney + RunwayML 生成流程产出的视频让人感受到视频生成领域终于接近成为生产力工具了。同时也有人趁着热点使用这一套流程制作了一段综合《芭比》与《奥本海默》电影风格的《芭比海默》预告片,效果令人惊叹。
02
监管与对策
亚马逊、Anthropic、谷歌、Inflection、Meta、微软和 OpenAI 等七家公司同意了美国政府提出的一系列要求,包括对网络安全、歧视研究的投资,生成内容水印系统,通知用户当前内容由人工智能生成等,以解决人工智能带来的许多风险。一件关联的事情是,差不多同一时间,OpenAI 信任与安全主管 Dave Willner 宣布辞去职务,转而担任顾问。
虽然现在还看不出什么危害,但现任 Anthropic CEO Dario Amodei 认为在两三年内,人工智能模型将能够在工程学、生物学等领域拥有跟强大的能力,届时对模型的越狱行为将导致严重危害。与常见处理方式不同,Anthropic 使用基于固定规则的伦理和道德准则“宪法”来对其模型 Claude 提供更强的保护。需要注意的是,同样在上周,一份新发表的论文表明 存在一种完全避开常见模型防护策略的方法。
OpenAI 近期悄然下架了一款 AI 文本检测工具 AI Classifier,称其在评估文本是否由 ChatGPT 生成方面的准确度较低,正在研究更有效的文本识别技术,同时承诺开发部署新机制来帮助用户判断 AI 生成的音频、视觉内容。该工具于今年 1 月 31 日推出,虽然在发布时已经声明其局限性,不应作为主要决策工具,但显然这项技术并没有解决生成式 AI 在当下提出的问题。
03
旧势力应对人工智能
据报道,Google 联合创始人 Sergey Brin 近期重返工作岗位。自 2019 年辞去公司职务并逐渐淡出公众视野后,Brin 最近更频繁地参与到研发与研究人员招聘等事务,以更快地推动 Alphabet 下一代大型人工智能 Gemini 的研发。
被认为是受生成式人工智能服务影响最大的 Stack Overflow 推出了 OverflowAI 服务 ,新业务包括站点搜索从关键词匹配更换为基于矢量数据库的语义搜索,StackPlusOne 聊天机器人,企业知识库以及 VS Code IDE 扩展等。
Spotify CEO Daniel Ek 最近透露了一些可能是 Spotify 使用 AI 的方法,包括总结播客内容、生成音频广告,以及可能在将来提供基于文本的语音生成服务。Spotify 早前推出的 DJ 广播能够结合用户收听记录和情境推荐不同曲目,Daniel Ek 表示希望能够使用 AI 推出更多类似激发用户互动的产品。
🗞️ 其他资讯
Google DeepMind 发布 Robotic Transformer 2(𝗥𝗧-𝟮) 一种视觉-语言-动作 (VLA) 模型,可以从网络和机器人获得的数据中学习,并将其转化为控制机器人的通用指令。RT-2 显示出了超越其所接触数据的泛化能力,以及语义、视觉理解能力,同时能够执行基本推理来响应用户命令。
在好莱坞罢工行动激烈正酣时,人们发现 Netflix 在官网发布了一则人工智能 (AI) 专家招聘广告,薪酬高达每年 90 万美元。现在还不清楚 Netflix 将在 AI 上进行多大投入,但可以从相关岗位描述中了解到这些岗位将用于「收集反馈并了解用户需求」。在最近上映的《黑镜》最新一季中,Netflix 用一种讽刺但可能也是预言地展示了使用 AI 编剧、拍摄电视剧的故事,也引发不少 业内讨论。
OpenAI 发布了 ChatGPT 的 Android 版本,但还没有支持通过 Google Play store 订阅 Plus,也还没有支持 Plugin,但至少 OpenIA 已经将其消费者业务尽可能地覆盖了更多的用户,也巩固了其在生成文本领域的领先地位。
Monash 大学的半生物计算机芯片 DishBrian 项目获得了澳大利亚国家情报和安全发现研究资助计划的赞助,这种芯片电极中含有约 800,000 个人类和小鼠脑细胞,表现出了类似感知能力的能力。将其与人工智能融合有可能产生超越现有纯硅硬件的性能。
🛠️ 产品与工具
Lennybot,基于 Lenny’s Newsletter 数据训练的聊天机器人,内容覆盖产品、运营与管理等内容;
Wireframe Designer,使用 AI 轻松生成 Wireframe;
PixelLab,Aseprite 推出的可控 AI 像素绘画扩展;
Rewind AI,使用 AI 去搜索所有出现在 Mac 和 iPhone 上的一切内容;
深言达意,深言科技的中文语义产品,提供非常棒的中文词汇理解与建议;
workstreams.ai,直观的工作流应用;
voice-swap.ai,使用 AI 将你与知名歌手的声音交换;
Sidenote AI,读取会议笔记,检测行动项并完成跟进事项;
Zefi.ai,适用于产品团队的 AI copilot,理解用户反馈、与利益相关者对齐,关注于产品核心;
Vecteezy,AI 图像搜索,上传并获得能获得授权的相似图像;
Frontitude,一款 Figma 插件,使用 AI 写作能力改进产品中文本;
☝🏼 指南与最佳实践
Atif Hussain 在 Data Analysis with ChatGPT 重介绍了如何使用 ChatGPT 完成 R 语言数据分析;
Wolfram|Alpha 创始人 Stephen Wolfram 在这篇文章 What Is ChatGPT Doing … and Why Does It Work? 中概述了 ChatGPT 为什么能够很好地生成我们认为 有意义的文本,文本内容详实且配图丰富、清晰,对于了解 LLM 内部逻辑挺有帮助;
🎓 课程,讲座与论文
Llama 2: Open Foundation and Fine-Tuned Chat Models,Meta 最新发布的一篇论文中发布了有关 Llama 2 的架构、训练计算、微调方法等的更多详细信息。
Towards Generalist Biomedical AI,介绍了一种生物医学领域的大型多模态生成模型 Med-PaLM Multimodal 概念并通过数据验证。使用相同的模型权重集来解释包括临床语言、成像和基因组学等生物医学数据。在对 246 份回顾性胸部 X 光检查多达 40.50% 的病例中,临床医生表达了对 Med-PaLM M 报告,而不是放射科医生生成的报告偏好,表明了模型的潜在临床实用性。
MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features,一种联合嵌入预测架构和自监督学习方法,可在共享编码器中共同学习光流和内容特征,从而学习包含运动信息的内容特征。
UMass Amherst CS CS685 高级自然语言处理课程,面向有兴趣了解 NLP 前沿研究进展,熟悉机器学习基础知识的研究生(Youtube),课程推荐阅读 Jurafsky 和 Martin 的《语音和语言处理》第三版作为基础材料;
Cornell Tech CS 5787 应用机器学习 课程;
💡 Mist.
Photoshop 的 Generative Fill 视频
斯坦福大学的学生制造了一种眼镜 可以让聋人在与他人交谈时看到实时语音转录文本。
OpenAI 在 ICML 的活动提供了两款 由 ChatGPT 调配的鸡尾酒,Jim fan 表示 “Neural Network Negroni” 味道非常好。
(完)





