3月6日·周三 AI工具和资源推荐
AI全网资源导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
大模型火遍两会!雷军等20位代表热议AI,Sora高频出
今年两会,人工智能(AI)成为最热话题之一,各类相关提案和发言刷爆了科技圈。在十四届全国人大二次会议上,总理首次在2024年政府工作报告中提出,深化大数据、人工智能等研发应用,开展“人工智能+”行动。与此同时,来自全国各界的至少20位全国人大代表和全国政协委员也纷纷围绕“人工智能+”建言献策。比如在AI技术创新方面,全国人大代表、科大讯飞董事长刘庆峰提出加快推动通用人工智能(AGI)发展的九项建议,全国政协委员、微博CFO曹菲及知乎创始人周源提出规范AI数据交易及大模型的数据采集相关的举措,奇安信董事长齐向东在AI及安全等方面建言。其中一些代表的金句火出了圈,比如全国人大代表、小米创始人雷军坦言我国生成式人工智能人才储备不足,建议人工智能纳入义务教育;全国政协委员、360创始人周鸿祎建议企业用大模型不能冒进,而是要“小切口,大纵深”。来源:微信公众号【智东西 】
ChatGPT新增朗读功能 可以语音播报生成结果
OpenAI 针对 ChatGPT 的新朗读功能Read Aloud现在已经支持在 ChatGPT 的网络版本以及 iOS 和 Android ChatGPT 应用程序上使用。来和 GPT-3.5。这是一个有趣的例子,展示了 OpenAI 可以利用多模式功能(通过多种媒介读取和响应的能力)来实现什么,在竞争对手 Anthropic 为其 AI 模型添加类似功能后不久,OpenAI 就透露了这一点。ChatGPT于2023年9月推出了语音聊天功能,用户无需打字即可直接询问聊天机器人提示。现在新功能将允许人们让 ChatGPT 大声朗读生成的书面答案,并且用户可以将聊天机器人设置为在响应提示时始终以口头方式响应。在移动应用程序上,人们可以点击并按住文本来打开朗读播放器,在那里他们可以播放、暂停或快退朗读内容。网络版本在文本下方显示一个扬声器图标。来源:微信公众号【量子位】
一秒变三维:Stability AI & VAST 强强联手推出开源单图生成3D模型TripoSR
Stability AI 携手华人团队 VAST 宣布开源单图生成 3D 模型 TripoSR,为3D内容生成领域带来了惊喜。TripoSR 是一款高效的3D模型生成工具,能够在短时间内从单张图片生成高质量的3D模型,甚至无需使用 GPU 也能流畅运行。在 NVIDIA A100 上的测试中,TripoSR 展现出了惊人的性能,仅需大约0.5秒就生成了带有纹理的草图质量的3D网格模型,其性能超过了其他图像到3D模型的开源转换工具,如 OpenLRM。而且,TripoSR 的出色表现并不仅仅局限于速度。无论用户是否拥有 GPU,TripoSR 都能提供完全可用的解决方案。这一特性使得 TripoSR 在不同硬件配置的用户中都能得到广泛应用。TripoSR 模型在 LRM 的原始算法基础上进行了诸多创新。通过精心筛选和渲染的 Objaverse 数据集子集,以及一系列模型和训练方面的改进,TripoSR 显著提升了从有限训练数据中泛化的能力,同时增强了 3D 重建的保真度。来源:微信公众号【智元宇宙】
最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”
Stability AI发布Stable Diffusion 3(SD3)论文,首度披露其最强文生图大模型背后的技术细节,并放出更多新鲜的生成示例。与OpenAI近期爆火的文生视频模型Sora一样,SD3采用了扩散Transformer架构DiT,并在其基础上进行改进。新架构名为MMDiT,其主要突破点在于对文字、图像两种模态的数据使用了两组独立的权重,并通过注意力机制进行连接,这使得信息可以在文本和图像之间流动,大大提升了模型的语义理解和文字渲染能力。在SD3放出的示例图中,包含文字渲染部分的图像占了很大比例。下图的提示词分别为:漂亮的像素艺术,画面是一个魔法师和悬浮文字“Achievement unlocked: Diffusion models can spell now”(成就已解锁:扩散模型可以拼写了);青蛙坐在20世纪50年代的一家餐馆里,穿着皮夹克,头戴礼帽,桌上有一个巨大的汉堡和一个写着“froggy fridays”(青蛙星期五)的小牌子。来源:微信公众号【智东西】
新一代AI模型Claude 3:有大学生智商,全面超越GPT-4
OpenAI 最大的竞争对手 Anthropic 发布了新一代 AI 大模型系列 ——Claude 3。该系列包含三个模型,按能力由弱到强排列分别是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。其中,能力最强的 Opus 在多项基准测试中得分都超过了 GPT-4 和 Gemini 1.0 Ultra,在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准。Anthropic 表示,Claude 3 Opus 拥有人类本科生水平的知识。Claude 首次带来了对多模态能力的支持(Opus 版本的 MMMU 得分为 59.4%,超过 GPT-4V,与 Gemini 1.0 Ultra 持平)。用户现在可以上传照片、图表、文档和其他类型的非结构化数据,让 AI 进行分析和解答。这三个模型也延续了 Claude 系列模型的传统强项 —— 长上下文窗口。其初始阶段支持 200K token 上下文窗口,不过,Anthropic 表示,三者都支持 100 万 token 的上下文输入(向特定客户开放),这大约是英文版《白鲸》或《哈利・波特与死亡圣器》的长度。不过,在定价上,能力最强的 Claude 3 也比 GPT-4 Turbo 要贵得多:GPT-4 Turbo 每百万 token 输入 / 输出收费为 10/30 美元 ;而 Claude 3 Opus 为 15/75 美元。来源:微信公众号【机器之星、墨子沙龙】