5月4日·周六 AI工具和资源推荐
AI全网资源导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
斯坦福李飞飞首次创业:学术休假两年,瞄准「空间智能」
知名计算机科学家李飞飞宣布创立一家初创公司,专注于开发具有高级推理能力的人工智能技术。该公司利用类似人类的视觉数据处理方式,旨在克服当前AI技术的局限性。李飞飞,被誉为“人工智能教母”,以其在计算机视觉领域的突破性工作而闻名,包括开发了大规模图像数据集ImageNet。她的新公司已获得硅谷风险投资公司Andreessen Horowitz和加拿大公司Radical Ventures的投资。李飞飞的创业方向被描述为“空间智能”,旨在通过算法使AI能够合理推断图像和文字在三维环境中的形态,并据此采取行动。她的研究兴趣包括认知启发的AI、计算机视觉和机器人学习。李飞飞计划在2024年至2025年期间休假两年,专注于这一创业项目。来源:微信公众号【机器之心】
瑜伽球上遛「狗」!入选英伟达十大项目之一的Eureka有了新突破
由宾夕法尼亚大学、NVIDIA和得克萨斯大学奥斯汀分校的研究者联合开发的机器狗Eureka在瑜伽球上行走的研究取得了新突破,该项目被评为英伟达2023年十大项目之一。DrEureka算法利用大型语言模型(LLM)实现奖励设计和域随机化参数配置,以实现从模拟到现实的迁移。该算法无需手动设计,即可解决如机器狗在瑜伽球上保持平衡和行走等新颖的机器人任务。DrEureka的研究完全开源,展示了机器狗在各种地形上操控球的鲁棒性,并且优于传统方法。研究者Jim Fan表示,前沿的LLM如GPT-4具备物理直觉,使得DrEureka能够熟练调整参数并解释其推理,从而实现零样本迁移到现实世界。来源:微信公众号【机器之心】
ChatGPT们的幕后先驱,斯坦福教授Manning的四十年NLP生涯
斯坦福大学教授、AI学者克里斯托弗·曼宁(Christopher Manning)因其在自然语言处理(NLP)领域的杰出贡献,荣获2024年度IEEE冯诺伊曼奖。作为深度学习应用于NLP的早期领军人物,曼宁教授在词向量GloVe模型、注意力机制、机器翻译、问题解答、自监督模型预训练等多个方面均有重要研究,致力于让计算机智能处理、理解和生成人类语言。曼宁教授对语言的热爱始于高中时期,他在斯坦福大学攻读语言学博士学位期间开始接触计算语言学,并在Xerox PARC工作期间深入研究了统计NLP。他预见到早期NLP时代即将结束,主张计算机应从语言数据中学习,而非依赖手写的语法和词汇表。曼宁教授在卡内基梅隆大学和悉尼大学任教后,于1999年返回斯坦福大学,成为语言学和计算机科学系的助理教授。2010年,他再次拥抱神经网络技术的前景,推动了神经网络在自然语言理解中的应用。他的工作为后来的大型语言模型如ChatGPT奠定了基础。此外,曼宁教授还创建了多部定义计算语言学领域的教科书,开设了广受欢迎的CS224N在线NLP课程,并推动了Universal Dependencies框架的发展,致力于使NLP软件对所有人可访问。目前,他正致力于创建更深入理解世界及其语言的深度学习模型,探索人类语言的奥秘。来源:微信公众号【机器之心】
阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键
在最近的中国AIGC产业峰会上,阿里高级算法专家林俊旸分享了通义千问系列模型的开源进展和未来的发展方向。以下是他演讲的要点概述:模型开源与生态融合:通义千问系列模型自去年8月开始开源,提供了不同规模和模态的版本,包括72B的大规模模型,该模型在性能上超越了其他如Llama 2-70B和MoE开源模型Mixtral。模型性能与多语言能力:林俊旸提到,除了基础模型性能外,多语言、长序列处理和Agent能力也是衡量大模型表现的关键指标。通义千问的模型在多语言处理上表现良好,特别是在越南语和孟加拉语上。长序列处理:32K长度的序列处理表现稳定,未来版本将支持更长的上下文窗口。Post-training与Agent能力:通过指导监督微调(SFT)和DPO技术,模型在评测上的表现得到提升。林俊旸强调,大模型最终将发展为多模态模型,以融入视觉和语音理解。多模态Agent的发展:Qwen-VL系列模型通过三个阶段的训练,实现了视觉和语言的对齐,以及能力的注入。林俊旸展示了模型在OCR识别和屏幕操作任务中的潜力。音频和视频的结合:林俊旸提出,将音频编码器接入模型,并进行训练,可以得到能够理解声音的大模型。此外,大模型与视频的结合将是未来的一个重要趋势。未来规划:林俊旸表示,通义千问团队将继续推进模型和数据的扩展,以及接入更多模态,目标是实现一个强大的多模态预言模型。林俊旸的演讲强调了大模型在多模态理解和应用方面的潜力,以及开源合作在推动AI技术发展中的重要性。来源:微信公众号【量子位】
Meta训AI,成本已超阿波罗登月!谷歌豪言投资超千亿美元,赛过OpenAI星际之门
在近期的访谈中,Meta AI主管Yann LeCun证实,为了购买英伟达GPU,Meta已经投入了300亿美元,这个数额甚至超过了历史上著名的阿波罗登月计划的成本。这一数字突显了科技巨头在人工智能领域的巨额投资。与Meta的投入相比,微软和OpenAI计划投资1000亿美元打造名为“星际之门”的超级计算机,而谷歌DeepMind的CEO Demis Hassabis则暗示谷歌在AI上的投入将超过这个数字。这些投资反映了科技巨头们为了实现人工通用智能(AGI)所愿意承担的高昂成本。除了芯片和模型训练成本,AI模型的开发还涉及了多个层面的考量,包括模型架构、训练数据、计算资源和指令微调等。例如,Meta在开发Llama 3模型时,就考虑了这些因素,并取得了显著的成果。在一项涉及130多款大型语言模型(LLM)的评测中,Llama 3 70B因其出色的性能和性价比被认为占据了“大语言模型的王座”。科技巨头之间的AI竞赛不仅限于软件层面,还涉及到了硬件领域,特别是在AI芯片的开发上。英伟达在AI芯片市场占据领先地位,但AMD、Meta、谷歌和英特尔等公司也在积极开发自己的AI芯片,以提升模型训练速度和推理性能。随着AI技术的不断进步,训练更复杂、能力更强的AI模型所需的成本也在急剧上升。从Transformer模型的930美元到GPT-4的7830万美元,再到谷歌Gemini Ultra的1.914亿美元,训练成本的增长反映了AI技术快速发展的步伐以及对强大计算能力的需求。这场AI竞赛的成本之高,展现了科技公司为了在AI领域取得领先地位所付出的代价。随着竞争的加剧,未来可能会有更多的创新和突破,但同时也引发了关于这类投资可持续性的讨论。来源:微信公众号【新智元】
首支OpenAI Sora生成MV诞生!4分钟MV震惊网友,圆梦十年前idea
编剧兼导演Paul Trillo利用OpenAI的Sora模型,创作了首个官方音乐视频(MV),为独立音乐家Washed Out(本名Ernest Weatherly Greene Jr.)的新单曲《The Hardest Part》制作了一段四分钟的视频。这个MV由55个Sora生成的短片段拼接而成,这些片段是从总共生成的700个片段中精选出来的,并在Adobe Premiere中进行了编辑。Paul Trillo十年前就构思了这个创意,但当时技术无法实现。现在,借助Sora的技术支持,他能够自由尝试各种想法,并将它们融合成一部作品。MV通过快速变焦的镜头,讲述了一对夫妇从高中到成年生活的关键片段,包括他们的初吻、婚礼和生子等。Sora模型能够根据文本提示创造短视频,这使得Trillo能够以远低于传统拍摄的成本构建场景。尽管Sora在角色和场景的一致性方面存在局限,有时只能生成一些混乱的内容,但这种梦幻般的效果恰好符合MV的艺术风格,反映了人类记忆中的模糊不清。Washed Out成为了首位使用OpenAI Sora制作MV的主流音乐艺术家。《The Hardest Part》同时也是利用Sora技术制作的最长MV。这部MV不仅是技术上的突破,也预示着AI在视频制作领域应用的潜力。尽管AI技术在MV制作中的应用前景广阔,但Trillo强调,AI应被视为创意工具箱中的一个工具,而不是主要的创作方法。来源:微信公众号【新智元】
4.2K star!Reor:AI自动帮你发现知识之间的连接
Reor是一个开源的AI个人知识管理工具,它通过语义相似性自动连接笔记,帮助用户发现知识之间的内在联系,激发灵感。该工具支持智能聊天,能回答有关笔记的问题,并自动生成AI闪卡以助记忆。Reor适合需要管理大量信息的用户,特别是注重隐私和数据本地化的个人。使用流程包括安装、初始化、导入笔记、探索主界面和相关笔记,以及创建新笔记和AI问答。Reor的官网和GitHub提供了更多信息和下载链接。来源:微信公众号【无人之路】
【今日案例】