5月9日·周四 AI工具和资源推荐
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
阿里云通义千问大模型在闭源和开源领域取得显著成果
阿里云的通义千问(Qwen)大模型发布一周年之际,在闭源和开源领域均取得了显著成绩。在闭源领域,通义千问2.5模型在中文场景中赶超了GPT-4 Turbo,成为目前地表最强的中文大模型。在开源领域,Qwen1.5-110B模型在HuggingFace的Open LLM Leaderboard上位列榜首,性能超越了Llama-3-70B。这些成果展示了国产大模型在人工智能领域的竞争力,以及开源策略在推动技术进步和社区发展中的重要作用。 阿里云CTO周靖人表示,未来通义大模型将继续开源,包括即将推出的Qwen2系列,预计将带来更多惊喜。通义千问的开源策略不仅为用户提供了从端侧到服务器部署的多种选择,还通过MoE等技术优化了推理成本,扩展了模型的适用范围。此外,通义千问在多模态和专有能力上的探索,如开源的视觉理解模型Qwen-VL和音频理解模型Qwen-Audio,也获得了开发者社区的广泛好评。来源:微信公众号【机器之心】
LSTM创始人Sepp Hochreiter发布xLSTM,旨在超越Transformer
长短时记忆网络(LSTM)的创始人Sepp Hochreiter最近推出了xLSTM,这是一种新的神经网络架构,旨在克服传统LSTM的局限性,并在性能上赶超当前领先的Transformer模型。xLSTM通过引入指数门控和矩阵内存,解决了LSTM在存储决策修改、存储容量限制和内存混合导致的可并行性缺失等问题。在实验评估中,xLSTM在合成任务和长序列处理上显示出了优异的性能,并且在验证集复杂度方面优于所有现有方法。Sepp Hochreiter表示,xLSTM的推出是为了缩小与现有最先进大型语言模型的差距,并且已经开始在构建欧洲的大型语言模型。这一进展标志着LSTM在深度学习领域的重生,有望夺回被Transformer拿走的市场份额。来源:微信公众号【机器之心】
阿里巴巴使用AlphaGo算法增强大模型数学能力
阿里巴巴的最新研究显示,通过将AlphaGo的核心算法——蒙特卡洛树搜索(MCTS)应用于大语言模型,可以显著提升模型在数学推理任务中的表现。研究人员提出的AlphaMath方法能够在无需人工标注解题步骤的情况下,自动生成高质量数据,从而提高大模型的数学成绩。在MATH数据集上,该方法使得7B模型的得分超过了GPT-4。这项研究不仅展示了MCTS在大模型性能增强中的潜力,也被认为是通往超级智能之路的重要一步。AlphaMath的技术路线包括三个阶段:初始解题路径生成、MCTS搜索优化和数据优化策略模型与价值模型。实验结果表明,AlphaMath训练的模型在多个数学基准测试中取得了优异的成绩,证明了其在提升大模型数学能力方面的有效性。来源:微信公众号【量子位】
港大开源图学习基础模型OpenGraph,提升零样本预测泛化能力
香港大学数据智能实验室主任黄朝团队开源了一款图学习基础模型OpenGraph,该模型专门用于在多种图数据集上进行零样本预测。OpenGraph通过学习通用的图结构模式,仅使用前向传播来预测全新数据,有效解决了图学习领域的数据饥荒问题。团队还提出了提示调整技术,增强了模型对新任务的适应性。OpenGraph模型架构包括统一图Tokenizer、可扩展的图Transformer和基于大语言模型的知识蒸馏技术,这些技术共同提升了模型的效率和健壮性。在多个数据集上的测试结果显示,OpenGraph在零样本预测任务中显著优于现有方法。该工作已在GitHub上发布,为图学习领域提供了新的研究工具。来源:微信公众号【量子位】
DeepMind发布AlphaFold 3,AI预测生命分子组成的新突破
Google的DeepMind团队宣布推出AlphaFold 3,这是一款能够预测生命分子组成的AI工具。AlphaFold 3能够精确预测包括蛋白质、核酸、小分子、离子和修饰残基在内的复杂生物分子的三维结构。这一技术的进步为药物设计提供了巨大潜力,Isomorphic实验室已开始与制药公司合作,利用AlphaFold 3解决药物设计挑战,以开发新疗法。 AlphaFold 3采用了全新的架构和训练方法,其核心是升级版的Evoformer模块,通过Diffusion网络整合预测结果,生成精确的分子结构。该技术在PoseBusters基准测试中的预测准确性超越了传统最佳方法50%,成为首个超越传统物理模型的AI系统。此外,DeepMind还推出了AlphaFold服务器,为全球科学家提供免费的非商业性研究工具,以促进科研创新和加速科学发现。来源:微信公众号【赛博禅心】
清华大学开发AI医院小镇Agent Hospital,AI医生自主进化
清华大学的研究团队创建了一个名为“Agent Hospital”的AI医院小镇,这是一个模拟医患看病全流程的虚拟环境。在这个模拟医院中,所有医生、护士和患者都是由大型语言模型(LLM)驱动的智能体,能够自主交互。研究的核心目标是让AI医生在模拟环境中学会治疗疾病,并实现自主进化。通过MedAgent-Zero系统,医生智能体可以从成功和失败的病例中积累经验,仅用几天时间就能治疗约1万名患者,而人类医生达到类似水平需要2年时间。此外,进化后的AI医生在MedQA数据集子集上的准确率达到了93.06%,显示出AI在医疗领域的潜力。来源:微信公众号【新智元】