5月4日·AI o3在GeoGuessr游戏中碾压人类高手,展现强大跨模态推理能力
5月4日·周日 AI工具和资源推荐
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
AI o3在GeoGuessr游戏中碾压人类高手,展现强大跨模态推理能力
在一场备受瞩目的GeoGuessr比赛中,OpenAI的o3以23179分战胜人类顶级玩家Sam Patterson的22054分。比赛中,o3仅凭两张90°视图,成功识破伪造的GPS坐标,精准定位全球各地。o3通过“视觉+搜索+思维链”的跨模态推理,展现了强大的地理定位能力。Sam Patterson尝试通过篡改EXIF数据来欺骗o3,但o3凭借对图像的细致观察和推理,未受干扰,最终锁定真实地点。此次比赛证明了o3不仅具备强大的推理能力,还能在复杂情况下排除干扰,精准判断。o3的跨模态推理能力正在改写人机博弈的格局,其潜力值得期待。来源:微信公众号【新智元】

美国科研经费大幅削减,科研界面临严峻挑战
美国科研机构正面临前所未有的经费危机。根据特朗普政府提出的2026财年预算案,美国国家科学基金会(NSF)经费将被削减56%,国立卫生研究院(NIH)预算减少40%,环境保护署(EPA)和国家航空航天局(NASA)等机构也未能幸免。这一预算削减对美国科学界造成了巨大冲击,许多科学家表示担忧,甚至有部分科学家选择离开美国。NSF主任因无法接受预算削减和裁员计划愤然辞职。陶哲轩等科学家也对这一政策表示质疑,认为这将对美国的科研生态和未来发展产生灾难性影响。来源:微信公众号【新智元】

谷歌NotebookLM支持中文播客,变身多语言AI知识助手
谷歌旗下的NotebookLM近日更新,支持中文播客功能,标志着其向多语言AI知识助手迈进一大步。该产品以音频概览功能著称,可将文本、网页、视频转化为引人入胜的播客对话。用户只需在设置中选择中文,即可享受该功能。其音频效果自然流畅,支持多种语言的播客内容生成,并能转化为中文节目,方便用户获取信息。此外,NotebookLM底层基于谷歌Gemini 2.5 Flash模型,支持最大200MB的上传内容和50万个token的上下文处理,实用性较强。谷歌还计划推出安卓和iOS移动应用,预计在5月20日的Google I/O大会上正式发布,高阶功能可能仅对订阅用户开放。来源:微信公众号【机器之心】

CVPR 2025 Oral | DiffFNO:傅里叶神经算子助力扩散,开启任意尺度超分辨率新篇章
圣路易斯华盛顿大学和北京大学联合提出了一种新的超分辨率方法——DiffFNO(Diffusion Fourier Neural Operator)。该方法通过加权傅里叶神经算子(WFNO)、门控融合机制和自适应ODE求解器三大组件,实现了高质量、高效率的任意连续倍率超分辨率重建。DiffFNO在多个基准数据集上超越了现有SOTA方法,推理速度显著提升,且在大倍率放大时表现尤为出色。该研究入选CVPR 2025 Oral,为超分辨率领域带来了新的突破。来源:微信公众号【机器之心】

3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限
上海交通大学、北京智源研究院和特伦托大学联合研究团队推出了Video-XL-Pro模型,仅用3B参数就在长视频理解任务中超越了Meta的7B模型Apollo-7B以及其他知名模型。该模型通过“重构式token压缩”技术(ReCoT)和查询选择器,显著提升了长视频处理效率和准确性。在多个基准评测中,Video-XL-Pro表现优异,特别是在长视频“大海捞针”测试中,准确率高达99%。该模型的代码、模型和训练数据均已开源,有望在长视频理解领域广泛应用。来源:微信公众号【量子位】
