5月4日·AI o3在GeoGuessr游戏中碾压人类高手，展现强大跨模态推理能力

598 0 0

5月4日·周日 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

AI o3在GeoGuessr游戏中碾压人类高手，展现强大跨模态推理能力

在一场备受瞩目的GeoGuessr比赛中，OpenAI的o3以23179分战胜人类顶级玩家Sam Patterson的22054分。比赛中，o3仅凭两张90°视图，成功识破伪造的GPS坐标，精准定位全球各地。o3通过“视觉+搜索+思维链”的跨模态推理，展现了强大的地理定位能力。Sam Patterson尝试通过篡改EXIF数据来欺骗o3，但o3凭借对图像的细致观察和推理，未受干扰，最终锁定真实地点。此次比赛证明了o3不仅具备强大的推理能力，还能在复杂情况下排除干扰，精准判断。o3的跨模态推理能力正在改写人机博弈的格局，其潜力值得期待。来源：微信公众号【新智元】

美国科研经费大幅削减，科研界面临严峻挑战

美国科研机构正面临前所未有的经费危机。根据特朗普政府提出的2026财年预算案，美国国家科学基金会（NSF）经费将被削减56%，国立卫生研究院（NIH）预算减少40%，环境保护署（EPA）和国家航空航天局（NASA）等机构也未能幸免。这一预算削减对美国科学界造成了巨大冲击，许多科学家表示担忧，甚至有部分科学家选择离开美国。NSF主任因无法接受预算削减和裁员计划愤然辞职。陶哲轩等科学家也对这一政策表示质疑，认为这将对美国的科研生态和未来发展产生灾难性影响。来源：微信公众号【新智元】

谷歌NotebookLM支持中文播客，变身多语言AI知识助手

谷歌旗下的NotebookLM近日更新，支持中文播客功能，标志着其向多语言AI知识助手迈进一大步。该产品以音频概览功能著称，可将文本、网页、视频转化为引人入胜的播客对话。用户只需在设置中选择中文，即可享受该功能。其音频效果自然流畅，支持多种语言的播客内容生成，并能转化为中文节目，方便用户获取信息。此外，NotebookLM底层基于谷歌Gemini 2.5 Flash模型，支持最大200MB的上传内容和50万个token的上下文处理，实用性较强。谷歌还计划推出安卓和iOS移动应用，预计在5月20日的Google I/O大会上正式发布，高阶功能可能仅对订阅用户开放。来源：微信公众号【机器之心】

CVPR 2025 Oral | DiffFNO：傅里叶神经算子助力扩散，开启任意尺度超分辨率新篇章

圣路易斯华盛顿大学和北京大学联合提出了一种新的超分辨率方法——DiffFNO（Diffusion Fourier Neural Operator）。该方法通过加权傅里叶神经算子（WFNO）、门控融合机制和自适应ODE求解器三大组件，实现了高质量、高效率的任意连续倍率超分辨率重建。DiffFNO在多个基准数据集上超越了现有SOTA方法，推理速度显著提升，且在大倍率放大时表现尤为出色。该研究入选CVPR 2025 Oral，为超分辨率领域带来了新的突破。来源：微信公众号【机器之心】

3B模型逆袭7B巨头！Video-XL-Pro突破长视频理解极限

上海交通大学、北京智源研究院和特伦托大学联合研究团队推出了Video-XL-Pro模型，仅用3B参数就在长视频理解任务中超越了Meta的7B模型Apollo-7B以及其他知名模型。该模型通过“重构式token压缩”技术（ReCoT）和查询选择器，显著提升了长视频处理效率和准确性。在多个基准评测中，Video-XL-Pro表现优异，特别是在长视频“大海捞针”测试中，准确率高达99%。该模型的代码、模型和训练数据均已开源，有望在长视频理解领域广泛应用。来源：微信公众号【量子位】