10月7日·开源新王Reflection 70B造假风波:基准测试暴跌,开发者公开致歉

AI资讯速递1个月前发布 大Joe
45 1

10月7日·周一  AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

开源新王Reflection 70B造假风波:基准测试暴跌,开发者公开致歉

近日,号称“世界开源新王”的AI模型Reflection 70B在发布不久后遭遇造假质疑。该模型由Hyperwrite AI联创Matt Shumer和Glaive创始人Sahil Chaudhary共同开发,声称在基准测试中表现优异,可与顶级闭源模型媲美。然而,外界无法复现其宣称的测试结果,引发了广泛质疑。经过调查,开发者承认基准测试结果不实,模型性能远低于预期。他们公开致歉,并发布了一系列修正后的基准测试数据和相关资源,包括模型权重、训练数据和评估代码。此次事件不仅对两位开发者的信誉造成了影响,也引发了对AI基准测试可靠性的讨论。来源:微信公众号【新智元】

10月7日·开源新王Reflection 70B造假风波:基准测试暴跌,开发者公开致歉

Playground v3革新文本到图像领域:240亿参数量模型超越人类设计

Playground Research最新发布的文本到图像模型Playground v3(PGv3),拥有240亿参数量,深度融合大型语言模型(LLMs),在图形设计和遵循文本提示指令方面超越了人类设计师。PGv3支持精确的RGB颜色控制和多语言识别,标志着文本到图像生成技术的新突破。该模型基于扩散模型DiT,采用仅解码器的大型语言模型知识,优化了文本到图像的生成任务。PGv3在多个测试基准上展现了卓越的性能,尤其在文本提示遵循、复杂推理和文本渲染准确率方面表现突出。此外,PGv3还引入了新的基准CapsBench,用于评估详细的图像描述性能。用户偏好研究显示,在设计应用中PGv3的图形设计能力已超越人类。来源:微信公众号【新智元

10月7日·开源新王Reflection 70B造假风波:基准测试暴跌,开发者公开致歉

瑞士研究团队开发新型机器人手:自主脱离手臂,爬行抓取物体

瑞士洛桑联邦理工学院和麻省理工学院的研究团队开发了一种创新的机器人手,能够自主脱离手臂并爬行到难以触及的地方进行抓取任务。这项技术突破使得机器人手在执行任务时更加灵活和独立。机器人手通过磁铁对齐并重新附着在手臂上,展示了其高度的自主性和适应性。该研究的论文将在ICRA@40上发表,研究团队还发布了一段视频来展示机器人手的实际操作过程。这项研究不仅推动了机器人技术的发展,也为未来自动化和智能化提供了新的可能性。来源:微信公众号【机器之心】

10月7日·开源新王Reflection 70B造假风波:基准测试暴跌,开发者公开致歉

Cursor 创始团队访谈:AI编程工具的未来与挑战

在近期的Lex Fridman播客中,AI编程工具Cursor的四位创始成员探讨了该工具的起源、发展以及未来的方向。Cursor是一款基于VS Code的代码编辑器,集成了AI辅助编程功能。团队讨论了代码差异展示、机器学习细节、与GPT和Claude的比较、提示工程、上下文理解以及对OpenAI o1系统的看法。他们认为,尽管o1在某些方面展示出了强大的推理能力,但Cursor的定制模型在提供深入的编程支持方面仍具有独特优势。团队还指出,尽管GitHub Copilot可能会整合o1,但Cursor将继续通过创新和优化编辑体验来保持竞争力。此次访谈深入探讨了AI编程工具的潜力和挑战,以及Cursor团队如何通过技术革新来引领行业发展。来源:微信公众号【机器之心

10月7日·开源新王Reflection 70B造假风波:基准测试暴跌,开发者公开致歉

清华系公司“仓颉”用AI造字技术革新字体产业

一家源自清华大学的创业公司“图形起源”通过其AI造字技术“仓颉”,在字体设计领域实现了重大突破。该公司的技术能够大幅降低字体公司的制作成本并提升效率,通过AI生成的矢量图字体,交付时间从季度缩短至7天内,并使成本降低了80%。这一技术解决了传统字体生产中耗时长、成本高、风格难以统一的痛点。图形起源的AI造字技术包括Diffusion模型、超分辨率模型和独特的矢量化算法,能够生成高质量的字形,并且准确率高于人工审校。目前,该公司已成功生成346套字体,累计超过468万个字形,其SaaS平台使得客户能够在线查看进度和自主完成生产过程。这一创新不仅展示了AI技术在细分领域的应用潜力,也为字体设计行业带来了革命性的变化。来源:微信公众号【量子位】

10月7日·开源新王Reflection 70B造假风波:基准测试暴跌,开发者公开致歉

【今日案例】

汤教授“复活”现身商汤年会

https://yuanbao.tencent.com/bot/app/share/chat/eb2be4dad802d98df74ffad6ded0498f/issueShare

© 版权声明

相关文章

1 条评论

  • tempmail
    tempmail 游客

    Pretty! This has been a really wonderful post. Many thanks for providing these details.

    回复