12月29日·新论文提出1.58-bit训练法，大幅降低GPT-3算力和存储需求

110 0 0

12月29日·周日 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在[图片]这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的o g zAI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

新论文提出1.58-bit训练法，大幅降低GPT-3算力和存储需求

近日，一项名为“noise_step”的新技术被提出，它允许模型在1.58-bit的低精度下直接进行训练，无需反向传播或动量加速，从而显著降低算力和存储消耗。这项技术由机器学习研究者Will小哥提出，论文一经发布便吸引了数十万网友和同行的关注。通过在前向传播中引入随机性，该技术能够生成随机向量，并利用雅可比向量积（JVP）方法估计梯度，避免了传统反向传播的需要。这种方法不仅减少了存储使用，还使得模型可以存储训练步骤而非权重，进一步缩小模型尺寸，并可能实现秒级下载SOTA模型。此外，该技术还特别适合分布式训练，能够提高训练效率。论文和CPU实现过程的代码已在GitHub上公开，供感兴趣的研究者进一步探索。来源：微信公众号【量子位】

o1 pro深评医学论文震惊免疫学家，展现跨学科能力

OpenAI发布的o1 pro以其卓越的数学、科学和编程能力在全球引起广泛关注。世界顶尖免疫学家Derya Unutmaz与o1 pro合作评析论文，对其深度反馈感到震撼，认为o1 pro的洞察力甚至超过了自己。此外，o1 pro在人文社科领域也展现出卓越能力，帮助解决研究问题，显示了其跨学科的潜力。这一进展不仅在STEM领域，也在人文社科领域证明了o1 pro的实力。来源：微信公众号【新智元】

AI模特和文生图大模型“可灵AI”的惊艳亮相

最近，社交媒体上热议的“AI模特”玩法引起了广泛关注。这些AI模特由“可灵AI”平台生成，该平台最新更新了“可图1.5”和“可灵1.6”版本，能够一站式完成模特主体、换装、展示视频的生成。可图1.5在场景层次、画面细节和人像生成方面带来了显著提升，达到了以假乱真的程度。AI模特功能正式上线，预示着广告片制作可能不再需要真人模特，为电商和广告领域带来革命性变化。可灵AI的进化，不仅在技术上取得了突破，也在应用层面展现了巨大的潜力和价值。来源：微信公众号【机器之心】

OpenAI新模型o3在ARC-AGI基准测试中的挑战

OpenAI最近发布了新的推理系列模型o3和o3-mini，其中o3在ARC-AGI基准测试中取得了突破性进展，成为首个突破该基准的AI模型。ARC-AGI基准测试要求AI根据配对的“输入-输出”示例寻找规律，并基于输入预测输出。o3在低计算量模式下的性能可达75.7%，而在高计算量模式下可达87.5%。尽管o3在ARC-AGI的400个任务中成功解决了大部分，但仍有34个任务无法解决，即使在16小时的思考后也未能给出正确答案。这表明o3与人类智能存在根本差异，并非真正的AGI。此次测试不仅展示了o3在适应新任务方面的能力，也揭示了其局限性。来源：微信公众号【机器之心】

DeepSeek V3误识别自己是ChatGPT，引发大模型训练数据讨论

近期，DeepSeek V3因其在缺少问号时错误地自称为ChatGPT的bug而成为热议焦点。这一现象引发了关于大模型训练数据来源的讨论，有人怀疑DeepSeek V3是否基于ChatGPT的输出进行训练。然而，根据网友Riley Goodside的观点，所有在ChatGPT之后出现的大模型几乎都接触过ChatGPT的数据，因此这并不重要。此外，TechCrunch指出，由于网络上充斥着AI生成的内容，使得训练数据彻底过滤AI输出变得困难。尽管存在风险，开发者仍被从现有AI模型中“蒸馏”知识的成本节约所吸引。目前，DeepSeek V3的这一bug尚未解决，但其能力得到了网友的广泛认可，尤其是在创建网站、AI视频编辑和编程辅助等方面展现出实用价值。来源：微信公众号【量子位】