7月31日·GPT-4o语音功能上线，AI女友时代来临

AI资讯速递2年前 (2024)更新 FuturX-Editor

607 0 0

7月31日·周三 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

GPT-4o语音功能上线，科幻版Her走进现实

OpenAI的GPT-4o模型迎来了重大更新，其语音功能终于开启灰度测试，让科幻电影《Her》中的场景成为现实。目前，只有部分ChatGPT Plus用户可以体验这一新功能。GPT-4o不仅能够进行自然、实时的对话，还能感知并回应用户的情绪，甚至模仿不同的声音和口音。此外，GPT-4o的输出token数量也大幅增加至64K，使得单次输出可以包含更多内容。OpenAI预计将在秋季向所有Plus用户开放语音功能，并计划推出视频和屏幕共享功能，进一步增强交互体验。尽管目前只提供4种预设语音，但GPT-4o的语音模式已经展现出广泛的应用潜力，从语言学习到足球解说，再到日常生活咨询，AI女友的撩人能力正在被不断发掘。来源：微信公众号【新智元】

斯坦福团队研发AI达芬奇机器人，自主完成外科手术

斯坦福大学与约翰霍普金斯大学的研究人员合作，成功训练了一款名为“达芬奇”的医疗机器人，使其能够通过模仿学习自主完成基本外科手术任务。该机器人展示了提起组织、拾取针头和缝合打结的能力，所有动作均自主完成，无需人工干预。研究团队利用大规模临床数据和相对动作公式，克服了手术机器人在运动学和感知上的挑战。实验结果表明，达芬奇机器人不仅能在模拟人体组织上执行任务，还展现出了零样本泛化能力和在环境扰动下的稳定性。这项技术的发展有望进一步扩展外科医生的能力，为未来的临床手术带来革命性的变革。来源：微信公众号【新智元】

Llama 7B超越GPT-4：AI自我进化新突破

Meta、UC伯克利和NYU的研究团队共同提出了一种创新的元奖励语言模型，这一模型通过自我评价和自我改进，实现了性能的显著提升。在无需人工标注数据的情况下，该模型通过自我反馈机制，成功地解决了LLM在对齐阶段对大量数据的依赖问题。这项研究不仅提高了模型作为actor的性能，还通过增加一个元奖励步骤，让模型评价自己的评价，从而提升了模型作为judge的自我评价能力。实验结果显示，Llama-3-8B-Instruct在AlpacaEval 2上的胜率从22.9%增至39.4%，超越了GPT-4的表现。这一成果证明了模型自我提升可以减少对人类监督的依赖，为实现超级对齐提供了一个有前途的研究方向。来源：微信公众号【新智元】

马斯克xAI公司寻求构建10万卡超级集群

埃隆·马斯克的xAI公司正面临GPU短缺的挑战，这对其构建强大的AI计算基础设施至关重要。xAI公司在B轮融资中筹集了64亿美元，并且马斯克个人从特斯拉获得了450亿美元的薪酬收益，这笔资金可能用于支持xAI的GPU发展。然而，尽管资金充裕，市场上GPU的供应不足仍是一个难题。xAI正在开发Grok系列大型语言模型，包括即将推出的Grok-2和Grok-3，后者计划使用10万个英伟达H100 GPU进行训练。马斯克计划在田纳西州孟菲斯建立“计算超级工厂”，以容纳这个庞大的GPU集群。尽管面临供电和GPU供应的挑战，马斯克对完成这一宏伟项目充满信心。xAI的这一举措有望推动公司在AI领域与OpenAI、谷歌、亚马逊等大厂竞争。来源：微信公众号【AI前线】

Midjourney v6.1发布，图像生成效果惊艳

Midjourney v6.1版本上线后迅速受到热捧，其生成的图像在质量上实现了显著提升，尤其在人像方面几乎无可挑剔，接近真实摄影效果。新版本在多个方面进行了优化，包括更强的图像一致性、更高的图像质量、对小特征的更精确理解、更快的生成速度、提升的文本准确性等。此外，v6.1还引入了新的个性化模型和个性化代码版本控制功能。尽管在生成群像方面仍有挑战，但v6.1版本在真实性和物体合理性方面的表现已经足够令人印象深刻。Midjourney团队还计划在下月推出v6.2版本，预计会带来更多升级，目前正积极收集用户反馈以优化产品体验。来源：微信公众号【机器之心】