6月28日

AI资讯速递2年前 (2024)发布 FuturX-Editor

767 0 2

6月28日·周五 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

探索AI推理能力：视觉字幕恢复（VCR）任务

近日，加拿大Mila人工智能研究所张天宇博士团队提出了一项新的挑战性任务——视觉字幕恢复（Visual Caption Restoration, VCR）。该任务旨在测试人工智能模型在面对被遮挡文字时的推理能力，模拟人类如何根据上下文和视觉线索补全信息。通过构建VCR-wiki数据集，研究人员评估了不同语言和难度级别下模型的表现，发现尽管在简单难度下模型表现接近人类，但在困难模式下，即使是最先进的模型也难以达到人类水平。这项研究不仅揭示了现有视觉语言模型的局限性，也为未来多模态模型的训练和评测提供了新思路。来源：微信公众号【机器之心】

云从科技从容大模型全球多模态能力评测中跻身前三

云从科技的从容大模型在OpenCompass多模态评测领域取得显著成果，以平均得分65.5分的成绩，超越谷歌的Gemini-1.5-Pro和GPT-4v，位列全球第三，仅次于GPT-4o和Claude3.5-Sonnet。该评测体系由上海人工智能实验室推出，综合评估了目标检测、文字识别、图像理解等多个维度的能力。从容大模型在6个数据集上表现卓越，特别是在OCRBench测试集中以827分的高分领先，展现了其在文本识别和视觉问答等方面的强大性能。这一成绩得益于云从科技在多模态处理架构和计算技术上的创新，以及在视觉、语言领域的深厚积累。来源：微信公众号【机器之心】

OpenAI发布CriticGPT：GPT-4的自我批评模型

OpenAI在其博客上发布了一项创新成果——CriticGPT，这是前任超级对齐团队的遗作之一。CriticGPT基于GPT-4训练，旨在识别并指正GPT-4生成代码中的错误，实现自我批评功能。这一”自我闭环”模型引发了社区的广泛讨论，有人质疑其逻辑矛盾，而有人则认为这标志着模型自我提升的开始。CriticGPT的训练采用了RLHF（从人类反馈中强化学习）方法，通过人为向GPT-4输出中注入错误，训练CriticGPT生成批评意见，再由人类评估者打分。这一方法不仅提高了模型的bug检测能力，也为未来AI模型的自我监督和提升提供了新思路。来源：微信公众号【新智元】

谷歌开源Gemma 2模型：高效推理与安全性并重

谷歌近日开源了其最新的大型语言模型Gemma 2，包括9B和27B两个版本，旨在为全球研究和开发人员提供高性能的实用部署工具。Gemma 2在架构上进行了创新，实现了性能的大幅提升和推理效率的显著提高。27B模型特别引人注目，能在单张A100 GPU上以全精度高效运行推理。Gemma 2的设计注重实用性和安全性，通过知识蒸馏等技术减少训练数据需求，同时提供了负责任的生成式AI工具包，确保模型的安全部署。此外，Gemma 2具有广泛的框架兼容性，易于集成到现有的工作流程中，并通过HuggingFace等平台免费获取，进一步推动了AI技术的普及和应用。来源：微信公众号【新智元】

Video-MME：首个多模态视频竞技场基准测试

近日，由中科大、厦大、港大等联合推出的首个多模态LLM视频分析综合评估基准Video-MME正式亮相。这一全新基准测试专注于评估大型语言模型在视频理解方面的能力，涵盖900个视频、总时长256小时，并包含2700个高质量问答对。在Video-MME的测试中，谷歌的Gemini 1.5 Pro模型以75%的平均准确率领先，超越了GPT-4o的71.9%。这一结果得到了谷歌首席科学家Jeff Dean的高度认可。Video-MME的推出为多模态大语言模型的进一步研究和发展提供了重要参考，同时也揭示了开源MLLM在视频理解方面仍需提升的巨大空间。来源：微信公众号【新智元】