6月28日
6月28日·周五 AI工具和资源推荐
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
探索AI推理能力:视觉字幕恢复(VCR)任务
近日,加拿大Mila人工智能研究所张天宇博士团队提出了一项新的挑战性任务——视觉字幕恢复(Visual Caption Restoration, VCR)。该任务旨在测试人工智能模型在面对被遮挡文字时的推理能力,模拟人类如何根据上下文和视觉线索补全信息。通过构建VCR-wiki数据集,研究人员评估了不同语言和难度级别下模型的表现,发现尽管在简单难度下模型表现接近人类,但在困难模式下,即使是最先进的模型也难以达到人类水平。这项研究不仅揭示了现有视觉语言模型的局限性,也为未来多模态模型的训练和评测提供了新思路。来源:微信公众号【机器之心】
云从科技从容大模型全球多模态能力评测中跻身前三
云从科技的从容大模型在OpenCompass多模态评测领域取得显著成果,以平均得分65.5分的成绩,超越谷歌的Gemini-1.5-Pro和GPT-4v,位列全球第三,仅次于GPT-4o和Claude3.5-Sonnet。该评测体系由上海人工智能实验室推出,综合评估了目标检测、文字识别、图像理解等多个维度的能力。从容大模型在6个数据集上表现卓越,特别是在OCRBench测试集中以827分的高分领先,展现了其在文本识别和视觉问答等方面的强大性能。这一成绩得益于云从科技在多模态处理架构和计算技术上的创新,以及在视觉、语言领域的深厚积累。来源:微信公众号【机器之心】
OpenAI发布CriticGPT:GPT-4的自我批评模型
OpenAI在其博客上发布了一项创新成果——CriticGPT,这是前任超级对齐团队的遗作之一。CriticGPT基于GPT-4训练,旨在识别并指正GPT-4生成代码中的错误,实现自我批评功能。这一”自我闭环”模型引发了社区的广泛讨论,有人质疑其逻辑矛盾,而有人则认为这标志着模型自我提升的开始。CriticGPT的训练采用了RLHF(从人类反馈中强化学习)方法,通过人为向GPT-4输出中注入错误,训练CriticGPT生成批评意见,再由人类评估者打分。这一方法不仅提高了模型的bug检测能力,也为未来AI模型的自我监督和提升提供了新思路。来源:微信公众号【新智元】
谷歌开源Gemma 2模型:高效推理与安全性并重
谷歌近日开源了其最新的大型语言模型Gemma 2,包括9B和27B两个版本,旨在为全球研究和开发人员提供高性能的实用部署工具。Gemma 2在架构上进行了创新,实现了性能的大幅提升和推理效率的显著提高。27B模型特别引人注目,能在单张A100 GPU上以全精度高效运行推理。Gemma 2的设计注重实用性和安全性,通过知识蒸馏等技术减少训练数据需求,同时提供了负责任的生成式AI工具包,确保模型的安全部署。此外,Gemma 2具有广泛的框架兼容性,易于集成到现有的工作流程中,并通过HuggingFace等平台免费获取,进一步推动了AI技术的普及和应用。来源:微信公众号【新智元】
Video-MME:首个多模态视频竞技场基准测试
近日,由中科大、厦大、港大等联合推出的首个多模态LLM视频分析综合评估基准Video-MME正式亮相。这一全新基准测试专注于评估大型语言模型在视频理解方面的能力,涵盖900个视频、总时长256小时,并包含2700个高质量问答对。在Video-MME的测试中,谷歌的Gemini 1.5 Pro模型以75%的平均准确率领先,超越了GPT-4o的71.9%。这一结果得到了谷歌首席科学家Jeff Dean的高度认可。Video-MME的推出为多模态大语言模型的进一步研究和发展提供了重要参考,同时也揭示了开源MLLM在视频理解方面仍需提升的巨大空间。来源:微信公众号【新智元