9月24日·奥特曼预言ASI几年内降临，人类奇点将至

AI资讯速递2年前 (2024)发布 FuturX-Editor

482 0 0

9月24日·周二 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

奥特曼预言ASI几年内降临，人类奇点将至

近日，Sam Altman（奥特曼）罕见发表长文，预言超级人工智能（ASI）可能在“几千天内”实现，比大多数专家预测的五年时间要早。他强调深度学习的有效性，认为它能够学习任何数据的分布模式，并解决一系列难题。奥特曼对AI驱动的未来持乐观态度，认为AI将为人类提供解决难题的工具，推动社会进步。同时，他也提到了AI带来的潜在挑战，如失业问题和资源分配不均等。尽管存在争议，但多数AI领域的专家都相信ASI或AGI将在五年内实现。来源：微信公众号【新智元】

AI售前助手“元小智”：零代码打造，提升IT售前效率

浪潮信息推出的AI售前助手“元小智”，通过大模型技术，实现了招标文件的快速解读和产品信息的高效查询，极大提升了IT售前团队的工作效率。该AI助手能在几秒内阅读上百页的招标文件，准确提取关键信息，并支持智能问答，辅助生成专业内容。开发过程无需编写代码，售前团队一个月即可完成模型微调和应用开发。此外，“元小智”背后的元脑企智EPAI平台，提供了数据处理、微调工具和知识库检索工具，支持企业构建专属的AI助手，实现数据自动化收集、整理和清洗，解决了大模型落地的多个痛点。来源：微信公众号【量子位】

字节跳动发布两款AI视频生成模型，引领视频制作新潮流

字节跳动在深圳AI创新巡展上发布了两款视频生成大模型——PixelDance和Seaweed，标志着其正式进军AI视频生成领域。这两款模型在审美和动态表现上实现了质的飞跃，同时解决了多主体互动和视频一致性的技术难题。PixelDance和Seaweed能够根据复杂的文字提示生成视频，捕捉多动作序列和主体间的互动，创造出自然逼真的表情和动作。此外，这些模型还支持多样的镜头语言，如变焦、环绕、平摇等，能够制作出细节丰富、风格多变的视频内容。目前，这些模型正在内部测试中，未来将逐步向公众开放。来源：微信公众号【机器之心】

开源版GPT-4o语音模型Moshi发布，技术报告公开

法国初创团队Kyutai开发的端到端语音模型 Moshi已全面开源，包括代码、模型权重和技术报告。该模型对标GPT-4o，提供自然聊天体验，支持情绪丰富、随意打断的对话模式。Moshi模型参数量为7.69B，支持在pytorch平台上的bf16版本，同时提供了8bit和4bit版本。Moshi由音频编解码器Mimi和负责知识储备、理解和输出的Transformer部分组成，包括Helium Temporal Transformer和Depth Transformer。Moshi采用“内心独白”技术，在训练和推理过程中对文本和音频进行联合建模，提高了生成质量。此外，Moshi突破了传统AI对话模型的限制，如延迟、文本信息瓶颈和基于回合的建模。来源：微信公众号【新智元】

英伟达发布NVLM 1.0，多模态性能卓越且文本性能提升

英伟达研究团队宣布推出新一代多模态大型语言模型NVLM 1.0，该模型在视觉-语言任务上取得了突破性进展，与顶尖闭源模型如GPT-4o相媲美。NVLM 1.0在多模态训练后，不仅未降低，反而提升了纯文本任务的性能。模型包含三种架构：仅解码器的NVLM-D、基于交叉注意力的NVLM-X和混合架构NVLM-H，均采用单一大型视觉编码器InternViT-6B-448px-V1-5。NVLM 1.0引入了1-D图块标签设显著提升了多模态推理和OCR任务性能。此外，研究指出数据集的质量和多样性比规模更为重要，NVLM 1.0通过整合高质量文本数据集，在视觉-语言任务表现出色同时保持了文本性能。来源：微信公众号【新智元】