12月5日

AI资讯速递3年前 (2023)发布 FuturX-Editor

874 0 0

12月5日·周二

青海昆仑人工智能算力中心正式揭牌启动运营

近日，由中共城西区委、城西区人民政府主办，青海锦诚、青海云顶、西宁升哲承办的青海昆仑人工智能算力中心揭牌仪式在西宁锦诚大厦举行。这标志着，青藏高原第一座智算中心——青海昆仑人工智能算力中心正式揭牌启动运营。

由全球智慧城市大会、明日城市研究院院长徐亚敏主持的圆桌讨论活动中，青海省工业和信息化厅副厅长靳力，中共城西区委书记张俊录，城西区人民政府区长袁文，国家信息中心信息与网络安全部高级工程师杨莹，腾讯云智能解决方案总监王川南，青云科技副总裁沈鸥，升哲科技创始人兼 CEO 赵武阳共话算力与数字经济产业高质量发展。

此次青海昆仑人工智能算力中心揭牌仪式的成功举办，标志着城西区在打造算力产业、发展数字经济方面迈上了新的台阶。未来，城西区将以人工智能、物联网、大数据等新一代信息技术在西宁乃至青海的深度应用和融合发展为基础，全力打造算力产业与数字经济新生态。

来源：微信公众号【青海昆仑人工智能算力中心】

基于单语言数据的无监督语音到语音翻译

语音到语音翻译 (S2ST) 是一种将口语从一种语言转换为另一种语言的机器翻译。这项技术有潜力打破语言障碍，促进不同文化和背景的人们之间的沟通。

在这里，我们展示 Translatotron 3，一种新颖的无监督语音到语音翻译架构。在 Translatotron 3 中，我们证明可以仅从单语言数据学习语音到语音翻译任务。这种方法不仅为更多语言对之间的翻译打开了大门，而且还为非文本语音属性（例如停顿、语速和说话者身份）的翻译打开了大门。我们的方法不包括对目标语言的任何直接监督，因此我们认为这是在翻译过程中保留源语音的副语言特征（例如语气、情感）的正确方向。为了实现语音到语音的翻译，我们使用反向翻译，这是一种来自无监督机器翻译 (UMT) 的技术，其中使用源语言的合成翻译来翻译没有双语文本数据集的文本。西班牙语和英语之间的语音到语音翻译任务的实验结果表明，Translatotron 3 的性能优于基线级联系统。

来源：Google Research

任意文本、视觉、音频混合生成，多模态有了强大的基础引擎CoDi-2

近日，UC 伯克利、微软 Azure AI、Zoom、北卡罗来纳大学教堂山分校等多个机构的研究者将 CoDi 升级到了 CoDi-2。

论文一作 Zineng Tang 表示，「CoDi-2 遵循复杂的多模态交错上下文指令，以零样本或少样本交互的方式生成任何模态（文本、视觉和音频）。」

可以说，作为一种多功能、交互式的多模态大语言模型（MLLM），CoDi-2 能够以 any-to-any 输入-输出模态范式进行上下文学习、推理、聊天、编辑等任务。通过对齐编码与生成时的模态与语言，CoDi-2 使 LLM 不仅可以理解复杂的模态交错指令和上下文示例，还能在连续的特征空间内自回归地生成合理和连贯的多模态输出。

而为了训练 CoDi-2，研究者构建了一个大规模生成数据集，包含了跨文本、视觉和音频的上下文多模态指令。CoDi-2 展示了一系列多模态生成的零样本能力，比如上下文学习、推理以及通过多轮交互对话实现的 any-to-any 模态生成组合。其中在主题驱动图像生成、视觉转换和音频编辑等任务上超越了以往领域特定的模型。

来源：微信公众号【机器之心】