8月15日·Nature：出版商天价出售论文数据，AI训练背后的版权与利益争议

311 0 0

8月15日·周四 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

Nature：出版商天价出售论文数据，AI训练背后的版权与利益争议

Nature杂志的一篇文章揭露了学术出版界的一个惊人内幕：科研论文正被用作训练人工智能模型的数据，而这一过程往往在论文作者不知情的情况下进行。一些出版商通过出售论文数据给科技公司，已经赚取了巨额利润，如Wiley出版商就通过这种方式赚取了2300万美元，而辛苦撰写论文的作者们却得不到任何收入。这种现象引发了版权和道德的争议。学术数据集如S2ORC和Pile，因包含大量学术文本，已成为训练大型语言模型（LLM）的重要资源。与此同时，大型科技公司也在积极购买高质量数据集，以提升其AI模型的性能。然而，证明论文被用于LLM训练非常困难，且版权争议复杂，因为LLM并未直接复制内容，而是通过学习生成新文本。目前，一些研究者正在尝试通过技术手段检测论文是否被用作训练数据，但这一领域的法律和道德规范仍待明确。来源：微信公众号【新智元】

北大张铭教授团队ActFound模型：突破生物活性预测，助力癌症药物研发

北京大学计算机学院张铭教授团队与华盛顿大学等联合团队在国际AI顶刊Nature Machine Intelligence上发表了他们的最新研究成果——生物活性基础模型ActFound。该模型利用ChEMBL数据库中160万个实验测量的生物活性数据进行训练，成功解决了现有生物活性预测方法中的局限性，显著提升了跨域生物活性预测、先导小分子优化以及癌症药物反应预测的准确性和效率。ActFound模型采用成对学习方法和元学习技术，有效避开了不同实验间生物活性不兼容的问题，并在少量数据情况下增强了预测准确度。在多个生物活性评测基准数据集上，ActFound展现了出色的预测能力和泛化能力，其性能甚至可与基于物理的计算工具FEP+相媲美，但计算效率更高。这项工作不仅为药物研发领域带来了创新工具，也为AI在生物医药应用中的发展提供了新方向。来源：微信公众号【新智元】

ACL 2024奖项公布：华科大破译甲骨文最佳论文之一、GloVe时间检验奖

在泰国曼谷举行的第62届ACL（Association for Computational Linguistics）大会上，华中科技大学的研究成果《Deciphering Oracle Bone Language with Diffusion Models》荣获最佳论文奖之一。该研究利用扩散模型技术，为破译约3000年前中国商朝的甲骨文提供了新方法，开辟了古代语言AI辅助分析的新方向。此外，斯坦福大学、加州大学尔湾分校、得克萨斯大学奥斯汀分校合作的论文《Mission: Impossible Language Models》同样获得最佳论文奖，该研究挑战了关于大型语言模型学习能力的现有理论。本届大会还颁发了时间检验奖、终身成就奖以及多项其他奖项，以表彰对自然语言处理和计算语言学领域产生深远影响的研究成果。来源：微信公众号【机器之心】

Claude推出API长文本缓存功能：成本直降90%，效率大幅提升

Claude最近推出了一项新功能——API长文本缓存，这一更新显著提升了处理长文本的效率，并大幅降低了成本，最高可节省90%。这项功能允许API记住一整本书或整个代码库等内容，避免了重复输入的需要。谷歌的Gemini和国内的Kimi以及DeepSeek团队都已相继推出了类似功能。提示词缓存功能不仅减少了延时，还允许用户通过发送大量prompt对模型进行更有效的”微调”。Claude的这一新功能特别适合代码和长文档处理，例如降低扩展会话的成本和延迟、改善代码自动补全和问答功能、在提示中纳入完整的长格式材料等。价格方面，提示词缓存的价格分为写入和读取两部分，随着缓存被反复读取的次数增加，节约的成本也越多。这项功能目前已支持3 Haiku和3.5 Sonnet模型，Opus模型也将在后续更新中支持。开发者们认为这项更新对于降低成本和提升效率具有重大意义。来源：微信公众号【量子位】

清华唐杰团队突破：大模型实现2万字长文本生成

清华大学智谱AI团队的最新研究在大模型文本生成长度上取得了显著突破。该团队成功扩展了GLM-4和Llama-3.1等模型的输出能力，将相同问题下的输出结果从1800字增加到7800字，实现了超过四倍的增长。这一进展对于提升内容创作的全面性和模型的创造性具有重要意义。研究由智谱AI创始人、清华大学教授李涓子和唐杰共同领衔，相关论文和代码已在GitHub上开源。

研究的核心包括分析现有文本生成长度的限制因素，提出AgentWrite方法，以及扩展大型语言模型（LLM）的输出窗口大小。通过构建测试工具LongWrite-Ruler，研究人员发现，所有测试的大模型在生成超过2000字的文本时都遇到了困难。进一步分析表明，现有模型在输出长度上受限主要是因为监督式微调（SFT）数据集中缺少长输出样本。为了克服这一限制，研究人员提出了AgentWrite，这是一个基于Agent的pipeline，允许将超长文本生成任务分解为多个子任务，每个子任务处理其中的一段。

利用GPT-4o生成的6000个长输出SFT数据构成了数据集LongWriter-6k，这些数据被添加到训练过程中，显著提升了模型的输出长度。评估结果显示，使用AgentWrite后模型输出长度明显增加，其中GLM-4-9B通过直接偏好优化（DPO）实现了最佳性能。网友们已经抢先体验了这项技术，并在Reddit上分享了生成《罗马帝国衰落史》的成果。研究团队表示，未来将进一步扩展模型的输出长度和质量，同时研究如何在不牺牲生成质量的情况下提高效率。来源：微信公众号【量子位】