8月15日·Nature:出版商天价出售论文数据,AI训练背后的版权与利益争议

8月15日·周四 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

Nature:出版商天价出售论文数据,AI训练背后的版权与利益争议

Nature杂志的一篇文章揭露了学术出版界的一个惊人内幕:科研论文正被用作训练人工智能模型的数据,而这一过程往往在论文作者不知情的情况下进行。一些出版商通过出售论文数据给科技公司,已经赚取了巨额利润,如Wiley出版商就通过这种方式赚取了2300万美元,而辛苦撰写论文的作者们却得不到任何收入。这种现象引发了版权和道德的争议。学术数据集如S2ORC和Pile,因包含大量学术文本,已成为训练大型语言模型(LLM)的重要资源。与此同时,大型科技公司也在积极购买高质量数据集,以提升其AI模型的性能。然而,证明论文被用于LLM训练非常困难,且版权争议复杂,因为LLM并未直接复制内容,而是通过学习生成新文本。目前,一些研究者正在尝试通过技术手段检测论文是否被用作训练数据,但这一领域的法律和道德规范仍待明确。来源:微信公众号【新智元】

8月15日·Nature:出版商天价出售论文数据,AI训练背后的版权与利益争议

北大张铭教授团队ActFound模型:突破生物活性预测,助力癌症药物研发

北京大学计算机学院张铭教授团队与华盛顿大学等联合团队在国际AI顶刊Nature Machine Intelligence上发表了他们的最新研究成果——生物活性基础模型ActFound。该模型利用ChEMBL数据库中160万个实验测量的生物活性数据进行训练,成功解决了现有生物活性预测方法中的局限性,显著提升了跨域生物活性预测、先导小分子优化以及癌症药物反应预测的准确性和效率。ActFound模型采用成对学习方法和元学习技术,有效避开了不同实验间生物活性不兼容的问题,并在少量数据情况下增强了预测准确度。在多个生物活性评测基准数据集上,ActFound展现了出色的预测能力和泛化能力,其性能甚至可与基于物理的计算工具FEP+相媲美,但计算效率更高。这项工作不仅为药物研发领域带来了创新工具,也为AI在生物医药应用中的发展提供了新方向。来源:微信公众号【新智元】

8月15日·Nature:出版商天价出售论文数据,AI训练背后的版权与利益争议

ACL 2024奖项公布:华科大破译甲骨文最佳论文之一、GloVe时间检验奖

在泰国曼谷举行的第62届ACL(Association for Computational Linguistics)大会上,华中科技大学的研究成果《Deciphering Oracle Bone Language with Diffusion Models》荣获最佳论文奖之一。该研究利用扩散模型技术,为破译约3000年前中国商朝的甲骨文提供了新方法,开辟了古代语言AI辅助分析的新方向。此外,斯坦福大学、加州大学尔湾分校、得克萨斯大学奥斯汀分校合作的论文《Mission: Impossible Language Models》同样获得最佳论文奖,该研究挑战了关于大型语言模型学习能力的现有理论。本届大会还颁发了时间检验奖、终身成就奖以及多项其他奖项,以表彰对自然语言处理和计算语言学领域产生深远影响的研究成果。来源:微信公众号【机器之心】

8月15日·Nature:出版商天价出售论文数据,AI训练背后的版权与利益争议

Claude推出API长文本缓存功能:成本直降90%,效率大幅提升

Claude最近推出了一项新功能——API长文本缓存,这一更新显著提升了处理长文本的效率,并大幅降低了成本,最高可节省90%。这项功能允许API记住一整本书或整个代码库等内容,避免了重复输入的需要。谷歌的Gemini和国内的Kimi以及DeepSeek团队都已相继推出了类似功能。提示词缓存功能不仅减少了延时,还允许用户通过发送大量prompt对模型进行更有效的”微调”。Claude的这一新功能特别适合代码和长文档处理,例如降低扩展会话的成本和延迟、改善代码自动补全和问答功能、在提示中纳入完整的长格式材料等。价格方面,提示词缓存的价格分为写入和读取两部分,随着缓存被反复读取的次数增加,节约的成本也越多。这项功能目前已支持3 Haiku和3.5 Sonnet模型,Opus模型也将在后续更新中支持。开发者们认为这项更新对于降低成本和提升效率具有重大意义。来源:微信公众号【量子位】

8月15日·Nature:出版商天价出售论文数据,AI训练背后的版权与利益争议

清华唐杰团队突破:大模型实现2万字长文本生成

8月15日·Nature:出版商天价出售论文数据,AI训练背后的版权与利益争议

【今日案例】

中国AI盛典与AI版百家争鸣

https://yuanbao.tencent.com/bot/app/share/chat/10b52710fe6db125124d744ca53aaaa1

© 版权声明

相关文章

暂无评论

暂无评论...