科研诚信|《学术出版中的AIGC使用边界指南2.0》发布（上）

发布时间：

2024-10-31

访问量：

383

9月26日，中国科学技术信息研究所发布《学术出版中的AIGC使用边界指南2.0》（以下简称《指南2.0》）。

《指南2.0》的发布，旨在引导研究人员、学生和教育机构正确使用AIGC技术，确保研究的透明度、完整性和可靠性。通过明确AIGC的使用界限和责任，以及提供详尽的使用指导，可以促进相关利益主体就AIGC的合理使用达成共识，从而维护科研生态环境的健康和学术诚信。

此次对指南全面修订与扩充的核心亮点在于新增案例分析部分，旨在通过现有实践案例深化理解。此外，针对作者在论文撰写阶段的关键环节，如图表制作和文字撰写的规范化，以及论文投稿后的同行评审流程，均进行了调整与优化。这些改动紧密贴合科技与学术领域的最新发展与进步，旨在提升指南的实用性与前瞻性，帮助作者更好地适应并引领学术研究的潮流。

《指南2.0》主要包括背景、目标、原则、行为框架/实践指导、案例分析、总结以及致谢等七个部分，我们将分为上下两期进行详细解读。

本期内容主要介绍《指南2.0》的背景、目标以及原则。

“背景”部分，说明了AIGC技术在学术领域的应用带来了便利，同时也引发了对学术诚信和研究质量的担忧。“目标”部分，阐述了为应对AIGC技术可能带来的风险，学术界和出版机构积极制定和提供相关的准则和指南。“原则”部分，阐明了在学术出版中使用AIGC时，必须遵循透明度和问责制原则，确保所有利益相关者了解并披露AIGC的使用情况，同时保护隐私和数据安全，避免偏见，促进公平，并考虑AI系统的可持续发展和环境影响。

近年来，随着人工智能技术的迅速发展，特别是2022年11月人工智能聊天机器人ChatGPT的发布，人工智能内容生成（Artificial Intelligence Generated Content，简称AIGC）已经走进公众视野，并被广泛利用。人们清楚地认识到人工智能(AI)正在获得产生流利语言的能力，产生的大量语句越来越难与人写的文本区分开来。一些科学家已经在使用聊天机器人作为研究助手，帮助其组织思维，对他们的工作产生反馈，协助其编写代码并总结研究文献。AI在研究论文写作、创作等方面的影响不断增强，但是对学术研究的透明性、完整性产生重要影响，引起学术界的广泛关注。

学术界最担忧的是科学家、研究人员、学生等可能会欺骗性地将AIGC生成的文本作为自己的文本，或者简单使用AIGC并产生不可靠的研究成果。LLMs(Large Language Models)通过学习大量在线文本数据库中的语言统计模式来工作，很容易产生错误和误导性信息，且可能无法显示其信息的来源。如果没有输出控制，AIGC很容易被用来产生不当言论或不可靠的研究结果，影响科研生态环境。同时，根据现有检测方法，使用AIGC还可能增加学术不端检测的难度（例如抄袭和图像操纵检测）。因此，如何使用AIGC，设定界限并提供可参考的指南至关重要。

目前，一些国家科技管理机构、出版领域、期刊等针对AI技术在学术论文中的使用进行了研讨，并提供了一些相关的准则、指南等，例如国际出版伦理道德委员会（COPE），国际医学期刊编辑委员会（ICMJE），国际科学、技术和医学出版商协会 (STM)，Taylor&Francis，Wiley，Springer Nature，Elsevier，Wolters Kluwer等。值得注意的是，不同机构在不同时期发布的AI相关指南和规范性文件，有着不同的表述和要求，例如用于临床试验的 CONSORT-AI；用于临床试验方案的 SPIRIT-AI；用于预测模型的TRIPOD+AI等。为此，在广泛调研和梳理现有业内相关研究和探索工作的基础上，我们致力于为AI技术在学术出版中的最佳行为实践提供一个基本原则的框架和指南，希望能够引导出版界、科学界和科技管理部门就AI技术使用规范进一步形成共识。因为AI是一项新兴技术，技术的性质及如何使用将不可避免地发生变化，我们将根据情况变化，持续、及时更新这份指南。

2.1 防范学术不端，加强科研诚信治理

以防范AIGC不当使用作为切入点，加强科研诚信意识教育，推进学术诚信治理，推进科研活动合法有序开展。

2.2 引导相关利益主体就AIGC使用达成共识

明晰相关利益主体在学术期刊论文准备、研究和数据收集、写作、投稿、评审、出版、传播各环节应该履行的最佳行为实践，提供详尽、规范的AIGC使用指导。

3.1 透明度和问责制

透明度和问责制是学术出版中AIGC使用最基本的原则。在学术研究到出版发行的过程中，所有应用功能使用者（包括研究人员、作者、同行评议人和读者）都应该了解并明确披露AIGC在其工作中的使用情况，应用程序提供者、技术开发者应该明确披露说明该应用程序接受过的数据训练、内容来源。透明度应该包括数据透明度（包括底层数据集、数据来源和数据处理方法），以及知识产权和版权材料的使用情况。问责制则是关键利益相关者应共同承担的责任，包括研究人员、研究机构、资助者、政策制定者和出版商，应建立问责标准和相关信息。

确保质量和诚信是在学术研究中AIGC应用建立信任的基础。从算法的设计和构建，到用于训练AIGC的输入，再到实际应用中使用的输入，应坚持问责和透明原则，并通过标识符或反馈等手段表明AIGC的使用，保证学术研究的质量和诚信不受AIGC技术使用的影响。

3.2 隐私和安全

隐私和安全是AIGC使用的基本法律原则。在使用 AIGC时应尊重隐私和数据保护，包括数据、隐私和安全影响评估，并通过适当的数据匿名来保护隐私，开展数据保护和安全措施来确保数据安全。作者还应遵守其所投稿的出版机构的特定隐私和保密政策。此外，使用大语言模型的用户应意识到，任何提交的信息可能会被抓取并用于训练模型，因此应采取必要的措施来保护敏感数据。

3.3 公平

使用AIGC时应秉持公平原则，避免偏见。由于人工智能具有复制和放大偏差的风险，因此在训练数据选择、算法设计、模型生成和优化、使用过程中，应仔细评估和审查潜在的偏差来源，并建立反馈机制，监测和审查可能的不公平现象，及时纠偏。同时，AIGC能够帮助提供诸如语言润色等服务，减少此类文化或语言上的不公平现象。

3.4 可持续发展

AI系统的多学科性质使其非常适合解决全球关注的领域，如联合国可持续发展目标、碳中和等。它还为公共和私营组织提供了提高效率的机会，以实现更大的生态可持续性和责任。尽管AI系统承载着造福全人类，包括子孙后代的承诺，但我们也必须认识到训练和使用生成式AI的能源密集型性质，这对环境的影响不容忽视。为高质量输入数据的供应商提供资金和其他奖励措施，如出版商创建的出版物和数据库，有助于提取重要的可采取行动的知识。

可持续发展应是AIGC本身的核心原则。为减少重复和浪费，使用AIGC应避免过度依赖可能暂时或永久不可用的数据，同时工具的功能模块应基于公认标准和指南，以确保数据可查找、可访问、可互操作和可重复使用。在这一过程中，应特别注意减少生成式AI对环境的影响，推动可持续的技术发展。

内容来源：

中国科学技术信息研究所

https://www.istic.ac.cn/html/1/284/338/2149891904917733076.html

公众号科研与诚信

https://mp.weixin.qq.com/s/ktlubsH99ditbr-UNDeOFQ