摘要:[目的/意义]探索人工智能内容生成技术对开源情报工作的影响与改变。[方法/过程]以 chatgpt 的形成与 aigc 技术演进为研究起点,分析 chatgpt 现有技术特征与技术演进趋势,从开源情报全周期视角解析该现象级应用对开源情报工作的潜在影响。[结果/结论] chatgpt 对开源情报的信息搜索、信息获取、信息处理环节具有一定提升作用。但现有技术缺陷使 chatgpt 在开源情报全流程介入中仍面临数据可靠性、情报隐秘性、意识形态风险等问题与挑战。建议情报机构采取 aigc 技术融合理论探索、ai 生成式内容可靠性评估、智能技术体系建设等积极策略来应对本轮技术变革,更好实现开源情报价值。[局限]受限于 aigc 技术领域专业化知识与 chatgpt 应用下的开源情报实践不足,研究结论仅是chatgpt 对开源情报工作影响的思考与探索。
关键词:chatgpt;人工智能;开源情报;内容生成技术
study on the impact of chatgpt on open source intelligence work and countermeasures
abstract: [purpose/significance] this study explores the impact of ai generated content(aigc)on open source intelligence work. [method/process] starting with the formation of chatgpt and the evolution of aigc technology, this study analyzes the current technological characteristics and trends of chatgpt, and interprets the potential impact of this phenomenon-level application on open source intelligence work from the perspective of open source intelligence full cycle theory. [result/conclusion] chatgpt has a certain role in improving the information search, acquisition, and processing stages of open source intelligence. however, the current technological limitations still pose challenges and risks for chatgpt in the full cycle of open source intelligence, such as data reliability, intelligence confidentiality, and ideological risks. it is recommended that intelligence agencies adopt active strategies such as exploring aigc technology integration theories, evaluating the reliability of ai-generated content, and building intelligent technology systems to cope with this round of technological changes and better realize the value of open source intelligence. [limitations] this study is limited by specialized knowledge in the aigc field and insufficient practical experience of open source intelligence under the application of chatgpt. the research conclusions are only a reflection and exploration of the impact of chatgpt on open source intelligence work.
keywords: chatgpt; artificial intelligence; open source intelligence; artificial intelligence generated content
引言
chatgpt 从发布到活跃用户数突破 1 亿用了不到 2 个月时间,这一现象级应用的突然出现在带动全球人工智能新一轮研发浪潮的同时,也引发社会各界的高度关注。chatgpt所表现出对人类思维理解准确性的跨越式提升,标志着人类将跑步进入传统人类内容创造和人工智能内容生成(ai generated content,aigc)并行的阶段,并将逐步进入后者主导的时代。以 chatgpt 为标志的 aigc 变革,将重塑各个行业乃至全球“数字化转型”的路径。开源情报是相对于秘密情报而言的,是指产生于公开渠道的信息且被及时收集利用,
并分发到用户以满足特定需求的情报。
开源情报在情报工作中发挥着重要的基础作用。伴随信息化时代的快速到来,开源情报表现出收集成本低、风险低、内容丰富、更具隐蔽性等明显特征。随着机器学习、自然语言处理等 ai 技术在开源情报中的广泛应用,使得高质量、多样化且被掩盖的信息被快速挖掘出来,给开源情报工作带来了前所未有的变革。然而,纷杂的数据来源与庞大的数据量及其背后的收集与评估,也对情报机构的数智化能力形成了巨大的挑战。ai 作为信息化时代开源情报的关键驱动技术,尤其是 chatgpt 的出现瞬间引起了情报界广泛关注。chatgpt 作为外在表现为聊天机器人的 ai 应用,其本质是借助于大规模语言模型实现对 tb 级公开语料无监督自主学习后,产生更加贴近于人类常识、认知、需求和价值观的生成式人工智能技术。chatgpt 兼具智能问答、语言转换、自然语言生成等功能,有理由让我们相信其或将对开源情报工作产生一定程度的影响或改变。
1 chatgpt 形成与技术演进概述
chatgpt 是使用基于人类反馈的强化学习(rlhf)训练的文本生成式对话机器人,是openai 公司历经 7 年发展与积累推出的全新聊天机器人。chatgpt 是 aigc 技术持续演进的结果。一是“转移学习”(transfer learning)的模型架构“transformer”推动了整个 ai 范式的转变,使得生成式预训练模型(gpt)成为可能,进而让处于快速发展阶段 aigc 技术迎来了突破性拐点;二是大数据级语料集、高性能计算设备、云计算平台为大规模基础模型的实现提供算据与算力保障。
aigc 技术是互联网、大数据、人工智能等信息技术综合应用的产物,具有数据巨量化、内容创造力强、跨模态融合、认知交互等特征。事实上,aigc 技术早在 20 世纪 50 年代已初见萌芽,1964 年世界第一台聊天机器人 eliza 就已问世;20 世纪 90 年代至 21 世纪10 年代中期,aigc 技术从实验性向实用性转变,如随着自然语言处理(nlp)出现,ibm于 2006 年推出了聊天机器人“watson”;2015 年至今,伴随着深度学习算法的不断迭代,aigc 技术进入快速发展阶段,如 2016 年“阿尔法围棋” (aiphago)的问世,再到英伟达、deepmind 等领先企业不断推出的图片或视频内容生成模型,再到具有强大识图能力的最新 gpt4 模型。
gartner 2022 人工智能技术成熟曲线图预测,aigc 技术将在 2~5 年内进入成熟期;另据 cb insights 统计,aigc 技术领域目前约有 250 家初创公司;2022 年,chatgpt 和 aigc 技术领域吸金超过 26 亿美元,共诞生出 6 家“独角兽”,估值最高的就是290 亿美元的 openai。综上,aigc 技术已经成为全球普遍关注的战略前沿技术,且伴随着人工智能算力的指数级提升,新技术迭代将不断加快,或将迎来一个集中爆发期,对相关行业的影响已初步显现,商业化应用或将提速。
2 chatgpt 对开源情报工作的影响
chatgpt 作为自然语言的最新人机交互系统,它所带来的基于转移学习的知识获取全新方式,从现实和积极的角度看,对提升开源情报的搜集与处理效率确实表现出一定促进作用。但也要看到,作为一项仍处于技术验证阶段的产品,chatgpt 的阶段性技术缺陷使其全面介入情报工作的程度仍存较大局限性。比如,情报的产生主要取决在于情报人员对关键信息的第一时间获取,情报价值会随着时间推移不断“衰退”。目前看,chatgpt 基于“旧数据”所建立的知识体系无法对此给予响应。因此,情报界应以更加客观、谨慎的态度,从开
源情报全周期视角对 chatgpt 的影响作用加以审视。
2.1 从信息搜集环节来看,chatgpt 使开源情报工作对历史数据的获取更全面和便捷
开源情报工作的最大价值在于公开信息源基础性信息的全域获取。当情报人员遇到一个全新领域的情报任务,通常需要花一定时间查阅发展历程、基本情况等背景性资料,chatgpt 的出现可以帮助情报人员全面快速获取历史信息。由于 chatgpt 背后庞大的训练数据集主要来自 common crawl、新闻、帖子、书籍及各种网页,使训练数据规模达到 pb级,基本囊括了所有 web 公开信息源。从信息获取的角度来看,chatgpt 对于开源信息获取相当于 google 对互联网即时信息查询的意义,为情报人员提供了一个历史信息的一站式检索平台,且是以自然语言交互方式加以实现,可以满足情报人员对历史开源信息快捷获取的需求。但是,大规模自然语言学习模型的一大弊端是训练数据的滞后性,chatgpt 的训练数据只更新至 2021 年 9 月,即使模型训练数据不停获得更新,在时效性上也无法与搜索引擎相比。因此,chatgpt 可以帮助情报人员更加全面、快速、便利地获取与新情报命题“是什么”相关的历史信息,而对进一步回答“为什么”与“会怎么”等关键情报问题,目前chatgpt 存在较大局限性。
2.2 从信息获取环节来看,chatgpt 改变了开源情报的获取模式,从分散检索转变为问答式
获取开源情报表现出来源公开、领域广泛、收集手段容易等特点,使得其相较于隐秘情报的介入门槛相对较低,然而面对庞杂的、多样的信息来源渠道,就需要情报人员首先制定明确的信息获取策略和框架。当我们面对一个较为陌生的领域时,短时间内很难提出一套较为精准的信息获取策略,必须针对不同信息源通过分散查询的方式不断对信息源进行评估与甄选,耗时耗力。但如果套用熟悉领域的既有策略,所获取的信息又容易产生局限或偏差。而 chatgpt 作为一个具有情景交互功能的智能问答系统,完全改变了原有知识查询与获取
的方式。
传统开源情报工作多借助搜索引擎用关键词匹配搜索结果,而 chatgpt 则开创了自然语义问答获取方式,基于深度学习构建而成的大规模知识网络,情报人员可就情报任务所涉及的问题、观点、技术等语义级知识元与 chatgpt 进行对话,从中获取既往所不掌握的知识,从而帮助情报人员在短时间内拓宽领域视野,并获得与情报任务相关的信息链。可以说 chatgpt 更像是一个拥有丰富知识与经验的“专家”。但值得注意的是,chatgpt 的转移学习机制可以将一次任务中学习到的“知识”运用于另一项任务,即情报人员在通过chatgpt 获取知识的同时,其向 chatgpt 输入的对话内容可能会出现在给另外一个用户的输出中,从而产生“泄密点”,使得开源情报面临更大的不确定性。
2.3 从信息处理环节来看,chatgpt 对开源情报的预处理与分析更加智能
通过公开信息源获取的信息庞大且复杂,信息的预处理与分析靠人工难以完成。人工智能技术的快速演进为开源情报工作提供了新的发展动力。目前来看,chatgpt 不仅能够对开源情报的获取方式产生巨大改变,在情报信息的组织、预处理及基础性分析方面或具有积极影响。一是数据组织方式从信息表面特征转向语义层面。传统情报生产模式下,所获取的原始信息往往以不同信息类型外部特征下的元数据方式进行组织。比如文献数据通常按题目、作者、关键词、摘要等关键题录信息进行组织,这种方式仍停留在词义层面,且对数据的结构化程度要求较高。而 chatgpt 不受数据类型的限制,可实现基于文本内容的语义组织。例如,chatgpt 可以将所获取的社交媒体信息按情感状态或反应进行分类,也可将一组新闻文章聚类到一个给定的主题或事件中。二是 chatgpt 可替代人工完成很多情报预处理工作。chatgpt 的出现或将改变原始资料预处理占用情报人员 80%工作量的现状。chatgpt 强大的自然语言处理与生成能力,可部分替代情报人员的预处理工作,比如信息的跨语种互译、自动化文本分类与标注、实体关系识别与分析、简单的数据统计分析及可视化展示等。三是生成式 ai 将推动情报辅助分析工具走向集成化应用。一方面,chatgpt 实现了编程语言与自然语言间的转换,为有程序开发需求的用户设置应用程序接口(api),用户可调用 openai 的开源代码资源用于自身开发任务,使得情报人员不再需要针对不同来源或类型信息单独开发辅助工具,只需通过与 chatgpt 的语义交互实现对已有类似功能开源工具的调整。另一方面,aigc 技术领导者已开始尝试将人工智能嵌入至创造性工作的每一环节。例如,近期微软推出的“microsoft 365 copilot”将大型语言模型嵌入微软办公软件包,使得办公软件的使用更加智能,如借助 excel 中的 copilot,可在几秒钟内实现较为复杂的统计分析与专业的数据可视化外观。但需要指出的是,虽然 chatgpt 与现有信息分析技术的融合应用可以助力情报分析,但仅限于信息层面的预处理与数理或文本计量统计等基础性分析,对需要人脑深度介入的高级分析的辅助作用十分有限。此外,情报工作者在借助网络实现chatgpt与本地化辅助工具融合应用的同时,也将面临网络攻击等网络安全风险挑战。3 chatgpt 为开源情报工作带来的问题和挑战
3.1 chatgpt 对单一情报环节有效,对多生产变量的情报任务辅助有限
从情报的生成过程来看,开源情报同样遵循情报需求、情报评估、情报反馈、情报生成这一闭环规律。伴随着情报需求与经济社会活动联系愈发紧密,当前多数情报任务无法通过简单的公开源信息收集与分析完成,而要通过对情报各生产环节进行不同的组合或编排才能加以实现。比如,要对各类信息源进行判断或遴选,并从已有信息中发现新线索,再将活动的信息组合起来,并借助分析思维对信息背后的情报主题给予感知与刻画,而实际上这些重要的情报环节都需要借助“人脑”去实现。此外,这些情报环节所涉及的情报活动范围及方法并非恒定不变,而会根据情报任务环境变化而随之调整。目前看来,对历史依据的查询、信息来源的验证、简单的信息处理等智力投入较低的单一情报环节,chatgpt 的辅助作用明显,而对那些需要借助人际情报、信号情报、测量与特征情报等多种情报手段及对智力与经验要求较高的复杂情报任务,chatgpt 干预的程度十分有限。
3.2 chatgpt 的关键技术缺陷,会使开源情报工作面临很多不确定性
一是数据可靠性无法保证。开源情报来源纷繁复杂、质量良莠不齐,加上 chatgpt 本身无法与实时数据库或即时信息来源链接,导致其所提供数据的准确性、完整性、可验证性及时效性无法保证。如果情报人员在未对 chatgpt 输出信息进行可靠性验证的情况下强行使用,一方面可能会导致后续情报研判出现严重偏差,还有可能会引发知识产权争议。二是情报的隐秘性无法保证。尽管开源情报是公开的信息,但作为情报其本身仍具有涉密性。大规模基础模型所引入的“注意力机制”,使得 chatgpt 可以根据对话的上下文语义生成最符合人类认知的文字。如果情报人员使用 chatgpt 完成一项情报任务,服务提供方同样可以利用该工具捕捉情报人员输入文本间的内在联系,并将计算结果综合起来“还原”出情报人员背后的情报意图,且可在开源环境下通过用户的行为数据,实现对用户的精准画像。
4 开源情报工作的应变策略
chatgpt 背后大模型的出现让人工智能内容生成变成现实,智能创作时代的大幕正缓缓拉开。目前看,受限于一些有待跨越的技术障碍,chatgpt 对开源情报工作表现出的影响还十分有限,但以 aigc 目前表现出的技术演进速度,对开源情报生产方式产生深刻改变只是时间问题,情报机构应当采取积极策略来把握此轮技术变革机遇,更好实现开源情报价值。
4.1 应将如何发挥 aigc 技术辅助作用作为新时期开源情报工作的重要战略议题
chatgpt 背后 aigc 技术的转折性突破让人们看到“通用人工智能”的终极曙光,也预示着数字化与智能化叠加的智能数字化时代即将到来。未来,aigc 技术将呈现文本、图像、音频、视频跨模态融合应用的技术演进趋势,大模型将获得广泛应用。新时期开源情报发展的关键仍在如何挖掘自身基础价值,而 aigc 技术在其中更多表现出智能化辅助价值。未来,开源情报领域应将 aigc 技术创新热门主题、未来技术发展方向、商业化前景等作情报实践的阶段性研究重点,特别是应对技术伦理给予足够关注,因为 aigc 技术要更好地发挥情报辅助作用来提升情报生产力,必须应对和化解诸多技术伦理方面的问题与挑战。此外,应尝试将 chatgpt 为代表的 aigc 技术嵌入开源情报活动的基本环节与流程,在其嵌入后对开源情报基础价值的影响与改变给予客观性的评价,从而更加准确地找到人工智能驱动下的开源情报发展路径。
4.2 应将人工智能生成内容可靠性评估作为开源情报工作的核心能力去建设
由于公开源信息纷杂庞大,使得虚假信息、欺诈信息、恶意软件、信息4008云顶国际网站的版权等问题长期制约开源情报发展。随着chatgpt等智能生成技术与搜索引擎等传统信息检索技术融合,公开源信息的获取更加便利的同时,更多由 ai 生成的“假情报”会混入其中,开源信息的溯源与可靠性验证将变得更加重要。未来想利用 aigc 技术驱动开源情报工作的专业机构,应该将通过 ai 生成方式获取信息的可靠性评估作为一项专业化核心能力去打造。一方面,情报机构应综合 aigc 技术演进特点与开源情报活动适用环节,编制 aigc 技术规范应用基本守则或指南,防止滥用可能带来的虚假信息或情报泄露等问题。另一方面,情报机构应发挥已有专业情报资源与技术优势,可尝试开发出类似学术出版物查重的 ai 生成内容验证系统,并整合现有情报收集与分析工具,针对人工智能生成内容逐步探索建立溯源及可靠性验证技术体系。
4.3 加强对 aigc 新技术的应用研究,加快构建面向开源情报工作的技术支撑体系
海量的开源情报已经远远超出了单凭人力加工处理的能力范畴,必须借助专门的开源情报技术来加以辅助。开源情报工作有其特殊性,在将 aigc 技术引入的同时要结合实践加以改造,形成相应的技术支撑体系。当前阶段,aigc 技术还很难在关键情报感知、刻画、研判等深度分析环节发挥作用,但应在开源信息的获取、加工与分析前的预处理等人力短板上给予大胆尝试应用,特别是一些语义特征明显的环节,如主题词自动识别与抽取、主题聚类、文本自动摘要等。在使用 chatgpt 等相关技术产品过程中,应特别注意与已有较为成熟的开源信息获取与处理平台或工具间的互补性开发应用,主动探索开源信息获取的新方法、新形式和新应用,并将网络安全问题也纳入其中,逐步形成一套较为可靠、有效的技术支撑体系。
4.4 积极营造有利于人机高度协同的开源情报工作环境
虽然 aigc 技术让人们更加清楚地看到,人工智能技术才是未来开源情报收集的主流方向,但无论 ai 智能技术如何发展,要清楚地认识到情报的最终价值是经由人脑通过一系列情报活动挖掘产生的,机器始终无法完全替代人脑。面对汹涌的 ai 洪流,情报界既要主动顺应新的技术变革,还要坚守情报“以人为本”的核心价值,从认知与知识体系两大层面寻求生物智能与机器智能的最佳交互状态。首先,应更加理性地认清 aigc 技术对情报到底意味着什么。aigc 技术只是在某种程度上改变了数据、信息向情报、知识及最终使用者转化的速度与形式,引申一步说,aigc 技术有助于消除情报生产主体因社会、心理、教育等个体差异而对同一情报问题产生认识产生偏差。其次,应加强对“专业与垂直”领域的知识获取。chatgpt 在短时间内帮助情报人员拓宽领域视野的同时,也要面对因缺乏该领域知识而无法甄别信息真伪的问题,因此,情报机构应有意识加强跨领域交流与知识体系建设。
另外,智能数字化时代,专业情报人员的核心能力并非一般的信息化能力,而是集信息化收集与处理、信息研判与甄别、开源情报敏感性、优秀的阅读与理解等多方能力,未来情报专业教育应更具前瞻性与系统性,侧重于全面综合能力的培养。
5 总结
凭借在训练数据与大数据算力上的规模优势及相对完整的产业生态,我国或将迎来aigc 技术与产业的高速发展期。而我国开源情报工作长期受技术条件制约,此次 ai 技术的局部性爆发,让我们看到开源情报领域成为发挥 ai 智能作用主战场的绝佳契机。本文认为,从短期看 chatgpt 所引发的 aigc 技术跨越式发展并不会对现有情报生产模式产生颠覆性影响,但从长远看,或将对各类情报工作产生深远影响。开源情报领域应从战略思想、核心能力、技术体系及情报环境等方面给予积极应对。由于 chatgpt 仍处于技术验证阶段,且受限于所掌握的 aigc 技术领域专业化知识与 chatgpt 应用下的开源情报实践不足,本文只是就生成式人工智能对开源情报工作的潜在影响做出了一点粗浅思考,研究结论可能存在一定的偏颇,不当之处期待学界同行给予斧正。chatgpt 是使用基于人类反馈的强化学习(rlhf)训练的文本生成式对话机器人,是openai 公司历经 7 年发展与积累推出的全新聊天机器人。chatgpt 是 aigc 技术持续演进的结果。一是“转移学习”(transfer learning)的模型架构“transformer”推动了整个 ai 范式的转变,使得生成式预训练模型(gpt)成为可能,进而让处于快速发展阶段 aigc 技术迎来了突破性拐点;二是大数据级语料集、高性能计算设备、云计算平台为大规模基础模型的实现提供算据与算力保障。