专家访谈丨昝红英:应形成跨学科研究团队,共同解决大模型的安全和伦理问题
作为生成式人工智能的代表,大模型已经进入全新的发展阶段。
红星新闻、红星资本局与OpenEval平台联合发起“巢燧杯”大模型创新发展大赛,已于本月正式启动。2024“巢燧杯”大模型创新发展大赛由通用大模型评测、行业大模型评测大赛、专项挑战赛、大模型应用场景挑战赛四个大赛组成。
近日,红星资本局专访了郑州大学计算机与人工智能学院教授、博导,自然语言处理实验室负责人昝红英。她认为近一年来,大模型的能力有了一定提升,研究者们也开始更多地关注模型的效率、可解释性和伦理问题。关注重点也从大模型的参数数量和效果优化转向如何实际进行应用,更加关注大模型的落地应用问题。
同时她认为,大模型的安全和伦理问题复杂,需要多领域知识和技术,还需要形成跨学科的研究团队,共同解决复杂的安全和伦理问题。
大模型要赋能千行百业
应打造行业合作生态
红星资本局:现在我们说AI赋能各个行业,“AI+行业”,这和过去常提及的“互联网+”有什么区别,大模型如何赋能千行百业?
昝红英:“AI+”注重的是通过人工智能技术的运用来改进和优化各种应用场景,使其具备更高的智能化水平。“互联网+”关注的是如何利用互联网技术改造传统行业,创造新的商业模式和增长点,以及促进经济的转型升级。尽管两者都强调了技术与其他领域的结合,但“AI+”更侧重于人工智能技术的应用,而“互联网+”更关注互联网技术对传统行业的影响和改造。
大模型要赋能千行百业,应该打造行业合作生态。比如引导人工智能企业与行业领军企业开展定向合作。基于行业企业提供真实业务场景、数据和行业真实需求,开发核心算法和预训练模型,共同研发落地应用大模型。
平台方面,打造人工智能企业与行业企业的对接平台。搭建人工智能企业与制造业、医疗、农业等行业企业的对接平台,帮助双方实现技术、模型、数据、场景等资源对接,孵化行业领域应用模式。
依托工业互联网平台,打造人工智能企业与行业企业的大模型合作生态。通过工业互联网平台实现两者的快速对接,提供保障算法、模型、数据安全的人工智能要素线上交易服务,面向不同行业建立标准化的大模型开发环境。
红星资本局:您如何看待垂类模型的趋势,垂类大模型的挑战是什么?在应用落地方面还有什么难度?
昝红英:数据质量问题、算法调优难度、应用场景多样性、跨行业合作难题,这些都是垂类大模型的挑战。
垂直领域大模型需要大量的数据进行训练,才能达到最佳效果。然而,在实际应用中,往往存在数据质量不高、数据量不足等问题,导致模型训练效果不佳。
算法调优方面,难度也比较大。垂直领域大模型的算法较为复杂,需要专业的技术人员进行调优。然而,不同行业、不同场景下的算法需求差异较大,如何根据实际情况进行有效的算法调优是摆在技术人员面前的一道难题。
垂直领域大模型的应用需要不同行业的合作,共同推进技术应用。但不同行业利益诉求、技术标准等存在差异,如何协调各方利益、推进合作是一个难题。
大模型落地应用之所以困难,主要是客户对大模型价值和应用领域还缺乏明确认知,高昂的算力成本和数据治理、模型训练与运维的投入使得企业犹豫,而且现阶段技术的可靠性、经济性和易用性尚未达到理想水平。数据共享不足也是阻碍大模型广泛应用的关键问题。
模型的效率、可解释性和伦理问题被更多关注
红星资本局:您认为2024“巢燧杯”相较去年有什么变化?评测维度上又有哪些不同?经过一年这些大模型的总体表现有何进步和关键进展?
昝红英:去年我们的评测主要聚焦于对通用大模型的多个维度进行评测,而2024“巢燧杯”大模型创新发展大赛则由通用大模型评测、行业大模型评测大赛、专项挑战赛、大模型应用场景挑战赛四个大赛组成。
其中,“通用大模型评测”将延续2023年聚焦开源和专有大模型展开通用测试,依托OpenEval平台,对参赛的通用大模型从多个维度进行评测,根据相关大模型更新时间进行复测打榜。行业大模型评测大赛设有金融、医疗、法律、交通、水利、科学六个垂直行业,由北京交通大学、上海交通大学、郑州大学、香港中文大学(深圳)等(排名不分先后)高校分别负责组织各垂直行业的比赛。
在基准评测外,金融和医疗行业还将分别举办产业交流活动。专项挑战赛则聚焦大模型特定维度(如Agent能力、价值对齐等)进行专项评测。目前已确定三个方向:角色大模型专项挑战赛(角色知识)、Agent大模型专项挑战赛(真实场景App工具规划与调用)、大模型道德对齐专项挑战赛(中文道德伦理对齐)。而大模型应用场景挑战赛计划通过调研的方式,发掘企业大模型需求场景,在把部分数据进行隐私处理后,邀请大模型企业针对企业需求场景进行开发训练、活动现场路演,由企业负责人进行打分,评选优秀获奖项目。
大模型技术持续发展,我认为现在模型规模不断增大,除了模型的能力有了一定提升外,研究者们也开始更多地关注模型的效率、可解释性和伦理问题。此外,关注重点从大模型的参数数量和效果优化转向如何实际进行应用,更加关注大模型的落地应用问题。
红星资本局:在水利行业的大模型评测时,您是如何确定评测标准的?水利行业在大模型评测中有哪些独特的需求和挑战?
昝红英:数据复杂性是水利大模型的主要挑战。水利大模型需要大量的地理、气象、水文、环境等多源异构数据。数据的质量、完整性和可获得性往往是限制模型性能的重要因素。
另外,将大模型应用到实际的水利资源管理及风险预警中,如何保证大模型输出的正确性是一个重要挑战。我认为对于大模型确实不知道的内容,应该回答“不知道”,而不应该产生幻觉问题编造答案。
这一次的评测任务中包含了不同的题目类型。为了提高评测效率,我们采用了自动化的评估指标。对于答案具有多样性的问答式生成任务,我们通常采用ROUGE-L、BLEU和BERTScore等指标来评估大模型输出与标准答案的匹配与相似程度。对于有固定答案的选择式或填空式任务,我们主要采用准确率作为指标。
应形成跨学科的研究团队
共同解决大模型的安全和伦理问题
红星资本局:本次测评还提到了大模型伦理、安全,目前我们在这方面还存在哪些欠缺,如何完善?
昝红英:比如数据来源验证不足、数据加密技术性能开销大、防御效果与模型性能之间的权衡、越狱攻击和提示注入攻击等问题。这种就需要改进数据加密技术、提高模型的鲁棒性、总结并分享最佳实践、持续进行防御策略研究。
还存在缺乏全面的安全风险建模和评估系统、模型决策过程不透明,难以理解等问题。这种就需要构建系统化的安全评估系统,引入XAI(可解释性AI)技术等方式来解决。
伦理原则都相对比较抽象,难以转化为具体的工程实践。我认为需要进行伦理嵌入设计,考虑不同文化和社会价值,探索新的对齐技术和策略。
此外我们还面临着法律法规和监管措施不足,国际合作不充分等问题。我认为需要加快推进人工智能监管立法,政府和监管机构加强对大模型安全和伦理的关注,促进国际合作,确保AI技术的开源开放和普惠发展。
因为安全和伦理问题复杂,需要多领域知识和技术。我们还需要形成跨学科的研究团队,共同解决复杂的安全和伦理问题,确保AI发展应用的负责任和安全可控。
红星新闻记者 王田 实习生 刘川蒙
编辑 邓凌瑶