欧洲高校学者研究发现：AI能自发形成社会规范并产生集体偏见

来源：紫牛新闻

2025-05-19 11:29:00

近日，伦敦大学城市学院与哥本哈根信息技术大学的最新研究表明，大型语言模型（LLM）群体能够在没有明确编程的情况下自发形成社会规范，并涌现出集体偏见。这项研究为人工智能如何自主发展出符合人类价值观的社会行为提供了重要见解。

该研究由伦敦大学城市学院数学系的Ariel Flint Ashery、哥本哈根信息技术大学计算机科学系的Luca Maria Aiello以及伦敦大学城市学院数学系的Andrea Baronchelli共同完成，并发表在《Science Advances》杂志上。研究团队通过实验展示了去中心化的LLM代理群体中普遍采用的社会规范可以自发出现，并进一步揭示了即使个体代理没有偏见，这一过程中也可能产生强烈的集体偏见。

自发形成社会规范

研究团队设计了一项基于“命名游戏”的实验，模拟LLM代理之间的互动。他们发现，在没有中央协调机制的情况下，这些代理能够通过局部互动迅速达成一致，形成统一的“社会规范”。这种规范类似于现实社会中的约定俗成，如握手或鞠躬等社交礼仪。

实验结果显示，所有测试的LLM模型（包括Llama-2-70b-Chat、Llama-3-70B-Instruct、Llama-3.1-70B-Instruct和Claude-3.5-Sonnet）都在短时间内形成了统一的命名惯例，证明了AI系统可以在没有外部干预的情况下自主建立社会规范。

集体偏见的出现

尽管每个LLM代理在初始阶段对选项的选择是随机的，但研究发现，随着互动的进行，某些名称逐渐成为主导选择。这种现象表明，即使个体代理本身没有偏好，集体行为仍可能导致某种规范的优先出现。

研究人员指出，这种集体偏见源于代理之间复杂的互动过程。随着记忆状态的变化，代理在决策时会受到之前成功经验的影响，从而强化某一特定规范的使用。例如，在某些情况下，字母“A”被优先选择，因为它在早期互动中更频繁地被成功使用。

少数派推动社会变革

研究还探讨了少数派如何影响社会规范的改变。当一个坚定的小群体不断推广一种新的替代规范时，只要其规模达到一定“临界数量”，就能促使整个群体接受新的规范。这一发现与人类社会中类似现象一致，例如性别平等倡导或语言演变。

不同LLM模型对于新规范的接受度存在差异。例如，Llama-3-70B-Instruct模型只需2%的少数派即可推动变革，而Llama-2-70b-Chat则需要高达67%的比例。这表明，不同AI系统在面对社会变革时具有不同的敏感性和适应能力。

对AI伦理与未来应用的意义

这项研究不仅揭示了LLM群体在社会规范形成方面的潜力，也提出了重要的伦理问题。由于AI代理可能在无意识中发展出偏见，因此在部署AI系统时，必须确保其行为符合人类价值观和社会目标。

Andrea Baronchelli教授表示：“我们的研究表明，AI代理可以通过互动自发形成社会规范，但也可能无意中放大某些偏见。这对AI治理和伦理设计提出了新的挑战。”

研究团队强调，未来的研究应关注混合人类-LLM生态系统中的规范动态，探索如何引导AI系统形成有益的社会行为，同时防范潜在风险。

这项研究为理解AI如何参与塑造未来的社会规范提供了理论基础和实验依据，也为构建安全、可控、符合人类利益的人工智能系统指明了方向。

校对潘政