揭秘:“开源洗白”如何削弱欧盟AI法案下生成式AI的信任
2024年,生成式AI领域因“开源洗白”现象而受到严格审查。这一术语指的是公司声称其AI模型为开源,以获取透明度和创新的相关好处,但实际上并未遵循开源运动的核心原则。随着Meta等大公司发布Llama 2和Llama 3等AI模型,这一做法愈演愈烈,它们以开源的名义发布模型。欧盟AI法案旨在全面规范AI并促进开源创新,却无意中通过为标榜为开源的模型提供监管豁免,为这种行为创造了激励。
Andreas Liesenfeld和Mark Dingemanse的论文在巴西里约热内卢的FAccT '24会议上发表,深入探讨了这一问题。他们指出,欧盟AI法案的现行规定允许通过开源许可证发布的模型绕过对训练数据和微调方法的详细披露。这一立法漏洞被公司利用,以开源的名义推销其AI产品,同时保留关键信息,从而规避科学审查和监管监督。
关键要点
- 开源洗白定义:开源洗白是指公司将其AI模型宣传为开源,但实际上并未真正遵循开源原则,主要是为了获得正面公众形象和监管豁免等好处。
- 立法影响:欧盟AI法案为开源AI模型提供豁免,导致公司纷纷虚假标榜其模型为开源,以规避严格的监管要求。
- 对创新的影响:这种做法抑制了真正的创新,将资源和注意力从真正的开源项目中转移,并削弱了对开源声明的信任。
- 全面开放的呼吁:作者主张对开放性有更细致和综合的理解,不仅包括许可证,还包括训练数据的透明度、技术文档和整体系统架构。
深入分析
开源洗白是公司为了与开源运动的积极属性保持一致,而不必承担相关透明度和社区贡献的战略举措。这一点在公司发布AI模型的方式中尤为明显。通过在开源许可证下提供模型权重,但保留训练数据和微调过程等关键元素,这些公司营造了一种开放的假象。
Liesenfeld和Dingemanse的研究强调,AI中的真正开放应该是多方面的。它不仅包括模型权重的可用性,还应包括训练数据集的可访问性、开发过程的透明度和全面的文档。当前的选择性开放趋势破坏了这些原则,导致作者称之为“伪开放”。
欧盟AI法案对开源模型的豁免,虽然旨在促进创新,却无意中激励了这种行为。Meta等公司一直处于这一趋势的前沿,利用“开源”标签获得竞争优势,而未提供该术语所暗示的实际透明度。这不仅影响了开源生态系统,创造了不公平的竞争环境,还误导了公众和研究界关于这些模型真正开放性和可靠性的认知。
你知道吗?
- 欧盟AI法案豁免:欧盟AI法案是首个全面AI立法,为标榜为开源的AI模型提供特定豁免。这本意是促进创新,却导致了广泛的开源洗白。
- 博客发布策略:许多号称开源的AI模型通过博客或新闻稿发布,强调其开放性而缺乏相应的透明度。这种策略在吸引媒体关注和公众认可方面尤为有效。
- 对小型实体的影响:大型公司的开源洗白分散了人们对真正致力于开源项目的小型实体的注意力和资金。这为AI领域的真正创新和公平增长创造了挑战性环境。
总之,开源洗白现象,加上欧盟AI法案中的立法漏洞,对开源AI的完整性和未来构成了重大挑战。真正的开放需要全面的透明度和社区参与,而这正是当前被大型公司选择性和战略性披露所破坏的。