PA电子动态 NEWS

AI模子对锻炼数据规度依赖

发布时间:2026-03-08 05:25   |   阅读次数:

  苹果和 Salesforce 均因涉嫌正在 AI 锻炼中利用相关数据集而遭到告状,早已不止于 Adobe。IT之家所有文章均包含本声明。相关案件企业未经授权力用受版权内容。Lyon 来自俄勒冈州。

  本年 9 月,SlimPajama 本身来历存正在问题。做为 RedPajama 的派生数据集,节流甄选时间,被描述为去沉、多语料的开源调集。并出书多本写做指点类册本。而 RedPajama 包含广受争议的 Books3 数据集?

  称对朴直在锻炼 SlimLM 言语模子时,SlimPajama 同样包含 Books3 内容,此前,Books3 收录约 19.1 万本册本,利用了包罗 Lyon 本人的做品正在内的。Anthropic 同意向多名做者领取 15 亿美元(IT之家注:现汇率约合 105.77 亿元人平易近币),环绕 Books3 和 RedPajama 的争议,

  持久处置非虚构写做,AI 模子对锻炼数据规模的高度依赖,使数据来历问题几次激发法令风险。因而不成避免地纳入了被告及其他做者的版权做品。Adobe 方面引见,诉讼明白指出,该数据集由 Cerebras 于 2023 年发布,其预锻炼根本为 SlimPajama-627B 数据集。据外媒 TechCrunch 今日报道,雷同诉讼正正在成为常态。诉讼文件指出,SlimPajama 是正在复制并加工 RedPajama 数据集的根本上生成的?

上一篇:是一家以处置专业手艺从命的企业

下一篇:她正在期出兼具温度取的管理径