OpenAI“不能说的秘密”被公开了?
laodang @ 2024年03月21日 财经风云
| OpenAI"不能说的秘密"被公开了? 来源: 科创板日报 作者:宋子乔 一个普遍的猜测是,OpenAI使用爬虫,"偷走"了YouTube的数据;OpenAI高管闪烁其词,从侧面加深了人们对其"数据小偷"的印象;人工智能的竞技场仍然是一片广袤的原野,与数据有关的游戏规则要么尚未确定,要么被忽视。 GPT大模型不断进阶的同时,OpenAI面临的非议似乎只多不少,除了马斯克一再追问的"开源"问题,OpenAI训练大模型的数据来源不明,或已为这家公司埋下了侵权诉讼的地雷。 当前AI大模型的训练,数据端需要巨大数据量的大规模数据集投喂。公开资料显示,OpenAI的数据来源可能包括但不限于:公开可用的数据集,如互联网上的各种资源,如书籍、网页、新闻文章、学术论文等;合作伙伴和第三方数据提供商提供的数据集;购买的特定领域的数据,如医疗、法律或科学文献;合成数据,OpenAI可能会使用其模型自生成数据,例如通过模型自身的输出来训练和改进模型;众包和社区贡献的数据。 数据来源并不是最重要的问题,外界关注的焦点是OpenAI如何拿到这些数据。 "偷"来的? 正如Business Insider报道,OpenAI使用大量YouTube视频训练模型已经是"公开的秘密",受益产品包括其新推出的文生视频领域模型Sora。谜团在于OpenAI如何取得足够的YouTube内容。 要知道,YouTube是谷歌的子公司。2006年,YouTube被谷歌以16.5亿美元的价格收购,并在谷歌的支持下迅速成长为全球最大的视频分享平台。 而谷歌一直致力于发展AI,是OpenAI的主要竞争对手之一,自然不会将自家金矿无偿提供给对家使用,YouTube早已禁止出于商业目的的下载,还将限制大量下载YouTube视频数据的行为。这种严格把控下,个人用户也受到了影响,有人表示,即使下载一个YouTube视频,速度也非常缓慢,需要几个小时才能完成。 一个普遍的猜测是,OpenAI使用爬虫,"偷走"了YouTube的数据。OpenAI曾经承认,推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练。 OpenAI高管对相关问题闪烁其词,也从侧面加深了人们对其"数据小偷"的印象。《华尔街日报》最近询问OpenAI首席技术官Mira Murati,该初创公司是否使用包括来自YouTube、Instagram和Facebook的视频来训练Sora。 "我实际上对此并不确定,"她说。当再次被问及训练数据的来源时,Murati拒绝回答,"我不会透露细节。" Business Insider最新报道指出,一位熟悉OpenAI运营的人士表示,该公司指派了一个严密保护的团队来获取训练数据,关于如何获得这些数据,是一个保密问题。 栅栏丛生的AI原野 使用爬虫的行为并不为谷歌所容,该公司旗下的YouTube禁止通过机器人和其他自动化方法抓取其视频。 但对于OpenAI来说,以违反谷歌服务条款的方式访问YouTube视频可能并不违法。美国的判例法和"合理使用"原则赋予了公司以不同方式自由使用在线内容的权利。 简而言之,谷歌、OpenAI和其他科技公司目前认为,使用受版权保护的内容进行人工智能模型训练也是合法的。监管机构也尚未就此做出明确规定。人工智能的竞技场仍然是一片广袤的原野,与数据有关的游戏规则要么尚未确定,要么被忽视。 各厂商争先入场,搭建自己的技术栅栏。 OpenAI和其他大模型开发商此前曾在发表的研究论文中公开其训练数据源,但随着竞争加剧,这种做法不再盛行。人人都想要保留自己的技术秘诀,以求相对优势,尤其是占据有利地位的头部厂商,开源之争也是厂商试图自留杀手锏的体现。 唯一确定的是,随着生成式AI技术的进一步迭代,类似的纠纷只会多不会少。 大公司更容易成为众矢之的,以数据为例,即使它们敢于承担责任,承担高昂的数据采购成本,但要做到数据获取完全合规,并不容易。由于参数量巨大,大模型需要借助分布式计算和云服务等技术来进行训练和部署,又增加了数据被窃取、篡改、滥用或泄露的风险。 如何平衡个人隐私保护和鼓励技术创新,如何找到企业生存与合规生产间的最优路径,已经是每个致力于生成式AI事业的公司绕不开的问题。
|
相关内容
-
暂无...
推荐内容
- 逆袭!600家小市值公司藏金,机构调研曝光三大爆..
- 特朗普“大重置”:债务化解、脱虚向实、美元贬值..
- 美股三大指数冲高回落,中概股重挫,纳斯达克中国..
- 深夜,重挫!近一个月最大跌幅;鸿蒙智行,连推爆..
- 活久见!美国商务部长上电视“推票”:买特斯拉股..
- 华尔街解读美联储决议:鸽派的亮点与迷你“鲍威尔..
- 深海经济利好持续加码,与商业航天、低空经济并列..
- 美联储的“关键一战”在5月,届时降不了息,那今..
- 李嘉诚押注创新药!和黄医药明星抗癌药海外大卖近..
- “三巫日”前美股反弹一日游,量子计算股暴跌,拼..
- 鲍威尔给经济焦虑“灭火”,标普创八个月来美联储..
- 腾讯要为AI砸千亿重金
- 政治危机升级,反对派领袖被捕引发土耳其股债汇三..
- 3月LPR报价出炉!1年期、5年期均维持不变..
- 五部门:依法稳步推进绿证强制消费,逐步提高绿色..
热点阅读
- 再启IPO 华为终端芯片供应商信大捷安冲刺科创板..
- 白马股再现频频闪崩 究竟市场在慌什么..
- 达利欧:一年内,AI就会颠覆我们的生活..
- 穿越三轮熊市,大空头查诺斯是如何做空的?..
- 全球市场波动 你的资产该咋避险
- 又无理打压中企!美商务部将33家中国实体纳入所谓..
- 生猪生产力争明年底恢复到常年80%水平..
- 统计局:修订结果对今年GDP增速不会产生明显影响..
- A股四季度猜想: 趋势性上涨还是反复震荡?..
- 亚洲天然气价格暴涨近10倍 日韩面临“供气难”困..
- 普京:北溪管道将恢复向欧供气,若涡轮机无法抵达..
- IMF下调全球经济预期,避险情绪提振美元,油价或..
- 影响太大!日元贬值正吞噬基金收益..
- 小金属狂潮——全球资源国觉醒及贸易摩擦下的看涨..
- 陈昱霖父母发公开信求助 女儿因吴秀波指控被关押..