当大模型不再稀缺:得数据者得天下
zhonghua @ 2023年04月12日 财经风云
当大模型不再稀缺:得数据者得天下 常嘉帅 民生证券认为,尽管目前表面上大模型百花齐放,但是能够拥有高质量数据场景助力持续迭代,使得逐步性能逼近ChatGPT的大模型预计最终仍是"凤毛麟角"。掌握优质数据的公司或将取得竞争优势。 紧随OpenAI、谷歌的步伐,国内大模型军备竞赛正打得火热。继百度、三六零之后,本周阿里、华为、京东等大模型陆续浮出水面。 大模型不再稀缺之后,AI竞赛的下一步将走向何处?民生证券分析师吕伟发表研报指出,尽管目前表面上大模型百花齐放,但是能够拥有高质量数据场景助力持续迭代,使得逐步性能逼近ChatGPT的大模型预计最终仍是"凤毛麟角"。数据将成为差异化竞争的关键,最终是得数据者得天下。 分析师认为,未来的AI竞争中,三类企业将掌控主动权: 1.同时拥有搜索引擎、浏览器、办公插件等高质量数据的公司; 2.掌握音箱、摄像头等物联网终端数据的公司; 3.垂直行业有绝佳数据卡位优势的企业。 具体来看: 搜索引擎公司 搜索引擎公司天然具备数十年网络爬虫积累的高质量互联网数据资源,而且凭借这一数据卡位战略入口,其数据资源与质量仍将不断迭代提升:当搜索引擎爬虫完成对某个网站或者某个主题下所有相关网站的抽取后,需要对其进行处理和分析。这通常包括以下几个方面:1)数据清洗与去重;2)数据挖掘与分析;3)建立索引以便后续查询。 继微软公司已经在其必应(Bing)搜索引擎中部署ChatGPT系统背后的技术后,据《华尔街日报》4月6日报道,谷歌CEOSundarPichai透露,谷歌计划在其搜索引擎中添加AI对话功能,目前该公司正在对几种搜索引擎版本进行测试。他表示,此举是为了应对ChatGPT等聊天机器人带来的竞争和商业压力,但聊天机器人不会对谷歌的搜索业务构成威胁,AI的进步反而能进一步增强谷歌的信息检索能力。 从GPT-1的1.17亿参数到GPT-2的15亿参数,再到GPT-3划时代的1750亿参数,OpenAI依托筛选过的优质数据形成参数量的阶梯式上升,最终带来GPT-3乃至ChatGPT具备理解上下文、连贯性等诸多先进特征。 在提出GPT-3的论文《LanguageModelsareFew-ShotLearners》中,OpenAI在收集近一万亿文字(参数)的数据库后,放弃直接使用海量数据训练模型,而是转向通过三种模式筛选优质数据进行训练,从而从万亿参数归纳出众人所熟知的1750亿参数,其核心原因在于"未经过滤或轻度过滤的爬虫数据往往比筛选后数据集质量更低"。 物联网终端 近期天猫精灵。通过音箱端接入阿里大模型,做出了一款阿里版ChatGPT个性化语音助手,标志这一趋势已经开启。AIoT终端的"卖铲人"以及视频摄像头数据入口企业都拥有巨大优势。 垂直行业有绝佳数据卡位优势的企业 彭博新闻社近期发布了专门为金融领域打造的大型语言模型(LLM)—BloombergGPT就是垂直数据优势"挑战"巨头通用大模型的案例。 在过去40年里,彭博收集了海量的金融市场数据,拥有广泛的金融数据档案,涵盖一系列的主题。使用该公司数据终端的客户遍布全球,包括交易员、投行、美联储、美国其他官方机构以及全球各大央行等。这些特有数据,使得BloombergGPT比ChatGPT拥有更专业的训练语料。 据彭博社发布的报告中可以看出,研究人员利用彭博社现有的数据,对资源进行创建、收集和整理,构建了一个3630亿个标签的数据集,并基于通用和金融业务的场景进行混合模型训练,以支持金融行业内各种各样的自然语言处理(NLP)任务。 映射至国内,掌握垂直优质数据的公司,将有机会开发自己的BloombergGPT。 本文主要观点来自民生证券吕伟(执业:S0100521110003)发表的研报《当大模型不再稀缺:得数据者得天下》,有删节 风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
|
相关内容
-
暂无...
推荐内容
- 逆袭!600家小市值公司藏金,机构调研曝光三大爆..
- 特朗普“大重置”:债务化解、脱虚向实、美元贬值..
- 美股三大指数冲高回落,中概股重挫,纳斯达克中国..
- 深夜,重挫!近一个月最大跌幅;鸿蒙智行,连推爆..
- 活久见!美国商务部长上电视“推票”:买特斯拉股..
- 华尔街解读美联储决议:鸽派的亮点与迷你“鲍威尔..
- 深海经济利好持续加码,与商业航天、低空经济并列..
- 美联储的“关键一战”在5月,届时降不了息,那今..
- 李嘉诚押注创新药!和黄医药明星抗癌药海外大卖近..
- “三巫日”前美股反弹一日游,量子计算股暴跌,拼..
- 鲍威尔给经济焦虑“灭火”,标普创八个月来美联储..
- 腾讯要为AI砸千亿重金
- 政治危机升级,反对派领袖被捕引发土耳其股债汇三..
- 3月LPR报价出炉!1年期、5年期均维持不变..
- 五部门:依法稳步推进绿证强制消费,逐步提高绿色..
热点阅读
- “商品旗手”高盛:三大驱动力刺激,铜或迎来新一..
- 500亿量化帝国“幕后推手”:龙头券商财富业务“..
- 超千家公司将被ST?真实数据来了,66股符合ST新规..
- AI驱动商业化加速,2025智驾拐点正在到来..
- Cliff Asness:这是一封写在2035年的十年资产配置..
- 刷新纪录!认购1万获配12.29元,近1300亿资金疯抢..
- 原油交易逻辑转空?
- 高盛深度分析中国短剧市场:今年规模已超电影市场..
- 开年最强的股市,为何是欧洲?
- 股市应该每年赚多少?
- 美国量化基金知多少?
- 历史性一刻!顶级域名ai.com重定向到DeepSeek官网..
- IEA:2024年原油需求增长或腰斩,明年每天都将出..
- A股一天两起离婚财产分割,“分手费”逾15亿..
- 商务部:前7月实际使用外资5331.4亿元 同比增7.3..