近日英伟达的财报再次引爆市场对ChatGPT产业链的关注。
毫无疑问,当前是AI的新时代。当中,企业以何种方式参与这场盛宴,是个十分关键的问题。
(资料图)
目前,市场上普遍存在两条路径——
第一条十分清晰:“百模大战”如火如荼,各行各业、各科技公司都在推出通用的或垂直的ChatGPT大模型,大厂们大多选择了这一道路;第二条道路,是专注于上游基础设施产业链,为大模型提供算力、数据、算法上的支持,这正是英伟达选择担任的角色。
目前来看,很难判定说哪条更优。做大模型如同“挖金子”,拥有巨大的潜力,但同时充满了不知是否能成功的不确定性;专注上游产业链类似于卖铲子,拥有更高的确定性,但也有人认为,其想象空间未及大模型性感。
作为国产大数据基础软件第一股的星环科技,给出了第三条道路。
近日,在5月26日的“向星力·未来数据技术峰会(FDTC)”上,星环科技发布了业界首创的金融大模型“无涯”,以及大数据分析大模型SoLar“求索”;还展示了在数据技术与大模型工具方面的最新探索。
星环科技既是“淘金者”,又是“卖铲人”。
星环科技CEO孙元浩表示,“我们基本策略是提供工具让我们的客户、合作伙伴能以更低成本、更高效率开发出自己的模型。”
ChatGPT核心环节
ChatGPT的本质,是通过数据、算法、算力求得的大模型。模型的大小通常取决于它的参数数量。一般来说,参数越多,模型就越大,在复杂任务上就表现得越好。因此参数增加是十分确定的趋势,数据处理基础设施也相应地成为ChatGPT核心环节。
以OpenAI开发的GPT大型语言模型的发展为例。GPT-1总共使用了大约3700万个参数;GPT-2模型的训练数据来源更加广泛,最大版本的模型有15亿个参数;GPT-3的训练数据包括了互联网上的大部分公开可用的文本,最大版本的模型参数数量增加到1750亿;分析师普遍预测GPT-4的参数量至少接近万亿级。
可以看出,在大模型的发展过程中,参数数量和训练数据量正遵循指数型增长。这决定在模型训练和部署的过程中需要更大的计算资源,还需要更多、更复杂的数据处理技术——前者的机会已被多次提及,后者的机遇却往往被市场忽略。
尤其值得注意的是,不同于算力产业链参与者众多、硬件利润较低,由于具备较高的技术壁垒,国产数据软件产业链的竞争格局较为良好。
就以星环科技为例,公司不仅是国内领先的企业级大数据基础软件开发商,围绕数据的集成、存储、治理、建模、分析、挖掘和流通等数据全生命周期提供基础软件及服务;还是少有的坚持独立自主分布式数据库的公司,具备较高的稀缺性。
提供一站式大模型工具链
星环科技围绕数量处理的智能化、多模态、平民化的目的发布了诸多新品。目前,公司打造了星环大数据基础平TDH+星环数据云平台TDC、星环分布式交易型数据库KunDB、分析型数据库ArgoDB、分布式图数据库StellarDB、搜索引擎Scope、时序数据库TimeLyre、数据科学平台SophonBase等产品。
其中,在向星力·未来数据技术峰会上,星环科技展示了Sophon LLMOps。这是在公司原有的Sophon MLOps平台基础之上,针对大语言模型及其衍生数据、模型、应用问题进行相应功能增强后的大模型开发运维一站式工具链。Sophon LLMOps具备三大能力:样本仓库能力、模型运维管理能力以及大语言模型和其他任务的编排和调度和上线能力。
必须提到的是,在星环科技特有优势的基础上,SophonLLMOps提供了分布式的训练框架。分布式框架不仅能满足用户在多台机器、在每台机器多张卡之上进行大模型分布式训练;还能灵活地扩张服务器,及时满足数据量和计算需求的变化。并且分布式数据库还能并行执行多个任务,加速了数据查询和处理的速度,从而使大模型的训练和推理更加高效。
“通过提供这样完整的工具链,再跟星环的大数据平台结合起来,能够让每家企业或者每个行业都能打造自己的专属大模型。”孙元浩称, “这证明我们的工具链在实践中是可行的,并且具有商业价值。”
推出金融大模型与大数据分析大模型
据悉,星环科技还计划推出两个自研行业垂类大模型。
其中,金融大模型“无涯”拥有发布百亿及千亿参数两个版本,是一款面向金融量化领域、超大规模参数的生成式大语言模型。在深耕行业的过程中,星环科技服务了大量金融行业客户,得以积累了上百万金融专业领域的语料。在此基础上,“无涯”具备对包括基本面、技术面、消息面在内的金融通识领域的准确理解能力,能构建包括政策、舆情、ESG、风险、量价、产业链在内的六类因子库。“无涯”在现场演示中,高效地“回答”金融量化领域的各类问题。
另一个大模型“求索”立足于大数据分析,能实现自然语言转SQL,并大幅降低使用门槛。在“求索”大模型担任数据查询和分析的智能助手的情况下,非专业用户在不需要学习和掌握数据库编程语言的前提下,就可以通过自然语言自由地按需查询数据。
这两个大模型的共同特征,是与星环科技的技术能力圈和落地场景圈形成了很大协同,因而具备较高的确定性。
“求索”作为大数据分析模型,能进一步完善公司现有的产品矩阵,成为星环科技数据处理工具中极其重要的构成部分。至于“无涯”瞄准的是金融领域,这是星环科技的“舒适区”与能力圈。星环科技覆盖了超千家的客户,金融、政府正是其最重要的两大下游。
结语
星环科技似乎已经做好了双全的准备——一手握大模型,一手握工具链。在AI变革的东风之中,星环科技有望再次延伸业务边界,步入新的成长期。
标签:
仓储物流“成渝圈”如何乘势而上? 12月3日,连接昆明和万象的中老铁路全线开通运营,被惠及的显...
两件西周青铜簋时隔三千年成功配对 考古工作者介绍,这个铜簋的盖、身分别时隔40余年出土,纹饰...
“医保砍价”不是一个人在战斗 晁星 “我眼泪都快掉下来了”“每一个小群体都不该被放弃”…...
“购物成瘾”真的是一种病 刘艳 牛雅娟 本周日即将迎来“双十二”促销季,很多人又开始摩拳...
因迷恋山间风景,一男子在甘孜州稻城县海拔4000多米的无人区迷失方向,随后与同伴失联。12月的稻城...
嫌疑人DNA信息比中后,成都市公安局刑侦支队技术处DNA实验室民警白小刚一下坐在凳子上,恍惚迟疑间...
一批反映南京大屠杀历史的新书发布 新华社南京12月7日电(记者邱冰清、蒋芳)“以史为鉴,开创未来...
我在现场·照片背后的故事|电影《亲爱的》里面没有的结局,在我眼前“上映” 12月6日,在深圳市...
冥想?泡脚?不如听听助眠音乐 晚上睡不着,白天睡不醒,成为最贴合都市人群的“睡眠画像”。随...
养老话题 老年教育面临缺口 “终身教育”潜力无限 【现实挑战】“新老年”群体愿意在培养兴...
孙海洋被拐14年儿子如何找到的? 警方侦办另一宗拐骗儿童案时发现线索,通过人像比对、DNA确认找...
北京天文馆、圆明园将对未成年人免费开放 12月6日,北京天文馆发布通知称,12月8日起试行对未成...
今年全国粮食总产量再创新高 连续7年保持在1 3万亿斤以上 根据对全国31个省(区、市)的抽样调...
斑块软的很危险 硬的就无碍? 血管里的“垃圾”分类 赶快学起来! 一项最新研究显示:中国...
诺西那生钠注射液大幅降价 聚焦医保谈判背后脊髓性肌萎缩症家庭 医保目录公布那天 好多家长都...
抖音“窗花剪剪”遭抄袭 被判获赔20万元 法院认为“窗花剪剪”的这种表达方式理应受到《著作权...
公安机关近日侦破3起拐卖儿童案件 失散十几年 3组家庭终于团圆了 北京青年报记者12月6日从公...
2021年度十大网络用语发布 本报讯(记者 路艳霞)作为年度“汉语盘点”活动最具网络特色的组成部...
北京天文馆向未成年人免费开放 本报讯(记者 牛伟坤)北京天文馆对票价免费及优惠政策作出调整:1...
2021北京百个网红打卡地发布 本报讯(记者 李洋)2021北京网红打卡地推荐榜单昨晚正式发布。自然...