合成数据或破数据量瓶颈 哪些领域将率先落地
随着人工智能技术的蓬勃发展,高质量数据的重要性愈发凸显,成为推动大模型竞争的关键要素之一。然而,数据存量的增长速度远远低于数据集规模的增长速度,据人工智能研究机构epoch的研究预测,语言数据可能在2030-2040年耗尽,其中能训练出更优性能的高质量语言数据甚至可能在2026年耗尽。
(相关资料图)
高质量数据的稀缺性导致数据采集成本水涨船高,许多公司面临着数据获取困境。因此,引领人工智能领域的企业,如微软、OpenAI、Cohere等公司,纷纷转向使用合成数据作为解决方案,以降低数据成本,推动AI技术的发展。
合成数据有望成为解决数据不足、数据采集成本过高的关键,那么合成数据是如何合成的?与“真实”数据相比有何优劣?应用场景有哪些?哪些公司在合成数据布局上更有优势?
合成数据有望助力突破数据瓶颈
在人工智能迈入2.0时代的关键转折点,数据质量和数量成为了最为紧迫的挑战。然而,现有真实数据采集的成本高昂,且存在有限性,限制了人工智能技术的进一步发展。
Forrester将合成数据、强化学习、Transformer 网络、联邦学习和因果推理视为实现人工智能2.0的五项关键技术进展。合成数据是通过计算机模拟或算法生成的带有注释的信息,可模拟实际情况,补充真实数据的不足,提高数据质量和数量,并有效降低数据采集和处理的成本。
合成数据能够解决数据匮乏、数据质量、数据隐私等问题,提供现实世界难以或无法采集的数据,提高数据多样性和提升训练速度。
根据 美国AI研究机构Cognilytica 的数据,2021 年合成数据市场规模大概在 1.1 亿美元,到2027 年将达到 11.5 亿美元。Gartner 预测,到 2024 年用于训练 Al 的数据中有 60% 将是合成数据,到2030 年 AI 模型使用的绝大部分数据将由人工智能合成。
数据合成可以分为两类,一是通过传统算法合成,需要明确的物理规律,例如图像生成,通过3D建模来渲染图像。难点在于逼真细致的建模,场景静态与动态合理与自洽,快速的建模技术与合理的建模成本。当模拟技术发展到⼀定的阶段,通过模拟获得感知数据是⼀种更好的获取数据的⽅式。因为其成本更低,质量更高,约束更少。
二是通过生成模型(AI)合成,这类数据并不是从⾃然中采集得到的,⽽是智能体⽣成的,比如⽂本数据。这类数据需要通过复杂的智能活动才能⽣成,AI可以模仿人类⽣成这类数据。利用已经学到的知识,AI通过思考可以对已有的知识进行整理,去伪存真,得到更⾼质量的数据,并通过逻辑推理,发现新的知识。由于世界上可用的开源⽂本数据已经大部分被利用了,可以预见这类AI生成的数据的比例会越来越高。
国外的主流科技公司纷纷瞄准合成数据领域加大投入与布局。微软、英伟达、亚马逊等科技巨头均推出了合成数据的工具或者应用,用于训练自主飞行器、为AI训练构建具有物理属性的合成数据技术引擎等。
AI训练数据服务商appen表示,在处理真实世界的数据时,身份隐私的重要性将继续增加。合成数据创建人工生成数据集,因此数据中自然不包含个人身份信息。合成数据还可以快速生成大量数据,因此可以在无需时间或安全限制的情况下生成边缘用例数据。在2022年预测中,预见了对合成数据的需求,并与Mindtech合作,为客户提供合成数据。
中航证券高级分析师刘牧野对第一财经表示,合成数据相关创新创业方兴未艾,合成数据创业公司不断涌现,合成数据领域的投资并购持续升温,开始涌现了合成数据即服务这一发展前景十分广阔的全新商业模式,建议关注国内进行AI算法研究,且拥有庞大数据的公司,包括百度(09888.HK)、阿里巴巴(09988.HK)、腾讯控股(00700.HK)、金山办公(688111.SH)、中国电信(601728.SH)等。
合成数据有望在金融、医疗、智能驾驶等领域率先落地
合成数据早期主要应用于计算机视觉领域,目前,合成数据正迅速向金融、医疗、零售、工业等诸多产业领域拓展应用。合成数据以其独特优势,为模型训练提供了更多样化的数据,从而使人工智能模型更可靠、更准确。这一趋势对于面临数据稀缺性或涉及敏感信息处理的行业尤为有益。
有研究人员在2018年曾发现,顶尖的面部识别软件在识别肤色较深的人时,错误率高达34%。原因就在于用于训练这些模型的数据缺少一整个人类种族的子集。在这种情况下,合成数据可以在不需采集更多真实数据的情况下,轻松获取更多样化的训练数据。通过改变同一人的发型、头部姿势等特征,或者创造具有不同肤色、种族特征、骨骼结构等的面孔,让模型得到更广泛的训练,从而提高了可靠性。
在数据敏感的金融和生物医药领域,合成数据也展现了其隐私保护的巨大潜力。在金融行业,合成数据可以为金融机构提供一种有效的方法,用于在不提供敏感的历史交易信息的前提下,训练量化交易模型,从而提升获利能力。此外,合成数据还可以用于训练客服机器人,改善客户服务体验,为金融机构提供更智能、高效的客户支持。
合成数据的应用为药物研发工作也提供了巨大帮助。通过合成数据集,可以在不泄露患者隐私信息的条件下训练相关模型,加速新药研发过程,发现潜在的治疗方法,提高医药领域的效率和准确性。
生物医药企业成都先导(688222.SH)通过海量合成数据、筛选数据与化合物活性数据,对万亿级库不断进行分子成药属性与化学合成质量的迭代与提升。截至2022年报告期末,公司的 DEL 库分子数量已超过 1.2 万亿个。
合成数据能够在短时间内生成大量数据,这对于依赖罕见事件的真实数据场景也尤为重要,例如在自动驾驶的性能测试中,极端天气下获取真实路况数据可能存在困难或危险。在所有可能的驾驶体验中,有太多的变量需要考虑,不能完全依赖于真车进行现场测试。合成数据比人工采集数据更安全、更快捷。
这些行业中,合成数据的应用都能有效解决数据隐私和数据获取的挑战,为各领域的科技发展和商业应用提供了全新的解决方案。通过合成数据的引入,这些行业能够更好地利用大数据、人工智能和机器学习等先进技术,实现更高效、更智能、更安全的发展,为数字经济时代带来更多创新与进步。
不过,appen表示,合成数据的使用速度大幅增长虽然为企业节省了时间和资金,但并非没有挑战,合成数据缺乏异常值,而这些异常值出现在自然的真实数据中,对于模型精确度至关重要。另外,合成数据的质量通常取决于用于生成的输入数据的质量,输入数据中的偏见很容易传播到合成数据中,因此不能低估使用高质量数据作为起点的重要性。所以需要将合成数据与人工标注的真实数据进行比较,作为额外的输出控制。
倍霖科技CEO杜霖也对第一财经表示,知识类合成数据会和真实数据共存、⽆法取代,但是合成数据的⽐例会逐步升⾼。真实数据承载着现实世界的新的信息,描述世界的最新状态,合成数据达标的是已有的规律和信息,是对过去的总结和推演发展,合成数据的⼤规模应⽤在于质量和成本。
(来源:第一财经)
标签:
合成数据或破数据量瓶颈 哪些领域将率先落地
2023-08-04
兴义首个百姓室外智慧健身房获市民点赞
2023-08-04
挖潜家居消费市场 这家渝企补贴3000万元普及智能锁“走家入户”
2023-08-04
防爆风机应用于建筑领域
2023-08-04
蔚来小鹏花期已至,理想极氪再创新高,7 月新能源车市成绩单出炉
2023-08-04
欧美数据连传坏消息!黄金短线急升逼近1940 轻松行情已结束?
2023-08-04
西安高新区经济增速亮眼
2023-08-04
电讯报:尽管拉亚更有可能转会阿森纳 但拜仁仍在努力说服他加盟
2023-08-04
鳌拜为什么动不了索尼 鳌拜
2023-08-04
上半年不锈钢粗钢产量同比增长8.22%至1758.68万吨
2023-08-03
兴义首个百姓室外智慧健身房获市民点赞
挖潜家居消费市场 这家渝企补贴3000万元普及智能锁“走家入户”
防爆风机应用于建筑领域
蔚来小鹏花期已至,理想极氪再创新高,7 月新能源车市成绩单出炉
欧美数据连传坏消息!黄金短线急升逼近1940 轻松行情已结束?
西安高新区经济增速亮眼
电讯报:尽管拉亚更有可能转会阿森纳 但拜仁仍在努力说服他加盟
鳌拜为什么动不了索尼 鳌拜
上半年不锈钢粗钢产量同比增长8.22%至1758.68万吨
新劲刚:截至2023年7月31日,公司股东人数为19,270户
中国选手夏雨雨、马秀针晋级成都大运会女子5000米决赛
呼声与回应:新铺镇通组道路多年未硬化,8月下旬将平整
“小英雄”探班“红门”,零距离感受消防魅力
欧元区6月工业生产者出厂价格指数环比下降0.4%
比亚迪7月销量解读:宋家族、汉家族、海鸥大涨
老公外遇离婚财产怎么分配 ?
荣盛发展8月3日涨停 最新市值132.18亿
俄媒:俄罗斯政府将挪威列入不友好国家名单
国家医保局:上半年基本医疗保险基金总收入16349.02亿元
预计8月陕西大部气温偏高!
基金选A类还是C类好?
让iPhone匹敌量子计算机,超火的“室温超导体”是个啥?
丫丫干饭名场面 回家之后的丫丫漂亮看很多
期货公司观点汇总一张图:8月3日农产品(棉花、豆粕、白糖、玉米、鸡蛋、生猪等)
欢迎来避暑!北新泾街道开放18处纳凉点
新二代便携式Move音箱来了:24小时续航 支持Wi-Fi 6
CXO概念开盘拉升,睿智医药涨超14%
国泰集团(603977):8月2日北向资金增持36.14万股
用友荣获信通院“铸基计划”iPaaS系列标准突出贡献单位
- 自媒体造谣抖音电商退货率 90% 被起诉,法院:已正式立案
- 中央气象台8月3日6时继续发布强对流天气黄色预警
- 山东省青岛市城阳区 三点聚力推动护航行动换档升级
- 藏污纳垢!海南一养生馆涉黄被查!多名男女被抓 | 海上夜闻·视听汇
- 宜春:交警“摆摊”进夜市,安全融入“烟火气”
- 江岸区2023年老旧小区改造项目启动招标!
- 先惠技术(688155.SH):4342.04万股限售股8月11日解禁
- 英联股份(002846)2023年中报点评:扭亏为盈 静待复合集流体放量
- 《芭比》冒犯了日本人?日本美国网友开始互揭伤疤……
- “海岛绿电”项目落地大管岛,集成风电、光电、柴电等多种新能源接入
- 北京大兴国际机场停机坪积水事件引发旅客关注飞机轮胎受淹一部分
- 今天才知道原来长城有十三关,那是哪十三关呢?平时只知道有山海关,
- 暑期警惕干眼症“盯上”孩子
- 蔷薇水(关于蔷薇水简述)
- 8月2日惠发食品涨停分析:社区团购,预制菜,食品概念热股
- 大体积混凝土养护测温几天(大体积混泥土养护测温记录需要多少天)
- 一年内三次遭刑事起诉,特朗普再次入主白宫还有望吗?
- 自制五香萝卜干的做法(五香萝卜干的做法大全)
- 两部门:延续执行农户、小微企业和个体工商户融资担保增值税政策至2027年12月31日
- 又爆了 多家A股发声!北京:140年来最大!一顶奢酒店被冲垮?回应来了
- 宠儿无度剧场版——祭天神(二)
- 2023年8月2日鸡蛋价格小幅上涨
- 永定河洪水水头入津
- 【世界说】洛杉矶有色人种“不成比例”地被捕?美媒:种族再一次成为美国分裂的战场
- 海南三亚凤凰机场:智能检疫便捷通关
- 一晋煤外运铁路被洪水冲塌
- 原国家房改课题组组长孟晓苏:“认房又认贷”抑制了老百姓改善生活的权利,希望推动一次“新房改”,让年轻人也能买得起房
- 2023年“奔跑吧·少年”全国软式棒垒球锦标赛暨夏令营活动第三阶段落下帷幕
- 浪潮信息的乱局 ChatGPT能解否?
- 中国第一家破万!瑞幸咖啡门店突破10000家 Q2净收入62个亿
- 网址1921680102(1921680102登陆官网)
- 华硕K46怎么样 华硕k46参数
- 倪新威是不是骗子(倪新威)
- 孔祥宇(关于孔祥宇简述)
- 汽车被洪水冲走,保险赔不赔?
- 国联证券控股子公司中融基金更名为国联基金
- 领跑梦想 老表上场 江西“村BA”揭幕开赛
- 红糖姜茶枸杞桂圆红枣怎么煮
- 特斯拉寻求1亿美元在美建设9个大型半挂卡车充电站
- 八月开场:无高温!无强降水!
- “军工月”启动?国防军工ETF(512810)8月首日逆市涨0.41%!“牛市旗手”冲高回落,结束还是休整?
- 三峡旅游:非常认同您的观点,旅游产品的核心竞争力和服务品质是旅游企业可持续发展的源泉和动力
- 7月全国期货市场成交规模稳步增长
- 成都大运会女子1米跳板决赛,中国选手陈佳,王壹包揽金银牌!
- 业绩超预期,2023Q2剔除新冠主业恢复显著
- 黄金时间:金价上涨动力增大了吗?
- 北京此轮强降雨已致11人遇难 其中2人在抢险救灾中因公殉职
- 6267万元!常德拟获中央预算内投资,涉及4个区县(市)
- 虹口公租房开展高温防暑慰问
- 小米充电宝怎样才算充满电
