產業追蹤/合成資料 推進人工智慧

人工智慧快速发展,高品质训练数据被视为推动技术进步的关键。但要获得这些数据,从技术、成本到法律与道德层面都存在诸多限制。在此背景下,合成资料(Synthetic Data)透过算法创造的虚拟数据,提供一条新的解决途径。根据Gartner(2022年)预测,到2024年,将有60%的用于AI和数据分析的数据将是合成资料。

合成资料是通过深度学习技术如生成对抗网络(GANs)或变分自编码器(VAEs)模拟生成。这些数据在统计特性上与真实世界数据相似,但不涉及真实个人或事件的具体信息,避免与真实数据收集相关的隐私和法律问题。想像一下,有一个虚拟工厂能生产看起来、闻起来、感觉像真实事物的复制品,但这些都是通过电脑程式创造出来。这正是合成资料的魅力,可以随意设计和生成数据,为各种应用提供丰富而多样的数据集,从而促进AI技术的发展。

合成资料的优势包括隐私保护、成本效益和多样性。例如能在不泄露任何个人信息下提供数据资源,避免隐私侵权的法律风险;真实数据的收集和标注非常昂贵,合成资料的生成成本较低,且可无限制生成数据;合成资料能涵盖现实数据中难以收集的边缘案例,提高模型的泛化能力和公平性。

例如OpenAI和Stability AI积极应用合成资料。OpenAI在其语言模型GPT系列广泛应用合成资料,透过生成对抗网络生成的合成文本数据训练模型,提高语言理解和生成的精确性,同时降低成本和时间。Stability AI专注于视觉AI领域,利用先进的图像生成技术,创建高质量的合成图像训练图像识别模型,有效模拟现实世界中的场景和物体。这使模型能在不接触实际数据的情况下,学习到正确的图像识别和分类方法。

合成资料的应用已扩展到多个产业,并推动创新和效率提升。一、零售产业:Target使用合成资料来模拟和预测不同顾客行为,改善产品布局和市场策略。透过生成对抗网络(GANs),Target能够创建多种购物情境,分析不同产品摆放和促销活动对购买行为的影响。此外,这些数据还被用来训练机器学习模型预测季节性销售趋势和客户偏好,从而优化库存管理和定价策略。

二、金融产业:Citibank利用合成资料进行压力测试和风险评估,以模拟不同经济情境下的市场反应。合成资料允许该银行在不涉及真实客户数据的情况下,测试其金融模型对于市场崩溃、利率变动和其他经济变数的敏感度。这些模拟帮助银行优化其风险管理策略,提高应对突发经济事件的能力。

三、健康产业:Johns Hopkins Hospital使用合成资料生成各类医疗影像,以训练和提升AI诊断系统的精确度。合成资料包括但不限于X光、MRI和CT扫描,这些影像数据被用于模拟罕见疾病的病例,增强医生对这些病例的识别和诊断能力。此外,合成资料还用于训练模型辨识早期疾病征兆,对于提高疾病的早期发现率极具价值。

四、制造产业:Tesla使用合成资料来训练其自动驾驶系统。合成资料生成软体能够创造各种道路情境、天气条件以及意外状况,这些数据用于测试和改善车辆的反应和决策过程。这种做法不仅减少了在真实环境中的测试需求,还大大提高了数据收集的安全性和效率。

五、娱乐产业:Netflix使用合成资料来改善其推荐引擎。透过模拟不同用户的观看习惯和偏好,生成合成用户数据,能更精确预测哪些内容最可能吸引特定用户群。不仅提高用户满意度,还增强个性化服务的质量。

AI技术持续进步,合成资料的应用将愈来愈广泛,这不仅能增强模型训练,也为数据驱动的创新提供无限机会。这些应用案例显示合成资料在未来科技创新中扮演关键作用,为遵循道德和法律规范提供可行解决方案。透过这些技术的进步和应用范围扩展,合成资料将在未来的数据策略中占重要的地位。(作者是商研院人工智慧综合服务中心主任)

商研院

财团法人商业发展研究院于2007年12月成立,致力于服务业环境、行销与消费、经营模式、人才发展、国际化

与科技应用相关研究,擘划服务产业政策,为国内唯一提供服务业全面解决方案之资源整合平台。