生成式人工智能数据过载,小目标或为出路
“没有数据就不存在人工智能,没有非结构化数据也不存在人工智能,没有大规模的非结构化数据更是不存在人工智能,”数据管理公司 DataStax 的董事长兼首席执行官 Chet Kapoor 说道。
Kapoor 在 TechCrunch Disrupt 2024 活动中开启了一场有关现代人工智能应用背景下“新数据管道”的对话,风险投资公司 NEA 的合伙人 Vanessa Larco和数据集成平台 Fivetran 的首席执行官George Fraser也参与其中。虽然这次聊天涵盖了多个方面,比如数据质量的重要性以及实时数据在生成式人工智能中的作用,但其中一个重要收获在于,在人工智能仍处于早期阶段时,优先考虑产品与市场的契合度而非规模很重要。对于想要投身于生成式人工智能这一令人眼花缭乱世界的公司,给出的建议很直接——一开始不要过于雄心勃勃,要专注于实际的、渐进的进展。原因?我们实际上仍在摸索。
“对于生成式人工智能,最重要的是一切都取决于人,”Kapoor 说。“那些实际去开展并完成最初几个项目的特别行动小组——他们并非在阅读手册,而是正在编写如何制作生成式人工智能应用程序的手册。”
虽然数据和人工智能确实是相辅相成的,但一家公司可能拥有的海量数据很容易使人应接不暇,其中一些数据可能是敏感的,受到严格保护,甚至可能存储在无数个地方。拉科与 B2C 和 B2B 领域的众多初创公司合作(并在其董事会任职),他提出了一种简单却实用的方法,在早期阶段挖掘真正的价值。
“为你试图完成的事逆向思考——你试图解决什么问题,你需要什么样的数据?”拉科说。“找到那些数据,无论它在哪里,然后将其用于此目的。”
这与从一开始就试图在整个公司大肆推广生成式人工智能的做法形成鲜明对比,把所有数据一股脑儿扔给大型语言模型(LLM)并指望最终能得出正确结果。据拉尔科所言,那样很可能会造成不准确且代价高昂的混乱局面。“从小处着手,”她说。“我们所看到的是,公司从小处入手,先从内部应用程序做起,有着非常明确的目标,然后去找到与他们想要达成的目标相匹配的数据。”
弗雷泽在 12 年前创立了“数据移动”平台 Fivetran,在这个过程中积累了诸如 OpenAI 和 Salesforce 等大牌客户。他建议公司应重点关注他们当前面临的实际问题。
“只解决你今天面临的问题;这就是准则,”弗雷泽说。
创新的成本 99%总是出在你所构建但未成功的那些方面,而非在那些成功的、你希望自己能提前为规模做好规划的方面。
尽管这些是我们事后总会思考的问题,但这并非你所承担成本的 99%。
就像网络发展的早期以及最近的智能手机革命,生成式人工智能的早期应用和用例已让人瞥见一个强大的、由人工智能驱动的新未来。
但到目前为止,它们不一定是具有颠覆性的。
“我将此称为生成式人工智能的‘愤怒的小鸟’时代,”卡普尔说道。“它还没完全改变我的生活,还没人给我洗衣服呢。”
今年,我合作的每一家企业都在把一些东西投入生产——规模小,内部使用,但确实在投入生产,因为他们实际上正在解决难题,研究如何组建团队来实现这一目标。
明年就是我所说的转型之年,到时候人们会开始开发实际上能改变他们所在公司发展轨迹的应用程序。