Basecamp Research 豪掷 6000 万打造生物学版 GPT
虽然 OpenAI 和 Anthropic 这类公司持续推广通过日常语言向人工智能代理提问、撰写提案或者画图的这种想法,但一家名为Basecamp Research的伦敦初创企业已筹得 6000 万美元,用于开拓一个新领域:一种人工智能,其不仅能够回答任何与生物学和自然界生物多样性有关的问题,还能够产生人类自身难以实现的新见解。
“在当下,人们在训练[生物学]模型方面存在着巨大的数据差距,”Basecamp Research 的首席执行官格伦·高尔(Glen Gower)在一次采访中说。“世界上一些顶尖的制药公司正在训练的模型根本没有充分知晓自然界。”
这家初创公司针对这个问题的解决方案可谓雄心勃勃。
高尔和他的联合创始人奥利弗·文斯(Oliver Vince)均为生物学博士,他俩在牛津大学读本科时就相识了。
文斯表示,“Basecamp Research”这个名字源于他们在冰盖上生活的那段时光,当时他们在自己制造的硬件上做 DNA 测序。
“我们开创了首个移动 DNA 测序实验室,”他说。他补充道,那些组件他们现在已改造成了“非常小的单元”,以便为新的初创企业收集数据。
因此,Basecamp Research 并非试图去弄清楚怎样给几十年来产生的众多兆字节的信息和大量的生物学研究成果带来秩序,而是首先精心地直接收集原始数据,从头开始构建其模型,以打造出一个在生物学方面比任何人见解都要好的人工智能,仅仅是因为可以利用的数据的广度。
“我们采用探索的组合方式——实际上就是环游世界去获取数据,了解温泉、火山之类的东西——并将其与一个纯粹专注于训练大型语言模型的人工智能程序相结合,有效地为大自然构建一个‘ChatGPT’,”高尔说。这家初创公司正在构建他所说的可能是同样致力于自然界的“最大的计算集群”来为其提供动力。
正如 ChatGPT 这类工具的超能力在于能够回忆并生成针对所提问题的自然语言回应。Basecamp Research 打算做的事情也是如此。不同之处在于,世界上的信息范围——文斯估计,我们仅设法捕获了有关世界生物多样性的约 1%的信息——这意味着我们人类当下甚至没有能力提出正确的问题。或者,正如支持者、S32 的安迪·康拉德(之前是谷歌旗下 Verily Life Sciences 的首席执行官)所说:Basecamp Research 的平台能够“解决生物制药行业甚至还不知道要提出的问题”。
“因此,(我们的平台)不是理解文本或语音语言的东西,而是理解 DNA 的语言,理解生物学的语言,因此能够超越人类在生物设计领域所能做的,”高尔斯接着说道。“我们传统上在理解 DNA 方面非常糟糕,因此,如果给这些语言模型提供足够的数据,它们真的能够表现得非常出色。”
由巴黎公司 Singular领投的 B 轮融资,与 Basecamp Research 所描述的“多年合作”同时到来,合作对象是大卫·R·刘博士和博德研究所,这是一个跨越麻省理工学院和哈佛大学的主要生物医学研究中心。该计划将是使用这笔资金继续建设这家初创公司,既通过与其他生物医学和研究组织的合作,也通过积累更多数据来扩展其模型。
这笔资金是在这家初创公司呈现出一些显著的发展势头之后到位的。高尔(Gower)称,截至目前,它已在 25 个国家达成了 100 多项合作伙伴关系,与各组织合作,利用主要来源信息来扩充其数据库,还有约 15 个组织正在借助其人工智能助力构建新产品。这些产品的早期例子是宝洁(Procter & Gamble),致力于开发更具可持续性的新织物染料配方。
然而,除此之外,Basecamp Research 的规划包含了协助组织开展药物发现以及其他涉及理解和更好利用自然世界的重大难题。
虽然存在相关的商业交易,但它与博德研究所(Broad Institute)的合作揭示了可能的形式。当下,刘博士所领导的实验室正在对用于制造基因药物的“新型融合蛋白和其他大分子”进行研究,并且他们正在使用 Basecamp Research 的数据集来开发这些。
看起来不太可能的是,这家初创公司会有一个真正的“ChatGPT”式的界面。戈尔斯称,目前他们看到更多的是在 B2B 基础上工作的机会,而不是把资源投入到构建面向大众的产品中。他补充说,这并不是说以后不会出现在其路线图上。
(这似乎也是其他构建大型“科学”模型的公司所采取的方法:Jua,正在构建一个大型物理模型,最初的目标是那些需要更好地洞察天气模式的组织。)