GitHub历史上增长速度最快的AI项目:Hugging Face
行业新闻 汉码未来 | HuggingFace GitHub AI
2022-05-17 09:56:55
HuggingFace宣布C轮融资筹集1亿美元,由LuxCapital牵头,红杉资本、Coatue、Betaworke、NBA球星Kevindurant参与投资,目前估值20亿美元。因此,HuggingFace进一步在业内引起强烈反响。
GitHub历史上增长速度最快的AI项目:Hugging Face
2016年,法国连续创业者Clémentdelangue(曾经创建笔记平台Videonot.es、媒体监控平台、Google收购的移动开发平台Moodstocks等项目)和JulienChaumond,Thomaswolf共同创办了Hugggingface,并从Betaworks和NBA球星杜兰特获得天使融资。他们最初的方向是做对话机器人,但是和当时很多做类似方向的创业公司一样,一直没有起色。
直到2019年,为了培养聊天机器人的NLP能力,他们在GitHub开源了一个transformers库。令人惊讶的是,它在机器学习社区迅速流行起来,成为GitHub历史上增长最快的机器学习库。运气好,有时候就是这么邪恶。
不仅仅是NLP库,HuggingFace也逐渐成为机器学习领域的ModelHub中心。如今,HuggingFace共享了10000多个预训练模型,10000个数据集,涵盖了NLP、计算机视觉、语音、时间序列、生物学、强化学习等领域,帮助科学家和相关从业者更好地构建模型,并将其用于产品或工作流程。如今,他们发起的BigScience项目吸引了1000多名研究人员共同训练超大型模型。
作为一家商业公司,HuggingingFace也从去年的30人扩大到120多人,其中有10000多家公司在使用他们的产品和服务,包括1000多名付费用户。
Clent认为,这些成就的主要原因是HuggingFace弥补了科学和生产之间的差距。通过搭建一个平台,赋予开源世界和科学世界权力,产生的价值比通过搭建专有工具产生的价值高出数千倍,而许多开源软件和公司却没有这样做。从某种程度上来说,HuggingFace正在构建机器学习领域的GitHub,其成为社区开发者驱动的平台。
2021年6月,在机器学习播客《Gradientdisssent》中,Lukasbiewald和HuggingfaceCEO兼联合创始人Clementdelangue聊天关于Hugggingfanformers库兴起的故事,揭示了Huggingface快速增长的原因,后者也分享了他对NLP技术发展的看法。
Transformers库的起源。
Lukas:2019年,是什么激励你构建这样的Transformers开源库?
真实的情况是,我没有想太多。当时,我们使用开源库已经有一段时间了。在这个领域,我们总觉得自己站在巨人的肩膀上,向前迈进。许多人在从事科学研究时已经习惯了这种方式。例如,当你发表一项关于机器学习的研究时,你可能更喜欢以开源的形式发表,而不是论文。因此,我们将在开源图书馆分享开来的第一天。
至于transformers,它从我们发布的tensorflow版本的bert开始。但是,联合创始人兼首席科学家thomas表示,我们还需要发布pytorch版本的bert。因此,很快,我们又开源了pytorch版本的bert。事实上,仓库的名字一开始就是pytorchbert。
渐渐地,越来越多的人使用它。几周后,我们发布了一个新模型,可能是GPT的第一个版本,但它也是Tensorflow版本,所以我们认为最好添加它,因为这两个模型有不同的功能和不同的领域。这样,人们可以更好地尝试两种模型。
后来,我们开始思考如何让人们更容易地使用它们,并像现在一样有机地发展。一些研究人员会问,如果你想发布一个新的模型,你能在transformers库中发布吗?当然,我们非常欢迎。渐渐地,这个图书馆像雪球一样滚得越来越大,让我们成为现在的我们。
Lukas:就像你说的,人们可以在这个平台上使用别人的模型和发布模型?
对,对。我们t:是的。我们使用混合方法来构建技术,它具有用户需要开源的可扩展性和用户界面的实用性。我们支持的范围很广。你可以在开源代码中做所有你想做的事情,而无需申请。你甚至不需要去HuggingFace官网。你可以直接在Python中安装transformers。
如果你想实现更多的功能,你可以在我们的平台上找到合适的模型。更好的是,如果你是软件工程师,NLP新手或机器学习新手,你可以使用我们的训练和推理API来训练和运行模型,我们将领导这个过程,这样你就可以轻松地启动SOTA模型。
Lukas:为什么为什么要发布一些Pytorch版本的模型?你更喜欢Pytorch吗?
因为用户群不同。我们一直热衷于向更多的人推广难以理解和利基的东西。因此,我们认为,只有向更多的人推广少数人掌握的技术,才能真正发挥最大的技术作用,这也是我们的主要目标。
现在有人使用Tensorflow,也有人使用Pytorch我们来说,Pytorch是一个很好的平台,我们希望它得到更广泛的应用。
慢慢地,有时人们开始称我们为“pytorch-transformers库”,认为这对使用其他框架的用户来说太不公平了。因此,我们将transformers扩展到tensorflow,并删除“pytorch-transformers”名称中的pytorch,使其能够同时在两个平台上使用。
如果你使用过我们集成pytorch和tensorflow的版本,你会发现当前的功能比以前在两个平台上更全面。事实上,你可以利用它的优势,在同一类型的机器学习工作平台上完成你的任务。
例如,当你想做架构工作时,Pytorch是一个不错的选择,当你想做一些部署服务时,你可以选择Tensorflow,因为它集成了许多工具,这些工具在行业中经常使用。在同一工作流程中,可以先在Pytorch中建模,然后在Tensorflow中使用,充分利用不同平台的优势,避免其不足。