GitHub历史上增长速度最快的AI项目：Hugging Face

2022-05-17 09:56:55

HuggingFace宣布C轮融资筹集1亿美元，由LuxCapital牵头，红杉资本、Coatue、Betaworke、NBA球星Kevindurant参与投资，目前估值20亿美元。因此，HuggingFace进一步在业内引起强烈反响。

GitHub历史上增长速度最快的AI项目：Hugging Face

2016年，法国连续创业者Clémentdelangue(曾经创建笔记平台Videonot.es、媒体监控平台、Google收购的移动开发平台Moodstocks等项目)和JulienChaumond，Thomaswolf共同创办了Hugggingface，并从Betaworks和NBA球星杜兰特获得天使融资。他们最初的方向是做对话机器人，但是和当时很多做类似方向的创业公司一样，一直没有起色。

直到2019年，为了培养聊天机器人的NLP能力，他们在GitHub开源了一个transformers库。令人惊讶的是，它在机器学习社区迅速流行起来，成为GitHub历史上增长最快的机器学习库。运气好，有时候就是这么邪恶。

不仅仅是NLP库，HuggingFace也逐渐成为机器学习领域的ModelHub中心。如今，HuggingFace共享了10000多个预训练模型，10000个数据集，涵盖了NLP、计算机视觉、语音、时间序列、生物学、强化学习等领域，帮助科学家和相关从业者更好地构建模型，并将其用于产品或工作流程。如今，他们发起的BigScience项目吸引了1000多名研究人员共同训练超大型模型。

作为一家商业公司，HuggingingFace也从去年的30人扩大到120多人，其中有10000多家公司在使用他们的产品和服务，包括1000多名付费用户。

Clent认为，这些成就的主要原因是HuggingFace弥补了科学和生产之间的差距。通过搭建一个平台，赋予开源世界和科学世界权力，产生的价值比通过搭建专有工具产生的价值高出数千倍，而许多开源软件和公司却没有这样做。从某种程度上来说，HuggingFace正在构建机器学习领域的GitHub，其成为社区开发者驱动的平台。

2021年6月，在机器学习播客《Gradientdisssent》中，Lukasbiewald和HuggingfaceCEO兼联合创始人Clementdelangue聊天关于Hugggingfanformers库兴起的故事，揭示了Huggingface快速增长的原因，后者也分享了他对NLP技术发展的看法。

Transformers库的起源。

Lukas：2019年，是什么激励你构建这样的Transformers开源库？

真实的情况是，我没有想太多。当时，我们使用开源库已经有一段时间了。在这个领域，我们总觉得自己站在巨人的肩膀上，向前迈进。许多人在从事科学研究时已经习惯了这种方式。例如，当你发表一项关于机器学习的研究时，你可能更喜欢以开源的形式发表，而不是论文。因此，我们将在开源图书馆分享开来的第一天。

至于transformers，它从我们发布的tensorflow版本的bert开始。但是，联合创始人兼首席科学家thomas表示，我们还需要发布pytorch版本的bert。因此，很快，我们又开源了pytorch版本的bert。事实上，仓库的名字一开始就是pytorchbert。

渐渐地，越来越多的人使用它。几周后，我们发布了一个新模型，可能是GPT的第一个版本，但它也是Tensorflow版本，所以我们认为最好添加它，因为这两个模型有不同的功能和不同的领域。这样，人们可以更好地尝试两种模型。

后来，我们开始思考如何让人们更容易地使用它们，并像现在一样有机地发展。一些研究人员会问，如果你想发布一个新的模型，你能在transformers库中发布吗？当然，我们非常欢迎。渐渐地，这个图书馆像雪球一样滚得越来越大，让我们成为现在的我们。

Lukas：就像你说的，人们可以在这个平台上使用别人的模型和发布模型？

对，对。我们t:是的。我们使用混合方法来构建技术，它具有用户需要开源的可扩展性和用户界面的实用性。我们支持的范围很广。你可以在开源代码中做所有你想做的事情，而无需申请。你甚至不需要去HuggingFace官网。你可以直接在Python中安装transformers。

如果你想实现更多的功能，你可以在我们的平台上找到合适的模型。更好的是，如果你是软件工程师，NLP新手或机器学习新手，你可以使用我们的训练和推理API来训练和运行模型，我们将领导这个过程，这样你就可以轻松地启动SOTA模型。

Lukas：为什么为什么要发布一些Pytorch版本的模型？你更喜欢Pytorch吗？

因为用户群不同。我们一直热衷于向更多的人推广难以理解和利基的东西。因此，我们认为，只有向更多的人推广少数人掌握的技术，才能真正发挥最大的技术作用，这也是我们的主要目标。

现在有人使用Tensorflow，也有人使用Pytorch我们来说，Pytorch是一个很好的平台，我们希望它得到更广泛的应用。

慢慢地，有时人们开始称我们为“pytorch-transformers库”，认为这对使用其他框架的用户来说太不公平了。因此，我们将transformers扩展到tensorflow，并删除“pytorch-transformers”名称中的pytorch，使其能够同时在两个平台上使用。

如果你使用过我们集成pytorch和tensorflow的版本，你会发现当前的功能比以前在两个平台上更全面。事实上，你可以利用它的优势，在同一类型的机器学习工作平台上完成你的任务。

例如，当你想做架构工作时，Pytorch是一个不错的选择，当你想做一些部署服务时，你可以选择Tensorflow，因为它集成了许多工具，这些工具在行业中经常使用。在同一工作流程中，可以先在Pytorch中建模，然后在Tensorflow中使用，充分利用不同平台的优势，避免其不足。

以上就是汉码未来给大家分享的文章，希望对小伙伴们有所帮助，想要了解更多GitHub历史上增长速度最快的AI项目：Hugging Face相关内容的小伙伴可以登录汉码未来官网咨询，主打5人小班，全程面授，主打Java开发，web前端开发等课程，有专业的授课老师为你答疑解惑。

分享到：

上一篇: iPhone 15接口可能使用USB-C...

下一篇: AI可能在艺术上超越人类？...

汉码未来

GitHub历史上增长速度最快的AI项目：Hugging Face

GitHub历史上增长速度最快的AI项目：Hugging Face

为什么选择汉码未来

线下面授

五人小班

技术强大

内推就业