全国协议5人面授小班,企业级独立开发考核,转业者的IT软件工程师基地 登录/注册 | 如何报名

免费领取试听课程

并获得专业顾问一对一进行选课辅导

课程名称不能为空
姓名不能为空
手机号码不能为空

领取成功

GitHub历史上增长速度最快的AI项目:Hugging Face

行业新闻 汉码未来 | HuggingFace GitHub AI

2022-05-17 09:56:55

HuggingFace宣布C轮融资筹集1亿美元,由LuxCapital牵头,红杉资本、Coatue、Betaworke、NBA球星Kevindurant参与投资,目前估值20亿美元。因此,HuggingFace进一步在业内引起强烈反响。

GitHub历史上增长速度最快的AI项目:Hugging Face

2016年,法国连续创业者Clémentdelangue(曾经创建笔记平台Videonot.es、媒体监控平台、Google收购的移动开发平台Moodstocks等项目)和JulienChaumond,Thomaswolf共同创办了Hugggingface,并从Betaworks和NBA球星杜兰特获得天使融资。他们最初的方向是做对话机器人,但是和当时很多做类似方向的创业公司一样,一直没有起色。

直到2019年,为了培养聊天机器人的NLP能力,他们在GitHub开源了一个transformers库。令人惊讶的是,它在机器学习社区迅速流行起来,成为GitHub历史上增长最快的机器学习库。运气好,有时候就是这么邪恶。

不仅仅是NLP库,HuggingFace也逐渐成为机器学习领域的ModelHub中心。如今,HuggingFace共享了10000多个预训练模型,10000个数据集,涵盖了NLP、计算机视觉、语音、时间序列、生物学、强化学习等领域,帮助科学家和相关从业者更好地构建模型,并将其用于产品或工作流程。如今,他们发起的BigScience项目吸引了1000多名研究人员共同训练超大型模型。

作为一家商业公司,HuggingingFace也从去年的30人扩大到120多人,其中有10000多家公司在使用他们的产品和服务,包括1000多名付费用户。

Clent认为,这些成就的主要原因是HuggingFace弥补了科学和生产之间的差距。通过搭建一个平台,赋予开源世界和科学世界权力,产生的价值比通过搭建专有工具产生的价值高出数千倍,而许多开源软件和公司却没有这样做。从某种程度上来说,HuggingFace正在构建机器学习领域的GitHub,其成为社区开发者驱动的平台。

2021年6月,在机器学习播客《Gradientdisssent》中,Lukasbiewald和HuggingfaceCEO兼联合创始人Clementdelangue聊天关于Hugggingfanformers库兴起的故事,揭示了Huggingface快速增长的原因,后者也分享了他对NLP技术发展的看法。

Transformers库的起源。

Lukas:2019年,是什么激励你构建这样的Transformers开源库?

真实的情况是,我没有想太多。当时,我们使用开源库已经有一段时间了。在这个领域,我们总觉得自己站在巨人的肩膀上,向前迈进。许多人在从事科学研究时已经习惯了这种方式。例如,当你发表一项关于机器学习的研究时,你可能更喜欢以开源的形式发表,而不是论文。因此,我们将在开源图书馆分享开来的第一天。

至于transformers,它从我们发布的tensorflow版本的bert开始。但是,联合创始人兼首席科学家thomas表示,我们还需要发布pytorch版本的bert。因此,很快,我们又开源了pytorch版本的bert。事实上,仓库的名字一开始就是pytorchbert。

渐渐地,越来越多的人使用它。几周后,我们发布了一个新模型,可能是GPT的第一个版本,但它也是Tensorflow版本,所以我们认为最好添加它,因为这两个模型有不同的功能和不同的领域。这样,人们可以更好地尝试两种模型。

后来,我们开始思考如何让人们更容易地使用它们,并像现在一样有机地发展。一些研究人员会问,如果你想发布一个新的模型,你能在transformers库中发布吗?当然,我们非常欢迎。渐渐地,这个图书馆像雪球一样滚得越来越大,让我们成为现在的我们。

Lukas:就像你说的,人们可以在这个平台上使用别人的模型和发布模型?

对,对。我们t:是的。我们使用混合方法来构建技术,它具有用户需要开源的可扩展性和用户界面的实用性。我们支持的范围很广。你可以在开源代码中做所有你想做的事情,而无需申请。你甚至不需要去HuggingFace官网。你可以直接在Python中安装transformers。

如果你想实现更多的功能,你可以在我们的平台上找到合适的模型。更好的是,如果你是软件工程师,NLP新手或机器学习新手,你可以使用我们的训练和推理API来训练和运行模型,我们将领导这个过程,这样你就可以轻松地启动SOTA模型。

Lukas:为什么为什么要发布一些Pytorch版本的模型?你更喜欢Pytorch吗?

因为用户群不同。我们一直热衷于向更多的人推广难以理解和利基的东西。因此,我们认为,只有向更多的人推广少数人掌握的技术,才能真正发挥最大的技术作用,这也是我们的主要目标。

现在有人使用Tensorflow,也有人使用Pytorch我们来说,Pytorch是一个很好的平台,我们希望它得到更广泛的应用。

慢慢地,有时人们开始称我们为“pytorch-transformers库”,认为这对使用其他框架的用户来说太不公平了。因此,我们将transformers扩展到tensorflow,并删除“pytorch-transformers”名称中的pytorch,使其能够同时在两个平台上使用。

如果你使用过我们集成pytorch和tensorflow的版本,你会发现当前的功能比以前在两个平台上更全面。事实上,你可以利用它的优势,在同一类型的机器学习工作平台上完成你的任务。

例如,当你想做架构工作时,Pytorch是一个不错的选择,当你想做一些部署服务时,你可以选择Tensorflow,因为它集成了许多工具,这些工具在行业中经常使用。在同一工作流程中,可以先在Pytorch中建模,然后在Tensorflow中使用,充分利用不同平台的优势,避免其不足。


以上就是汉码未来给大家分享的文章,希望对小伙伴们有所帮助,想要了解更多GitHub历史上增长速度最快的AI项目:Hugging Face相关内容的小伙伴可以登录汉码未来官网咨询,主打5人小班,全程面授,主打Java开发,web前端开发等课程,有专业的授课老师为你答疑解惑。

    

分享到:



【免责声明】由于政策等各方面情况的不断调整与变化,本网站所提供的信息仅供参考,请以权威部门公布的正式信息为准。本网站在文章内容来源出处标注为其他平台的稿件均为转载稿,免费转载出于非商业性学习目的,版权归原作者所有。如您对内容、版权等问题存在异议请与本站联系,我们会及时进行处理解决。 删除,请联系客服。
相关推荐
为什么选择汉码未来