Hugging Face Courseの紹介と日本語翻訳について

Hugging Face
この記事は約5分で読めます。

皆さん、Hugging Face CourseというHugging Face社が無料公開している講座が存在することをご存知でしょうか?私は、kaggleのコンペに参加した際に、DiscussionでNLPコンペを始めた人におすすめの教材として紹介されていたのをきっかけに知りました。内容はかなり充実しており、これからHugging Faceのライブラリを活用していきたいという方にお勧めできると思います。(まだ全ての内容を読んだわけではないですが、目次を見た感じ良さそうです。)

今回の記事では、Courseでどのような内容が学べるのかをざっくり紹介するとともに、現在進行形で取り組んでいる日本語翻訳プロジェクトについても紹介しています。

Hugging Face Courseとは?

Hugging Face Course

Introduction - Hugging Face Course
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

GitHub

GitHub - huggingface/course: The Hugging Face course
The Hugging Face course. Contribute to huggingface/course development by creating an account on GitHub.

現時点(2022/6)では、第1章から第9章までが公開されていて、以下の3つの内容に分けることができます。

https://huggingface.co/course/en/chapter1/1 より
  • 第1章から第4章では、主にtransformersに関する内容を学ぶことができます。ライブラリの使い方だけでなく、transformerモデルの仕組みやfine-tuningの方法、Hugging Face Hubを使って結果を共有する方法なども扱っています。
  • 第5章から第8章では、datasetsとtokenizersを扱い、それから翻訳や要約、質問応答などのNLPタスクをどのように解くのか学ぶことができます。特に第7章は、具体的な応用タスクを扱っているので、kaggleや実務で参考になると思います。また、第8章では、どのように助けを求めればいいか という内容で良いissueの書き方などが紹介されているのが面白いと思いました。
  • 第9章から第12章では、NLP以外の分野を扱ったり、デモを作ったりと発展的な内容を学ぶことができます。この部分はコンテンツ作成途中で、つい最近、第9章が公開され、Gradioを使ってどのようにデモを作成するのかを学ぶことができます。

どのように活用するのが良さそうか?

どのような内容を扱っているのかについて紹介したところで、どのように活用するのが良いかという観点について、参考までに個人的な意見を述べたいと思います。

Hugging Faceでできることを網羅的に知りたい

transformers, datasets, tokenizers, Hub, Gradioについて、公式から提供されている信憑性が高い情報・活用方法をあれこれ調べなくとも、このサイトだけで取得できるというのは大きなメリットだと思います。

transformersだと、pipelineやtrainerといった便利な機能の使い方が紹介されていたり、tokenizersだったら、fast tokenizerに関する話やWordPiece, Unigram tokenizationについての説明など、読んでいてこういうこともできるんだと学びを得ることがあると思います。

NLPコンペに取り組む足掛かりとして

私がCourseを知ったきっかけでもありますが、やはり最近のNLPコンペに取り組む際にはtransformersを有効活用する必要があるため、具体的な使い方を学べるという点で、NLPコンペ始めたいという人にお勧めできると思います。この場合は、全部の章を見る必要はなくて、第1~3章とコンペの内容に合わせて第7章を見る感じになるかと思います。もっと詳しく知りたいとなったら、transformersのドキュメントを読んだり、Discussionで共有されている資料を読むなどでコンペは戦えると思います。

日本語翻訳プロジェクトについて

最後に、私が取り組んでいる日本語翻訳プロジェクトについて紹介させてください。Hugging Face Courseのオリジナルは英語で作成されているのですが、それを他の言語に翻訳することで、より多くの人に読んでもらおうという取り組みが進められています。その一環として、日本語に翻訳するプロジェクトを私が主体となって推進しています。

プロジェクトの進行状況はこちらで確認することができます。(まだ、Chapter1の1までしかコンテンツがありません。頑張ります・・・)

イントロダクション - Hugging Face Course
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Translate to Japanese · Issue #114 · huggingface/course
Hi there 👋 Let's translate the course to YOUR-LANG so that the whole community can benefit from this resource 🌎! Below are the chapters and files that need ...

ありがたいことに、多くの方から協力の申し出を受けることができ、現在は全ての章の分担が決まっています。とはいえ、もし取り組んでみたいという熱意がある方がいらっしゃいましたら、ぜひisssuや当ブログなどでコメント頂ければと思います。(今後も章が追加される・現在担当されている方のご都合が悪くなった などあると思うので)

取り組む際には、CourseのREADMEを参照しつつ、このPRと同じような形で進めていただければと思います。

Translate to Japanese Chapter1/1 by hiromu166 · Pull Request #144 · huggingface/course
In this PR, I translate chapter1/1.mdx.

おわりに

今回は、Hugging Face Courseと日本語翻訳の取り組みについてご紹介させていただきました。まだまだHugging Faceに関する日本語の情報は少ないと思っているので、どんどん増やしていけるよう、今後も記事の執筆や翻訳に取り組んでいこうと考えています。

最後まで、ご覧いただきありがとうございました。

コメント

タイトルとURLをコピーしました