自然言語処理と深層学習
講義概要
コース名
データサイエンス『実践コース』数理工学PBL
概要
自然言語処理について,基礎事項から深層学習を用いた応用までを講義・実習する.
講師
東北大学 小池 敦
成績評価
資料について
- 講義のPDFファイルとPython Notebook形式の実習ファイルからなる
- 実習教材については,Google Colaboratoryで動作する
- 実習は別途記載されたソースコードを写経して実行する形式になっているが,本ページからリンクされたファイルは基本的にコード記載済みになっている
資料一括ダウンロード
1日目:自然言語処理と深層学習の基礎
- 基本的な文字列処理(トークン化,単語・文書の表現)
- Pythonと自然言語処理の実習(Python速習,Webからのテキスト取得と前処理,日本語に対する自然言語処理)
- 深層学習の基礎(深層学習の仕組みと進展,Kerasの使い方)
2日目:深層学習による自然言語処理
- 分散表現(分散表現の概要,学習方法)
- アテンション(RNN,アテンション,セルフアテンション,Transformer,BERT)
- 大規模言語モデルとHugging Face Transformers
課題1:ワードクラウド作成
青空文庫の作品や他のWebページから取得した文書を使用してワードクラウドを作成してください.
- 提出方法:講師(小池)までメールしてください
- Pythonノートブック(ipynb)形式で作成し,そのファイルを提出してください
- 実習で使用したコードをコピーして使用して良いですが,無関係の部分をコピーしないでください (実習のノートブックに追記せず,新しくファイルを作ってください)
- より良いワードクラウドを作成するために何らかの工夫をしてください
課題2:HuggingFace Transformers
HuggingFace Transformersを使用して,何らかの自然言語処理を行なってください.
- 提出方法:講師(小池)までメールしてください
- Pythonノートブック(ipynb)形式で作成し,そのファイルを提出してください
- 実習で使用したコードをコピーして使用して良いですが,無関係の部分をコピーしないでください (実習のノートブックに追記せず,新しくファイルを作ってください)
- 何らかの工夫を行なってください(異なるモデルを使う,複数のモデルを組み合わせる,ファインチューニングを行う等)