読者です 読者をやめる 読者になる 読者になる

Kesin's diary

プログラミングの記事がメインです

大学の研究で役に立ったもの(勉強編)

自然言語処理 機械学習

大学の研究に役に立ったものシリーズ第2弾です。
今回は、研究に関係する技術の勉強に役に立ったものを紹介したいと思います。

ちなみに、自分の研究は情報系で、研究室のテーマは自然言語処理、音声言語処理、機械学習関係でした。
あくまで自分には役に立った、ということで情報系以外の分野の人には当てはまらないことも多いと思います。
(特に今回は自分の研究分野に特化した記事になってしまっています。すいません)

武蔵野日記

大学で自然言語処理の研究をされている小町さんのブログで、ほぼ毎日分の更新があります。すごい。
自然言語処理についての話題も勉強になりましたが、それよりも大学の運営や研究者の生活について色々知ることができました。大学に通っていても大学の運営や、研究室のボスが普段何をしているのかについては意外と知る機会がないもので、小町さんのブログを通して自分のボスがどういう生活をされているのか想像できるようになりました。
論文を書くのが遅かったり、生意気なことを言ったりとボスには色々ご迷惑をおかけしました・・・

SNS

情報系の研究に関わっている人は、はてなブックマークとかTwitterをされている方が多いみたいで、はてなブックマーク機械学習自然言語処理あたりのタグをウォッチしたり、Twitterでその界隈の人をフォローすることで、色々な勉強会の解説スライドや解説ブログがどんどん流れてきます。 最近だと勉強会の発表をUstreamでライブ放送してたりすることもあるようです。
勉強会のスライドなどは、論文で見かける技術がどのように実際のアプリケーションに活用されているか、というアカデミックな論文の内容とはまた違った発表も多いので面白かったです。

Machine Learning Advent Calendar

2012年, 2013年
12月の1日から25日まで機械学習についてのエントリをみんなで書いていこうというイベントです。 色々な方が毎日違った手法について紹介していたので、自分の専門外で知らないことばかりでしたが、入門として分かりやすく書いている方も多くて勉強になりました。

PFIのスライド

機械学習自然言語処理スペシャリスト集団の方たちによって社内社外で発表されたスライドがslideshareにアップされています。
ガチで難しいスライドも多いですが、Deep Learningみたいな最先端の技術を分かりやすく紹介してくれているスライドもあります。

英語版Wikipedia

日本のWikipediaは特定の分野だけに限って半端ない情報量であるのに対して学術的な内容はペラペラですが、英語版は論文に出てくるような専門用語でもページが結構見つかります。基本的に頼りすることはほとんどなかったのですが、論文を読んでいて分からない単語を日本語で調べてもピンとこなかったときに何度か役に立ちました。

書籍

自分の研究分野限定で申し訳ないですが、一番のオススメはこの書籍です。

言語処理のための機械学習入門 (自然言語処理シリーズ)

言語処理のための機械学習入門 (自然言語処理シリーズ)

自然言語処理の界隈だと分かりやすいと評判の本で、研究室内の勉強会で教科書としていました。最新の手法というよりは、今の論文を読み解くのに必要な要素技術を丁寧に解説してある本で、確率や確率分野、KLダイバージェンスなどの情報理論といった基礎的な導入から、クラスタリングや文書分類などの基本を数式と例題で丁寧に解説されています。
最後の章で、実験のやり方や、精度/適合率/F値、検定といった論文の実験結果を読み解くのに必要な知識の解説もされているので、論文を読むようになった最初の頃は大変お世話になりました。
自然言語処理に関しては、本格的に論文を読む前にこの本を読んでおくと確実に役に立つと思います。

論文

やはり一番勉強になったのは、最新の英語論文を読むことで、自分の研究室ではACL, Interspeechの論文を輪講で読んでいました。他の人に分かるように説明することが求められるので、自分が担当した論文は流し読みなんかじゃなくて、人に説明できるぐらいに理解するまで何度も何度も繰り返し読みました。特に、数式中のどの変数が増加・減少したときに出力がどう変化するのか、どのようなケースの時に最小、最大となるのか、ということを理解することが大事であると学びました。

それにしても、ACLやInterspeechの論文ではGoogleMicrosoftの名前をよく見かけました。どおりで検索・翻訳・音声認識あたりのサービスが素晴らしいわけです。あと、論文を通してアメリカがアラビア語の翻訳に力を入れてるみたいな動向が何となく見えるのが面白かったです。アラビア語の翻訳例とか出されてもサッパリ分からないので*1、論文の中身は面白くなかったですが。

一般的に、論文は査読付きの英語論文を読め!と多くの人が言っていて、勉強のために読むならそれは間違いないと思います。けど、日本語の査読無しの論文も色々な研究があるので、見ていると結構面白い研究もあります。ゆるふわな感じの論文もありますが、面白い着眼点のアイディアで、これが動くサービスやアプリがあれば使ってみたいなーと思う研究もあったりしました。

アカデミックの論文が読み放題なのは大学の特権なので、俺は学生のうちにバリバリWebサービス作るぜ!という方も、人工知能学会、情報処理学会言語処理学会などの講演タイトルを一度眺めてみてはどうでしょうか?

*1:中国語みたいな漢字なら何となく雰囲気が分かるのですが