【前編】機械学習工学研究会キックオフシンポジウムの前に読みたい記事や論文や本

機械学習をPoCから実際の本番環境への導入、プロダクトへの適用を考えると従来のITシステムに用いられてきた開発手法やソフトウェア工学的な手法では対応できない課題がたくさんあります。
じゃあそれについてどう対応しようか?を考えるのが機械学習工学だったりSoftware Engineering for Machine Learning(SE4ML)だったり、MLOpsだったりするわけですが、まぁ対象範囲が広いんですよ。ソフトウェア工学が対象としていた範囲全体に機械学習が関わったらだったらどうだろう?考えるわけですから。

で、日本では5月17日に機械学習工学研究会のキックオフシンポジウムが開かれます。

https://mlxse.connpass.com/event/80434/mlxse.connpass.com

この研究会自体、立ち上がったばかりでどこから具体的に手を付けていこうかから考えている段階ぽいですし、 参加者もそれぞれの持場で機械学習を頑張ってきた方々なので課題の全体像を把握されている方は少ないのではと思います。弊社もスポンサー企業としてポスター出しますが、実務の中で経験したもののベストプはこれってのを共有するのいでなんら学術的ではないです。


自分自身も分析官として深層学習使った画像識別やオーソドックスな機械学習を用いた需要予測系のシステム開発にいくいつか携わっただけで、まだまだ肌感ない領域多いですし、事前に整理しておきたいのでまとめます。

過去の機械学習工学研究会の活動

SE4ML meet-up 2017/11/8として実施されたもので全体感を掴むのは良いかも。まずは集まって課題感の共有って感じですが観点も興味ポイントも様々で面白い。工数見積、品質などの部分はいくつかプロジェクトをこなすと感覚的にできますが工学的じゃないですね。
mlxse.connpass.com

そもそもソフトウェア工学って?

機械学習側から機械学習工学に入る人にとってはそもそもソフトウェア工学ちゃんと勉強したことない人多いんじゃないでしょうか。今一緒にやってる出来るエンジニアがソフトウェア工学で博士取ってるんで毎回聞いて教えてもらえる恵まれた環境にあるのはホントありがたい。そのおおっさんに「とりあえず最初はコレがいいんじゃないっすか」って教えて貰ったのがこの本。研究ではなく実務に携わるという観点だとクセなく、全体感を知ることができておすすめです。

実践的ソフトウェア工学―実践現場から学ぶソフトウェア開発の勘所 (トップエスイー入門講座)

実践的ソフトウェア工学―実践現場から学ぶソフトウェア開発の勘所 (トップエスイー入門講座)

機械学習をサービスに載せる時の辛みって?

機械学習工学やソフトウェア工学ってソフトウェアやサービスを開発及び運用する際の辛みをエンジニアリングすることが目的だとすると、その対象である機械学習システムのしんどいところについて自分の業務以外の人達どうしてるんだろを知りたくなります。研究会なのでまずは論文から。

Machine Learning The High-Interest Credit Card of Technical Debt

Hidden Technical Debt in Machine Learning Systems


初出はGoogleが2014年のNIPSのワークショップで出した論文で、機械学習システム構築の課題感を書き表した古典です。今でも根本解決はされていない課題感が体系立てて書かれていて良いです。Pipeline JunglesやDead Experimental Codepathsなどデータサイエンティストが書いたコードは試行錯誤の結果で汚いよ的なことが書かれており、機械学習エンジニアや従来のエンジニアとの分業で分析官のコードをそのまま本番に載せるなが当たり前になりてきた昨今から見ると、かつてはGoogleもそうだったんだなと感じられて面白いです。

www.lucypark.kr
ACML-AIMLP Workshop で発表された機械学習版Joel Test。これに全部yesで答えられてもまだまだ上手く開発・運用できなさそう。

What’s your ML Test Score? A rubric for ML production systems

これもGoogle。機械学習システムについてのrubricとしてのテストを提供してくれている。テストの裏返しが課題感だとすると全体感を掴むのに良いのでは。

まとめ

ひとまず今日は課題感の方からまとめて見ました。明日は機械学習システム開発のプロセスや組織論の方から書こうかな。

自分の業務では全部把握は仕切れないので興味の範囲を広く持って研究会に参加したいです。