全国医療AIコンテストを開催しました

f:id:arailly:20191002103605p:plain

2019年9月28日,29日の2日間で「阪大AIメディカル研究会主催 全国医療AIコンテスト 2019」 を開催しました. 本記事はその記録です.

全国医療AIコンテスト 2019とは

医療AIに興味のある全国の大学生で集まって, AIを応用した医療・介護・ヘルスケアの最先端についての講演会と 医療データ解析コンペティションを行いました.

なぜこのようなイベントを開催することになったかというと, 全国の医学系の学部でAI系の勉強会を開催するサークルが増えていて, 一度そのような学生で集まって話してみたいなと思っていました.

そんな話を他の人にも持ちかけてみると,登壇していただける方や, 支援していただける企業の方が出てきてくださって,遠方からの学生の招待や 高速なクラウドの計算リソースを使用したコンペの開催が実現しました.

参加者数80名以上、10以上の大学の学生の方に参加していただき、文字通り全国規模のイベントでした。

非常に興味深い講演が聞けたり,全国の大学生と交流ができて非常に楽しかったです.

今回のイベントは,以下の団体・企業様にご支援いただきました. この場をお借りしてお礼申し上げます.

共催(敬称略):

  • 阪大医学部Python
  • コンソーシアム関西
  • ナレッジキャピタル

協賛(敬称略):

講演

どの講演も面白く,また,程よくテーマの多様性があってとても良かったです.

電子顕微鏡画像における耐性菌の識別 ー薬剤耐性化と形態変化の関係解明に向けてー」 青木 工太 先生(大阪大学産業科学研究所)

現代の大きな問題になっている,耐性菌についてのテーマです. 耐性菌をどのように検出して,どのように創薬に役立てていくかについてお話いただきました.

個人的に印象的だったのは,電子顕微鏡で撮影した細胞や分子の画像を非常に丁寧に前処理をしていることでした. どのように機械学習で使えるようにするかという工夫が面白かったです.

「疾患ゲノム研究の最新動向 ー機械学習の応用を含む解析手法の紹介ー」鈴木 顕 先生(大阪大学医学部 遺伝統計学教室)

ゲノム解析の方法や,それを実際に糖尿病の研究に適用して得られた成果をわかりやすく説明していただきました.

今後のゲノム解析バイオインフォマティクスの可能性を感じさせる興味深い発表でした.

NVIDIAにおけるヘルスケアへの取り組みと研究環境最前線」阮 佩穎 氏(NVIDIA合同会社

NVIDIAの最新の研究やソフトウェアの開発状況についてお話いただきました.

混合精度演算によるDeep Learningのさらなる高速化やcumlなどのOSSアノテーションツールの開発などといった ハードウェア・ソフトウェア開発の最前線から,医療応用に関する研究まで,非常に面白いお話でした.

「ライフ・メディカル領域のAI構築 ー画像を中心にー」袴田 和巳 氏(LPIXEL株式会社)

機械学習による医療データ解析システムや,医療業界ならではのビジネスの難しさについてのご講演でした.

機械学習システムを臨床の現場に実装しようという試みについてのお話がとても面白かったです.

また,社内におけるKaggleコンペなどの取り組みや,コンペで身につくスキルとその使い所にも言及されていて, 非常に為になるお話でした.

創薬・製薬・介護領域でのAI技術 ー画像からグラフ理論までー」浅谷 学嗣 氏(株式会社EXAWIZARDS)

グラフ畳み込みを用いた創薬・製薬技術の開発や医療・介護・製薬の現場に役立つロボット開発などの 技術についてのご講演でした.

最先端の機械学習に,ソフトウェア・ハードウェアの非常に高い技術力が合わさることによる無限の可能性を感じました.

「医療データコンペ入門」秋山 理(大阪大学医学部医学科6年)

阪大AIメディカル研究会のエース,医学部6年にしてKaggle Masterの秋山さんによる, 医療データコンペの概要と,それに対する解法や取り組み方についてのお話でした.

医学生・医療従事者など,非専門家がデータサイエンスを学ぶのにコンペに参加するのが最適だということ, そしてコンペを通して得られた,医療データを解析する難しさなどの知見を共有していただきました.

医療データ解析コンペティション

概要

今回のコンペティションのテーマは,「眼底画像から糖尿病網膜症を診断する」でした.

EDAからモデリングまでの一通りを押さえたベースラインとなるコードを用意し, 初心者でも短いコンペ時間の間に楽しんでもらえるように工夫しました.

このベースラインコードを読むだけでもかなり勉強になったのではないかと思います.

さらに,日本マイクロソフト様のご厚意でAzureのVMを使わせていただくことができ, 一人一台のVMインスタンス(Tesla V100付き)を用意することで,画像コンペでも 現実的な学習時間を実現できました.

今回使用したデータはツカザキ病院様のTsukazaki Optos Public Projectで公開されているもので, コンペでの使用も快諾いただきました.この場を借りてお礼申し上げます.

解法

データセットとして,患者さんの基本情報とその眼底画像を配布しました. テーマとしては,「眼底画像から糖尿病網膜症を診断する」だったのですが, スコア向上の鍵となるのは,患者さんの基本情報データの方でした.

例えば,以下のような特徴が予測に有効です.

  • 同じ患者に対して何枚も眼底画像があれば,何らかの病気を発症している可能性が高い.
  • 片目に病変が見られた場合,もう片方の目にも発症している可能性が高い.
  • 同じ患者の眼底画像は,同じ病変がある可能性が高い.

したがって,ニューラルネットで画像から大まかな推測(特徴量抽出)を行って, テーブルデータにその値を加えて特徴量エンジニアリングを行い,最終的な予測結果を出力する, というのが今回の想定解法でした.

しかし残念ながら,ほとんどの参加者が,初めからアンサンブルやモデル勝負に挑んでしまい, かなりの時間を使ってしまっていたようです.

最終的に,想定解法によるスコアを上回るスコアは出なかったものの,上位に入賞した人は 患者さんの基本情報の重要性に気づいていて,少し嬉しかったです.

また,画像をリサイズしてもスコアがほとんど変わらないということに気付くと, 学習時間が圧倒的に短くなり,多くの実験ができたのではないかと思います.

出題者としての感想

今回,私と秋山さんでコンペ設計を行ったのですが,画像コンペの2値分類で評価指標がAUCという典型パターンだったので, それほど悩む部分がなく,想定外のリークも発生せず,とても楽しかったです.

ここに気づいてくれるかな,と期待しながら参加者を見守っているのもワクワクしました.

ですが,もう少しデータを眺めて,患者の情報やリークを利用する努力をしてほしかったなあというのが正直なところです. 機械学習を持つと全てが特徴量に見える」 という人類の習性を改めて実感しました.

また,今回コンペのプラットフォームとしてKaggle InClassを使わせていただいたのですが, こちらも非常に使いやすく,ありがたかったです.

イベント運営の反省点

  • イベント名を「全国AIメディカルコンテスト」にするべきだった笑 AIメディカル研究会っぽさが無い..
  • コンペSlackは参加者を事前に招待すべきだった.
  • 思ったより会場のWi-fiが弱かった.その可能性を踏まえて,事前に準備が必要だと思いました.
  • 上位入賞者の解法共有をもう少し充実させるべきだった.上位入賞者への質問時間や,スコアに効いたことと効かなかったこと両方を共有する場があればよかったなと思います.
  • コンペのルール設定が甘かった.外部データ使用禁止と書いてあったのに,ImageNetのPretrainは認めるなど,詰めの甘さが目立ちました.最終的に,外部データの使用を許可するという形でルールを訂正しましたが,数人の学生には多大なご迷惑をおかけしました.本当に申し訳ございませんでした.

全体を通して

今回のイベントでは,文字通り全国から学生が集まってくれて,懇親会では幅広い交流をすることができ, とてもいい刺激になりました.

また,多くのスポンサー企業のおかげで,グランフロント大阪のとっても綺麗な会場を借りることができたり, V100付きのVMを使った画像コンペを企画できたりして,非常にレベルの高いイベントを開催することができました.

アンケートでもコンテンツ・運営に対して共に高評価をいただき,嬉しかったです.

個人的に,今までAIメディカル研究会で開催したイベントの中でも,かなり満足度の高いものとなりました.

運営メンバーの皆様,AIMS顧問の新岡先生,登壇者の皆様,共催・協賛の団体・企業の皆様, この度は本当にありがとうございました.