第1回競馬データサイエンスの過去と現在

初回の理論記事はこれまで行われてきた競馬のデータ分析から現在のAI競馬までの流れを見ていきたいと思います。

スピード指数の登場

競馬のデータ分析の歴史を語る上で必ず避けては通れないのが**スピード指数（speed index）**でしょう。オリジナルのスピード指数は1975年にアメリカの競馬評論家であるアンドリュー・ベイヤーに提唱された指標です。

スピード指数のベースとなるコンセプトは、

“全ての馬が同じ馬場状態の同じコースを同じ負担重量で走ったと仮定して、そのタイム（＝スピード指数）を比較する”

というものです。言いかえると、ある競走馬の実際走ったパフォーマンス（タイム）から馬場状態、斤量、コースの外的要因を排除したものがその競走馬の絶対的な強さである、ということです。

スピード指数はこれまで記憶や主観に頼ってきたアナログ競馬予想とは対照的に、客観値のみから計算できるデータとして競馬予測の世界に革命をもたらしました。さらにスピード指数の定義は客観的でかつ簡潔であるため日本でも広く受け入れられ、多くの競馬予想家や新聞各社によってその派生指数が開発されました。

現在日本で使われている代表的なスピード指数は、西田式スピード指数、タイムフィルター、日刊コンピ指数などがあります。いずれの指数においても、走破タイムから外的要因に基づくバイアスを取り除き競走馬の絶対的能力の指標とするという根本の概念は同じです。

しかしこれらのスピード指数は、ある馬がどれくらい強い走りをしたかという競走結果の定量的評価指標であり、その指数だけで次レースの競走結果まで予測できるものではありません。未来のレース結果の予測をするためには、レースの相性や競走馬の調子など様々なファクターをかけ合わせて考える必要があり、現在ではアナログ予想やコンピュータ予想のファクターの1つとしての使われ方が一般的です。

データマイニングと機械学習

スピード指数は競走結果の評価指標でしたが、競馬予想はレース結果を予測し馬券を当てなければ何も意味がありません。

ここで登場するのがデータマイニングと呼ばれる技術です。データマイニングとは、それだけでは価値のない大量の雑多なデータに統計学や人工知能などの解析手法を適用して有益な情報を掘り出す技術です。簡単に言えば、コンピュータのマシンパワーで大量のデータを人が目で見てわかる形に変換するということです。

競馬予測におけるデータマイニングと言うとJRA-VANが2001年から提供しているデータマイニング予想が最も有名です。JRA-VANのデータマイニングは、過去レースの成績、馬場状態・距離などの適性、調教のデータなどから未来のレースにおける走破タイム or 着順を直接予測します。詳しい説明は本家のページを参照して頂くとして、JRA-VANのデータマイニング予測の基となっているロジックは機械学習と呼ばれる技術です。

機械学習は人工知能の一分野で、コンピュータプログラム自身が過去の膨大なデータから勝ち馬や走破タイムなどの規則・パターンを学習し、未知の事象を予測する自己学習アルゴリズムです。

人間が初めて競馬を予想したときは競馬新聞のどのファクターを見れば良いかわからず、見当違いの予想をしてしまいます。そのような予想は大抵外れますが、人間は外した経験から次に予想するときの競馬新聞の見るべきポイントを修正していき、段々と予想上手になっていきます（ずっと予想下手の人もいますが）。

その一連の過程を学習と呼び、機械学習ではこの人間が行っている学習の機能をコンピュータで模倣しようという試みです。

最近になって人工知能や機械学習というワードを巷でも耳にするようになりましたが、機械学習の理論研究自体は1950年代後半から行われており、新しい概念というわけではありません。ではなぜ今頃になって機械学習が注目を浴びだしたかというと、多くの機械学習アルゴリズムでは大量の計算コストがかかり、理論上可能であっても実現するのが不可能か多額の費用を費やさなければならなかったのです。特にAlphaImpactプロジェクトでも使っている今話題の深層学習（ディープラーニング）は数十万、数百万という数のパラメータを繰り返し学習しなければならないため、多大なマシンパワーを必要とします。

近年になってようやくコンピュータの性能が理論に追いついて来るようになり、 10万から20万円くらい出せば家庭用PCで誰でも大抵の機械学習アルゴリズムを動かすことができる時代が到来しました。そうなればデータと競馬好きな人たちが機械学習を使って競馬で一山当てよう、というムーブメントが起きるのは時間の問題です。

「競馬×データサイエンス」元年

そのような背景があり、ついに今年から各地で競馬と人工知能というテーマでイベントが開催されるようになりました。

まずその契機となったのは、2016年3月に開催されたニコニコ動画でおなじみの株式会社ドワンゴが主催した競馬予測アルゴリズム大会の第1回電脳賞（春）です。

第1回電脳賞（春）にはAlphaImpactの開発者であるNUKUIも参加しており、機械学習プログラム『AlphaKeiba』により月間回収率で100%超えを達成しました。これまでの競馬の常識ではコンピュータ予想を使っても回収率は90%を越えるのが関の山と言われていたため、データ解析テクノロジーが控除率¹の壁を打ち破るところまで来たという事実は世間にすぐ知れ渡り、人工知能競馬ブームの発端となりました。

2016年6月には競馬×データサイエンスの勉強会第1回ウマナリティクスというIT勉強会まで開催されました。ウマナリティクスではNUKUIとOMOTOも研究発表しており、後のAlphaImpactプロジェクトが誕生するきっかけにもなっています。

また2016年10月にはPyData.Tokyo#11で「競馬予測」がテーマとして取り上げられ、競馬を知らなかったデータサイエンティスト達のAI競馬への関心が高まってきていることが伺えます。ちなみにPyData.Tokyo#11のAlphaImpactの発表資料はこちらからご覧下さい。

今後について

年末の有馬ウィークには早くも（AlphaImpactも参加予定の）第2回ウマナリティクスが、さらに来春には第2回電脳賞（春）が開催されるなど、人工知能を使って競馬をする動きはさらに加速していくと思われます。

次回の理論記事ではそんな流行りに乗って競馬で人工知能開発を始めてみたいという人のために、人工知能で使うための競馬データについて書いていきたいと思います。

中央競馬において馬券の売上のうち胴元であるJRAに差し引かれる金額の割合。馬券種によって20~30%が引かれる。http://www.jra.go.jp/keiba/reimbursement_rate/ ↩︎

第1回 競馬データサイエンスの過去と現在

スピード指数の登場

データマイニングと機械学習

「競馬×データサイエンス」元年

今後について

第1回競馬データサイエンスの過去と現在