今回は今週末開催される日本ダービーのコースである東京芝2400mの傾向を人工知能によって紐解いていきます。

東京芝2400mの一般的な傾向

東京芝2400mは日本ダービーやジャパンカップといった格式のあるビッグレースの舞台として使われているコースです。

東京の芝コースは左回りで、一周約2100m弱と日本最大のスケールを誇ります。 東京芝の最後の直線は約530mと非常に長く、差し・追込が決まりやすいと言われています。 芝2400mコースの特徴としては、坂の頂上付近に位置するスタート地点から最初のコーナーまで約350mと長い距離があり、一見フェアに見えますが、大きなコーナーを回るため、外枠の馬は距離のロスを受けやすく不利な傾向があります。 中山のようなトリッキーなコースと比べると、力のある馬が勝ちやすく、比較的人気通りに決まることが多いです。 そういう意味では、東京芝2400mは大舞台のレースに相応しいコースと言えるでしょう。

ランダムフォレストで東京芝2400mを解析する

今回は東京芝2400mではどんな馬が勝ちやすいのか?というのを第10回理論記事で紹介したランダムフォレストを使って解析していきます。 ランダムフォレストは、沢山の決定木による多数決により予測を行なう機械学習アルゴリズムです。 ランダムフォレストは予測に利用した特徴量の重要度を測れるという利点があります。 さらに、1つ1つの決定木を図として可視化することで、容易く識別パターンを理解することができ、意味解釈性に優れます。 このランダムフォレストの特性を生かし、東京芝2400mのレースデータを学習データとすることで、そのコースでの勝馬のパターンを人間が理解できる規則として明らかにすることが可能となります。

解析方法

学習データには2012年から2016年の5年間に行われた東京芝2400mのレース(131レース)を利用し、2012年から2015年までのデータを訓練用、2016年のデータを検証用データとしました。

問題設定は複勝圏内に入るか否かの2値分類問題とします。 入力とする特徴量は以下の通りです。

特徴量名 備考
枠番  
牡牝 牡・牝のダミー変数
東西 美浦(東)・栗東(西)のダミー変数
単勝人気 最終単勝オッズの人気順位
馬体重  
脚質 逃げ・先行・差し・追込
前走着順  
前走距離  
前走タイム差 1着とのタイム差(1着の場合は0)
前走東京 前走東京コースかどうか
血統系統 サンデーサイレンス系・ノーザンダンサー系・ミスタープロスペクター系・ロベルト系・ナスルーラ系

ランダムフォレストの実装にはscikit-learnのRandomForestClassifierを利用しました。 パラメータは以下の範囲でグリッドサーチをして決定しました。

パラメータの種類
n_estimators 30
class_weight balanced_subsample
max_depth 3
min_samples_leaf 5, 10,…, 30
max_features 1, 2,…, 10

特徴量の重要度

学習したランダムフォレストから算出した特徴量の重要度は以下の図の通りです。

derby_wisdom_random_forest_importance

上の図から前走のタイム差が人気よりも重要であるということが読み取れます。 上位に挙がっている特徴量の中だと、馬体重は予想するときに見落としがちなファクターなのではないでしょうか。 また、一般的に差し・追込有利と言われていますが、ランダムフォレストの重要度ではそれほど大きな比重にはなっていませんでした。

決定木を描いて法則を見つける

ランダムフォレストが算出する重要度は、それぞれの特徴量がどれくらい効いているかということは教えてくれますが、どういうときに勝ち or 負けと判定されるのかはわかりません。 そこで、ランダムフォレストで学習した30本の決定木のうちを数本プロットして、識別パターンを実際に確かめてみましょう。 30本の決定木のうち、多くの決定木は「人気馬が強い」や「前走で好成績だった馬が強い」といった既知の勝ちパターンですが、中には興味深い規則を持つ決定木も存在します。 その中の代表的な3本の決定木を以下に示します。

▼ 決定木1 derby_desicion_tree1

▼ 決定木2 derby_desicion_tree2

▼ 決定木3 derby_desicion_tree3

表の見方

  • gini: 不純度(False/Trueのサンプルがどれくらい混在しているか)
  • samples: 全体のサンプルのうち何%がそのノードに該当するか
  • value: False/Trueのサンプルの割合
  • class: 予測ラベル(Trueのノードは複勝圏内に入ると予測される)

決定木1では、枠番が最初の分割規則に選ばれており、1, 2枠が有利であることを示しています。 さらにその下のノードを辿っていくと、前走6着以内で先行馬のときにTrueの割合が83%と高い数字になることから、「前走6着以内の内枠先行馬」が勝ちやすいということがわかります。 また、2枠より外でも、牡馬で前走タイム差が0.35秒以内のの馬はTrueの割合が88%と高い値となっています。 実力のある馬は枠に関係なく勝てるといったところでしょうか。 枠の利がない馬で前走0.4秒以上離されて負けた馬はあまり期待できないようです。

次に決定木2を見てみると、前走距離2000m以上の馬はTrueの割合が53%と、1900m以下の37%に比べて高い数値となっています。 このことから「前走距離2000m以上の馬が有利」であるということが読み取れます。 東京芝2400mはタフなコースでスピードよりもスタミナが要求されるということだと思われます。 前走2000m以上の馬をさらに馬体重で分割すると、453kg以上ある重い馬のほうが有利であることがわかります。

決定木3はこれらの決定木の中で唯一血統に関する特徴量が分割規則に使われています。 サンデーサイレンス系の馬(右手)はそうでない馬(左手)に比べて成績が良いことがわかります。 近年のサンデー系だと、ディープインパクト産駒やハーツクライ産駒の活躍が目立っています。 サンデー系をさらに下にたどると、5枠以内で前走タイム差が0.25秒以内のときに、Trueの割合が94%と非常に高い値となっています。 このことから、「前走タイム差0.25秒以内で好走している内中枠のサンデー系」が勝ちパターンであるということが示唆されます。

これら3本の決定木から導かれた勝ちパターンをまとめると

  • 前走6着以内の内枠先行馬
  • 前走2000m以上で馬体重453kg以上の馬
  • 前走0.25秒以内で好走している内中枠のサンデー系

2017年日本ダービーの有力馬をチェック

第84回日本ダービーに出走予定の有力馬を、導出した勝ちパターンを踏まえて見ていきます。 8頭の有力馬はJRAの今週の注目レースからピックアップしました。

※ 記事執筆段階では枠順は未確定です。

アルアイン

前走は9人気ながら皐月賞を勝利。ディープインパクト産駒ながら510kgを越える大きな馬体を持っています。 さらに好位置につけられる自在性もプラス。内枠を引ければ2冠のチャンスも十分あり得るでしょう。

アドミラブル

「青葉賞馬はダービーでは勝てない」というジンクスが存在する中で人気を背負うことが予想されるアドミラブル。 前走に2400mコースを経験しており、馬体重もディープインパクト産駒としては珍しい510kg前後の大きな馬体を持っており、好材料。 ただ、追込馬なので内枠に入ってもあまり利を生かせないのが気になります。

ペルシアンナイト

前走の皐月賞は惜しくもアルアインにクビ差で敗れましたが、3着以内を外さない安定感を持っています。 アドミラブルとアルアインに比べれば480kgと大きくないですが、450kgは越えそうなので勝ちパターンには当てはまります。 ただ、先行脚質ではないので他の勝ちパターンには当てはまらないでしょう。

サトノアーサー

ディープインパクト産駒でサンデー系で前走は0.1秒差の2着なので、外枠を引かなければ馬券内に入る可能性はあるでしょう。 ただ、追込脚質なので内枠を引いたとしてもが大きな有利にならないので注意が必要です。 また、前走出走が1800mの毎日杯で勝ちパターンから外れており、サトノアーサーにとっては厳しい戦いになることが予想されます。

スワーヴリチャード

前走の皐月賞は2人気ながら0.4秒差の6着に敗れており、脚質も後方からなのであまり大きなプラス材料はありません。 馬体重は500kg近くあるので、そこだけはプラスです。

カデナ

前走の皐月賞は0.5秒差の9着に敗れており、馬体重も450kg台とやや軽め。 脚質も差しなので、今回は厳しい勝負が予想されます。

ダンビュライト

前走は皐月賞で12番人気で0.1秒差の3着と大穴馬券を演出したルーラーシップ産駒。 馬体重は標準くらいの460kg台はあり、2000mを走ってきているのでプラス材料ではありますが、大半の出走馬に当てはまるので大きなプラスとは言えないでしょう。

レイデオロ

前走は皐月賞で0.4秒差の5着の走りを見せたレイデオロ。キングカメハメハ産駒。 この馬も後ろから行く馬なので、特筆すべき勝ちパターンは見当たりません。

まとめ

今回はランダムフォレストを使って、日本ダービーのコースである東京芝2400mのた勝ちパターンの分析を行ないました。

第84回日本ダービーの分析では、アルアイン、アドミラブルあたりが好条件ですが、有力馬に先行馬が少ないので、安心して買える抜けた好条件の馬はいないでしょう。 予想が難しいレースになりそうですが、AlphaImpactが最新の技術を用いて開発した人工知能の結論は週末公開しますので、お楽しみに。