競馬人工知能は『典ポツン』を予測できるのか？

今回は競馬予測の実践例として、人工知能による『典ポツン』の予測に挑戦してみます。

『典ポツン』とは？

ポツンとは競馬用語で離れた最後方に1頭置かれている状態のことを指します。道中最後方に取り残されている場合、最後の直線一気での大逆転に賭けるしかないため、パフォーマンスとしては派手ですが、リスクが高く好んでやるような乗り方ではありません。

しかし、横山典弘騎手は騎手歴30年を越えるベテラン騎手ながら『ポツン』をよくやる騎手として有名です。横山騎手は、馬自身の走りたいペースで走らせて能力を発揮させる騎乗が得意で、その結果として離れた最後方から追走するポツンが多いと言われています。横山騎手のポツン戦法は『典ポツン』として多くの競馬ファンに親しまれていますが、それと同時に多くの馬券購入者の頭を悩ませています。馬券を買っている人からすれば、ポツンは観ていて心臓に悪いのは言うまでもありませんが、本命馬がポツンしたまま見せ場なく馬群に沈んでいってしまうほど虚しいものはありません。

そこで今回は、横山騎手が騎乗している馬に賭けたいけど、ポツンされるのが怖くて買えないという競馬ファンの悩みを解決するべく、機械学習を使って『典ポツン』を予測していきたいと思います。

横山典弘騎手は本当にポツンが多いのか？

横山騎手といえばポツンというイメージが定着していますが、そもそも本当にポツンが多いのか？と疑問を持っている人がいるかと思います。そんな人のために、実際にポツンの頻度をデータで示していきます。まず、ポツンであるのかどうかを判定するために、本記事ではポツンを**「JRAのコーナー通過順位において、最初のコーナー通過時に最後方かつ前の馬と1馬身差以上の差がある状態」**と定義します。この定義に従い、横山騎手含む10人の有力騎手について、2009年-2016年の8年間のレースを対象にポツンとなったレースの割合を集計しました（下図）。

potsun_ratio

このグラフをみると横山騎手は他の騎手達に比べてポツン率が2-3倍ほど高いことがわかります。これほどずば抜けてポツンをできるとは、横山騎手の度胸は相当なものであると思われます。典ポツンは伊達ではないようです。

典ポツンの予測方法

典ポツンか否かの予測は2値分類問題として定式化することができます。すなわち、目的変数をポツンならTrue、そうでない場合にFalseとし、特徴量からTrue/Falseを予測します。また、横山騎手の騎乗レースのうち2009年~2015年（全4444レース、ポツン260レース）を学習用データセット、2016年（全528レース・ポツン45レース）をテスト用データセットとします。

識別器には前回記事で紹介した決定木を使います。決定木を選んだのは、データのスケールを気にしなくて良いということや特徴量の重要度が測れるということが主な理由です。

決定木の実装はscikit-learnのDecisionTreeClassifierを利用しました。パラメータの決定については、 $ max_features \in {1, 2,…, 30} $ 、 $ max_leaf_nodes \in {2, 4, 6,…, 50} $ の範囲をグリッドサーチでテスト用データにおける正規化相互情報量（NMI）¹が最大となるパラメータを選択しました。また、正例と負例の数に差があるので、DecisionTreeClassifierの設定でclass_weight='balanced'としました。

予測に使用した特徴量は以下の通りです。

特徴量名	説明
出走頭数	レースに出走する頭数
レース番号	1-12R
トラック	芝、ダート
コース距離	メートル
右回り・左回り	コーナーの回り
1着賞金	レースレベルの指標
年齢条件	2歳、3歳、3歳以上、4歳以上
競走条件	新馬、未勝利、500万下、1000万下、1600万下、OP
馬齢	馬の年齢
馬複勝率	馬の通算複勝率
単勝人気	確定単勝人気
負担重量	kg
前走タイム差	1着との秒差
前走前3Fタイム	秒
前走後3Fタイム	秒
脚質	逃げ、先行、差し、追込
逃先行馬数	脚質が逃げ・先行の馬の数

特徴量の重要度

決定木は、各分岐における情報利得の差分から特徴量の重要度を測ることができます。各特徴量の重要度は以下の図の通りです。

potsun_feature_importance

このグラフに表示されていない他の特徴量は決定木の分岐で一度も使われなかったもので、重要度は0となっています。この図をみると、前走のテン3ハロンのタイムとラスト3ハロンのタイムが重要であることが読み取れます。また、人気も重要なファクターのひとつのようです。人気馬に騎乗すると最後方から行きにくいということを意味しているのかもしれません。

予測ポツン確率と実際のポツン率

2016年のデータセットにおける、学習した決定木から求めたTrue（ポツン）となる予測確率と実際のポツン率との関係は以下の図通りです。

potsun_proba

また、決定木とランダムによるAccuracyとNMI値は以下の表の通りです。

手法	Accuracy	NMI
決定木	0.572	0.038
random	0.501	0.002

予測ポツン確率が大きくなるに従って、実際のポツン率も大きくなっている関係が読み取れます。さらにAccuracyとNMIの値がrandomよりも高いことから、識別器が典ポツンが発生するパターンをちゃんと学習しているということが示唆されます。100%正確に予測するのは不可能でも、ある程度まではポツンを事前に予測できるようです。

予測ポツン確率と回収率

2016年のデータセットにおける予測ポツン確率と単複回収率の関係は以下の通りです。

potsun_return_ratio_all

単勝回収率に注目してみると、予測ポツン確率が高くなるに従って回収率が大きく下がっていることが読み取れます。やはりいくら横山騎手でも最後方から1着を取るというのは難儀なようです。しかしここで複勝回収率を見てみると、単勝回収率に比べて回収率の減少が大きくありません。このことから考えられることの1つとしては、最後方からの競馬をしているときは勝ちにいっているのではなく、賞金圏内を狙いに行っているという解釈が与えられそうです。

また、単勝オッズ10倍以下の人気馬に絞った場合の予測ポツン確率と単複回収率の関係は以下の通りです。

potsun_return_ratio

面白いことに、人気馬に絞ると複勝回収率が予測ポツン確率が大きくなるにつれて減少するようになりました。最後方から一か八かを狙う乗り方は、負けても当然の人気薄馬の場合ならともかく、配当の低い人気馬ではリターンがリスクに見合わないということが示唆されます。ポツンの典で勝ちたいならば人気薄の馬に賭けるのがベターでしょう。

そして驚くべきところは予測ポツン確率が低い人気馬の回収率の高さです。予測ポツン確率0の単勝オッズ10倍以下の単勝回収率が150%、複勝回収率でも110%弱と馬券的にかなり美味しい成績となっています。有力馬に騎乗しているポツン確率の低そうな横山騎手を見つけたら積極的に買うべきでしょう。

まとめ

今回は決定木で横山典弘騎手のポツンの予測に挑戦して、ある程度までは事前に予測が可能であるということがわかりました。さらにポツンしそうな横山騎手は買うべきではないが、ポツン気配が薄い人気馬に乗っている横山騎手は馬券的妙味があるという新しい発見もできました。

このように競馬予測は単純な勝ち負け予測だけでなく、色々な観点で問題設定をしてみると面白い気づきが得られることがあります。皆さんも是非オリジナルな競馬予測に挑戦して競馬を楽しみましょう。

正規化相互情報量（NMI）Wikipedia ↩︎