A Novel Reinforcement Learning Architecture for Continuous State and Action Spaces

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr class="thead"><td align="left"> </td><td align="center">SARSA <svg height="16.1" id="M140" style="vertical-align:-0.20473pt" version="1.1" viewbox="0 0 29.512501 16.1" width="29.512501" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,15.775)"><path d="M673 0h-245v28q47 6 58 16t1 39l-55 154h-213q-31 -87 -36 -129q-16 -47 -5 -61t68 -19v-28h-226v28q50 7 68.5 23.5t43.5 80.5l214 524l24 9l193 -536q23 -63 41.5 -79.5t68.5 -21.5v-28zM418 280l-81 255h-2q-74 -197 -101 -255h184z" id="x41"></path></g>
<g transform="matrix(.012,-0,0,-.012,11.813,7.613)"><path d="M412 140l28 -9q0 -2 -35 -131h-373v23q112 112 161 170q59 70 92 127t33 115q0 63 -31 98t-86 35q-75 0 -137 -93l-22 20l57 81q55 59 135 59q69 0 118.5 -46.5t49.5 -122.5q0 -62 -29.5 -114t-102.5 -130l-141 -149h186q42 0 58.5 10.5t38.5 56.5z" id="x32"></path></g>
<g transform="matrix(.017,-0,0,-.017,18.137,15.775)"><path d="M614 175l29 -10q-33 -109 -57 -154q-121 -26 -184 -26q-90 0 -160.5 29t-112.5 77t-63.5 105.5t-21.5 119.5q0 157 108 253t277 96q36 0 71.5 -5t69 -13.5t36.5 -8.5q15 -102 20 -150l-29 -8q-20 79 -66.5 114t-128.5 35q-119 0 -187.5 -86t-68.5 -207
q0 -140 73.5 -227.5t188.5 -87.5q73 0 119.5 37.5t86.5 116.5z" id="x43"></path></g>
</svg></td><td align="center"><svg height="14.3125" id="M141" style="vertical-align:-2.2932pt" version="1.1" viewbox="0 0 13.175 14.3125" width="13.175" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.4)"><path d="M745 361q0 -134 -83.5 -233t-214.5 -130l16 -11q97 -67 250 -132l-8 -23q-76 3 -131 16q-81 19 -242 125l-20 13q-129 8 -209 91t-80 208q0 160 116 271t289 111q136 0 226.5 -83t90.5 -223zM645 356q0 127 -57.5 201.5t-169.5 74.5q-126 0 -210.5 -104.5t-84.5 -248.5
q0 -97 46 -166.5t129 -87.5l84 15l29 -19q104 21 169 121.5t65 213.5z" id="x1D444"></path></g>
</svg>(<svg height="12.4375" id="M142" style="vertical-align:-0.1638pt" version="1.1" viewbox="0 0 9.5124998 12.4375" width="9.5124998" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,12.162)"><path d="M529 97q-70 -109 -136 -109q-41 0 -56 94q-23 144 -37 284q-38 -88 -99 -202.5t-93 -156.5q-26 -8 -76 -19l-9 21q71 78 145.5 193t124.5 232q-5 84 -15 128q-12 55 -29.5 75.5t-42.5 20.5q-21 0 -45 -13l-8 24q16 17 46 30t55 13q43 0 70 -46.5t40 -169.5
q27 -249 51 -392q7 -46 23 -46q24 0 70 60z" id="x1D706"></path></g>
</svg>)-learning</td></tr><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr><td align="left">Algorithm type </td><td align="center">Actor-Critic </td><td align="center"><svg height="14.3125" id="M143" style="vertical-align:-2.2932pt" version="1.1" viewbox="0 0 13.175 14.3125" width="13.175" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,11.4)"><path d="M745 361q0 -134 -83.5 -233t-214.5 -130l16 -11q97 -67 250 -132l-8 -23q-76 3 -131 16q-81 19 -242 125l-20 13q-129 8 -209 91t-80 208q0 160 116 271t289 111q136 0 226.5 -83t90.5 -223zM645 356q0 127 -57.5 201.5t-169.5 74.5q-126 0 -210.5 -104.5t-84.5 -248.5
q0 -97 46 -166.5t129 -87.5l84 15l29 -19q104 21 169 121.5t65 213.5z" id="x1D444"></path></g>
</svg>(<svg height="12.4375" id="M144" style="vertical-align:-0.1638pt" version="1.1" viewbox="0 0 9.5124998 12.4375" width="9.5124998" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
<g transform="matrix(.017,-0,0,-.017,.062,12.162)"><path d="M529 97q-70 -109 -136 -109q-41 0 -56 94q-23 144 -37 284q-38 -88 -99 -202.5t-93 -156.5q-26 -8 -76 -19l-9 21q71 78 145.5 193t124.5 232q-5 84 -15 128q-12 55 -29.5 75.5t-42.5 20.5q-21 0 -45 -13l-8 24q16 17 46 30t55 13q43 0 70 -46.5t40 -169.5
q27 -249 51 -392q7 -46 23 -46q24 0 70 60z" id="x1D706"></path></g>
</svg>)-learning</td></tr><tr><td align="left">Function approx. </td><td align="center">RBFs </td><td align="center">CMACs</td></tr><tr><td align="left">States </td><td align="center">Continuous </td><td align="center">Continuous</td></tr><tr><td align="left">Actions </td><td align="center">Continuous </td><td align="center">Discrete</td></tr><tr><td align="left">Total learning time </td><td align="center">10 minutes </td><td align="center">24 hours 30 minutes</td></tr><tr><td align="left">Average distance </td><td align="center">25.45 meters </td><td align="center">29.21 meters</td></tr><tr><td align="left">Maximum distance </td><td align="center">36.23 meters </td><td align="center">39.0 meters</td></tr><tr class="table-tr"><td colspan="3"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

Comparison of the best policies for the dribbling problem.

Advances in Artificial Intelligence

tab1

Table 1

Table 1: A Novel Reinforcement Learning Architecture for Continuous State and Action Spaces