diff libavcodec/arm/vp3dsp_neon.S @ 2:897f711a7157

rearrange to work with autoconf
author Nina Engelhardt <nengel@mailbox.tu-berlin.de>
date Tue, 25 Sep 2012 15:55:33 +0200
parents
children
line diff
     1.1 --- /dev/null	Thu Jan 01 00:00:00 1970 +0000
     1.2 +++ b/libavcodec/arm/vp3dsp_neon.S	Tue Sep 25 15:55:33 2012 +0200
     1.3 @@ -0,0 +1,420 @@
     1.4 +/*
     1.5 + * Copyright (c) 2009 David Conrad
     1.6 + *
     1.7 + * This file is part of FFmpeg.
     1.8 + *
     1.9 + * FFmpeg is free software; you can redistribute it and/or
    1.10 + * modify it under the terms of the GNU Lesser General Public
    1.11 + * License as published by the Free Software Foundation; either
    1.12 + * version 2.1 of the License, or (at your option) any later version.
    1.13 + *
    1.14 + * FFmpeg is distributed in the hope that it will be useful,
    1.15 + * but WITHOUT ANY WARRANTY; without even the implied warranty of
    1.16 + * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
    1.17 + * Lesser General Public License for more details.
    1.18 + *
    1.19 + * You should have received a copy of the GNU Lesser General Public
    1.20 + * License along with FFmpeg; if not, write to the Free Software
    1.21 + * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
    1.22 + */
    1.23 +
    1.24 +#include "asm.S"
    1.25 +
    1.26 +.section .rodata
    1.27 +.align 4
    1.28 +
    1.29 +vp3_idct_constants:
    1.30 +.short 64277, 60547, 54491, 46341, 36410, 25080, 12785
    1.31 +
    1.32 +#define xC1S7 d0[0]
    1.33 +#define xC2S6 d0[1]
    1.34 +#define xC3S5 d0[2]
    1.35 +#define xC4S4 d0[3]
    1.36 +#define xC5S3 d1[0]
    1.37 +#define xC6S2 d1[1]
    1.38 +#define xC7S1 d1[2]
    1.39 +
    1.40 +.text
    1.41 +
    1.42 +.macro vp3_loop_filter
    1.43 +    vsubl.u8        q3,  d18, d17
    1.44 +    vsubl.u8        q2,  d16, d19
    1.45 +    vadd.i16        q1,  q3,  q3
    1.46 +    vadd.i16        q2,  q2,  q3
    1.47 +    vadd.i16        q0,  q1,  q2
    1.48 +    vrshr.s16       q0,  q0,  #3
    1.49 +    vmovl.u8        q9,  d18
    1.50 +    vdup.u16        q15, r2
    1.51 +
    1.52 +    vabs.s16        q1,  q0
    1.53 +    vshr.s16        q0,  q0,  #15
    1.54 +    vqsub.u16       q2,  q15, q1
    1.55 +    vqsub.u16       q3,  q2,  q1
    1.56 +    vsub.i16        q1,  q2,  q3
    1.57 +    veor            q1,  q1,  q0
    1.58 +    vsub.i16        q0,  q1,  q0
    1.59 +
    1.60 +    vaddw.u8        q2,  q0,  d17
    1.61 +    vsub.i16        q3,  q9,  q0
    1.62 +    vqmovun.s16     d0,  q2
    1.63 +    vqmovun.s16     d1,  q3
    1.64 +.endm
    1.65 +
    1.66 +function ff_vp3_v_loop_filter_neon, export=1
    1.67 +    sub             ip,  r0,  r1
    1.68 +    sub             r0,  r0,  r1,  lsl #1
    1.69 +    vld1.64         {d16}, [r0,:64], r1
    1.70 +    vld1.64         {d17}, [r0,:64], r1
    1.71 +    vld1.64         {d18}, [r0,:64], r1
    1.72 +    vld1.64         {d19}, [r0,:64], r1
    1.73 +    ldrb            r2,    [r2, #129*4]
    1.74 +
    1.75 +    vp3_loop_filter
    1.76 +
    1.77 +    vst1.64         {d0},  [ip,:64], r1
    1.78 +    vst1.64         {d1},  [ip,:64], r1
    1.79 +    bx              lr
    1.80 +endfunc
    1.81 +
    1.82 +function ff_vp3_h_loop_filter_neon, export=1
    1.83 +    sub             ip,  r0,  #1
    1.84 +    sub             r0,  r0,  #2
    1.85 +    vld1.32         {d16[]},  [r0], r1
    1.86 +    vld1.32         {d17[]},  [r0], r1
    1.87 +    vld1.32         {d18[]},  [r0], r1
    1.88 +    vld1.32         {d19[]},  [r0], r1
    1.89 +    vld1.32         {d16[1]}, [r0], r1
    1.90 +    vld1.32         {d17[1]}, [r0], r1
    1.91 +    vld1.32         {d18[1]}, [r0], r1
    1.92 +    vld1.32         {d19[1]}, [r0], r1
    1.93 +    ldrb            r2,  [r2, #129*4]
    1.94 +
    1.95 +    vtrn.8          d16, d17
    1.96 +    vtrn.8          d18, d19
    1.97 +    vtrn.16         d16, d18
    1.98 +    vtrn.16         d17, d19
    1.99 +
   1.100 +    vp3_loop_filter
   1.101 +
   1.102 +    vtrn.8          d0,  d1
   1.103 +
   1.104 +    vst1.16         {d0[0]}, [ip], r1
   1.105 +    vst1.16         {d1[0]}, [ip], r1
   1.106 +    vst1.16         {d0[1]}, [ip], r1
   1.107 +    vst1.16         {d1[1]}, [ip], r1
   1.108 +    vst1.16         {d0[2]}, [ip], r1
   1.109 +    vst1.16         {d1[2]}, [ip], r1
   1.110 +    vst1.16         {d0[3]}, [ip], r1
   1.111 +    vst1.16         {d1[3]}, [ip], r1
   1.112 +    bx              lr
   1.113 +endfunc
   1.114 +
   1.115 +
   1.116 +function vp3_idct_start_neon
   1.117 +    vpush           {d8-d15}
   1.118 +    movrel          r3,  vp3_idct_constants
   1.119 +    vld1.64         {d0-d1},   [r3,:128]
   1.120 +    vld1.64         {d16-d19}, [r2,:128]!
   1.121 +    vld1.64         {d20-d23}, [r2,:128]!
   1.122 +    vld1.64         {d24-d27}, [r2,:128]!
   1.123 +    vadd.s16        q1,  q8,  q12
   1.124 +    vsub.s16        q8,  q8,  q12
   1.125 +    vld1.64         {d28-d31}, [r2,:128]!
   1.126 +endfunc
   1.127 +
   1.128 +function vp3_idct_core_neon
   1.129 +    vmull.s16       q2,  d18, xC1S7     // (ip[1] * C1) << 16
   1.130 +    vmull.s16       q3,  d19, xC1S7
   1.131 +    vmull.s16       q4,  d2,  xC4S4     // ((ip[0] + ip[4]) * C4) << 16
   1.132 +    vmull.s16       q5,  d3,  xC4S4
   1.133 +    vmull.s16       q6,  d16, xC4S4     // ((ip[0] - ip[4]) * C4) << 16
   1.134 +    vmull.s16       q7,  d17, xC4S4
   1.135 +    vshrn.s32       d4,  q2,  #16
   1.136 +    vshrn.s32       d5,  q3,  #16
   1.137 +    vshrn.s32       d6,  q4,  #16
   1.138 +    vshrn.s32       d7,  q5,  #16
   1.139 +    vshrn.s32       d8,  q6,  #16
   1.140 +    vshrn.s32       d9,  q7,  #16
   1.141 +    vadd.s16        q12, q1,  q3        // E = (ip[0] + ip[4]) * C4
   1.142 +    vadd.s16        q8,  q8,  q4        // F = (ip[0] - ip[4]) * C4
   1.143 +    vadd.s16        q1,  q2,  q9        // ip[1] * C1
   1.144 +
   1.145 +    vmull.s16       q2,  d30, xC1S7     // (ip[7] * C1) << 16
   1.146 +    vmull.s16       q3,  d31, xC1S7
   1.147 +    vmull.s16       q4,  d30, xC7S1     // (ip[7] * C7) << 16
   1.148 +    vmull.s16       q5,  d31, xC7S1
   1.149 +    vmull.s16       q6,  d18, xC7S1     // (ip[1] * C7) << 16
   1.150 +    vmull.s16       q7,  d19, xC7S1
   1.151 +    vshrn.s32       d4,  q2,  #16
   1.152 +    vshrn.s32       d5,  q3,  #16
   1.153 +    vshrn.s32       d6,  q4,  #16       // ip[7] * C7
   1.154 +    vshrn.s32       d7,  q5,  #16
   1.155 +    vshrn.s32       d8,  q6,  #16       // ip[1] * C7
   1.156 +    vshrn.s32       d9,  q7,  #16
   1.157 +    vadd.s16        q2,  q2,  q15       // ip[7] * C1
   1.158 +    vadd.s16        q9,  q1,  q3        // A = ip[1] * C1 + ip[7] * C7
   1.159 +    vsub.s16        q15, q4,  q2        // B = ip[1] * C7 - ip[7] * C1
   1.160 +
   1.161 +    vmull.s16       q2,  d22, xC5S3     // (ip[3] * C5) << 16
   1.162 +    vmull.s16       q3,  d23, xC5S3
   1.163 +    vmull.s16       q4,  d22, xC3S5     // (ip[3] * C3) << 16
   1.164 +    vmull.s16       q5,  d23, xC3S5
   1.165 +    vmull.s16       q6,  d26, xC5S3     // (ip[5] * C5) << 16
   1.166 +    vmull.s16       q7,  d27, xC5S3
   1.167 +    vshrn.s32       d4,  q2,  #16
   1.168 +    vshrn.s32       d5,  q3,  #16
   1.169 +    vshrn.s32       d6,  q4,  #16
   1.170 +    vshrn.s32       d7,  q5,  #16
   1.171 +    vshrn.s32       d8,  q6,  #16
   1.172 +    vshrn.s32       d9,  q7,  #16
   1.173 +    vadd.s16        q3,  q3,  q11       // ip[3] * C3
   1.174 +    vadd.s16        q4,  q4,  q13       // ip[5] * C5
   1.175 +    vadd.s16        q1,  q2,  q11       // ip[3] * C5
   1.176 +    vadd.s16        q11, q3,  q4        // C = ip[3] * C3 + ip[5] * C5
   1.177 +
   1.178 +    vmull.s16       q2,  d26, xC3S5     // (ip[5] * C3) << 16
   1.179 +    vmull.s16       q3,  d27, xC3S5
   1.180 +    vmull.s16       q4,  d20, xC2S6     // (ip[2] * C2) << 16
   1.181 +    vmull.s16       q5,  d21, xC2S6
   1.182 +    vmull.s16       q6,  d28, xC6S2     // (ip[6] * C6) << 16
   1.183 +    vmull.s16       q7,  d29, xC6S2
   1.184 +    vshrn.s32       d4,  q2,  #16
   1.185 +    vshrn.s32       d5,  q3,  #16
   1.186 +    vshrn.s32       d6,  q4,  #16
   1.187 +    vshrn.s32       d7,  q5,  #16
   1.188 +    vshrn.s32       d8,  q6,  #16       // ip[6] * C6
   1.189 +    vshrn.s32       d9,  q7,  #16
   1.190 +    vadd.s16        q2,  q2,  q13       // ip[5] * C3
   1.191 +    vadd.s16        q3,  q3,  q10       // ip[2] * C2
   1.192 +    vsub.s16        q13, q2,  q1        // D = ip[5] * C3 - ip[3] * C5
   1.193 +    vsub.s16        q1,  q9,  q11       // (A - C)
   1.194 +    vadd.s16        q11, q9,  q11       // Cd = A + C
   1.195 +    vsub.s16        q9,  q15, q13       // (B - D)
   1.196 +    vadd.s16        q13, q15, q13       // Dd = B + D
   1.197 +    vadd.s16        q15, q3,  q4        // G = ip[2] * C2 + ip[6] * C6
   1.198 +
   1.199 +    vmull.s16       q2,  d2,  xC4S4     // ((A - C) * C4) << 16
   1.200 +    vmull.s16       q3,  d3,  xC4S4
   1.201 +    vmull.s16       q4,  d28, xC2S6     // (ip[6] * C2) << 16
   1.202 +    vmull.s16       q5,  d29, xC2S6
   1.203 +    vmull.s16       q6,  d20, xC6S2     // (ip[2] * C6) << 16
   1.204 +    vmull.s16       q7,  d21, xC6S2
   1.205 +    vshrn.s32       d4,  q2,  #16
   1.206 +    vshrn.s32       d5,  q3,  #16
   1.207 +    vshrn.s32       d6,  q4,  #16
   1.208 +    vshrn.s32       d7,  q5,  #16
   1.209 +    vshrn.s32       d8,  q6,  #16       // ip[2] * C6
   1.210 +    vmull.s16       q5,  d18, xC4S4     // ((B - D) * C4) << 16
   1.211 +    vmull.s16       q6,  d19, xC4S4
   1.212 +    vshrn.s32       d9,  q7,  #16
   1.213 +    vadd.s16        q3,  q3,  q14       // ip[6] * C2
   1.214 +    vadd.s16        q10, q1,  q2        // Ad = (A - C) * C4
   1.215 +    vsub.s16        q14, q4,  q3        // H = ip[2] * C6 - ip[6] * C2
   1.216 +    bx              lr
   1.217 +endfunc
   1.218 +
   1.219 +.macro VP3_IDCT_END type
   1.220 +function vp3_idct_end_\type\()_neon
   1.221 +.ifc \type, col
   1.222 +    vdup.16         q0,  r3
   1.223 +    vadd.s16        q12, q12, q0
   1.224 +    vadd.s16        q8,  q8,  q0
   1.225 +.endif
   1.226 +
   1.227 +    vshrn.s32       d2,  q5,  #16
   1.228 +    vshrn.s32       d3,  q6,  #16
   1.229 +    vadd.s16        q2,  q12, q15       // Gd  = E + G
   1.230 +    vadd.s16        q9,  q1,  q9        // (B - D) * C4
   1.231 +    vsub.s16        q12, q12, q15       // Ed  = E - G
   1.232 +    vsub.s16        q3,  q8,  q10       // Fd  = F - Ad
   1.233 +    vadd.s16        q10, q8,  q10       // Add = F + Ad
   1.234 +    vadd.s16        q4,  q9,  q14       // Hd  = Bd + H
   1.235 +    vsub.s16        q14, q9,  q14       // Bdd = Bd - H
   1.236 +    vadd.s16        q8,  q2,  q11       // [0] = Gd + Cd
   1.237 +    vsub.s16        q15, q2,  q11       // [7] = Gd - Cd
   1.238 +    vadd.s16        q9,  q10, q4        // [1] = Add + Hd
   1.239 +    vsub.s16        q10, q10, q4        // [2] = Add - Hd
   1.240 +    vadd.s16        q11, q12, q13       // [3] = Ed + Dd
   1.241 +    vsub.s16        q12, q12, q13       // [4] = Ed - Dd
   1.242 +.ifc \type, row
   1.243 +    vtrn.16         q8,  q9
   1.244 +.endif
   1.245 +    vadd.s16        q13, q3,  q14       // [5] = Fd + Bdd
   1.246 +    vsub.s16        q14, q3,  q14       // [6] = Fd - Bdd
   1.247 +
   1.248 +.ifc \type, row
   1.249 +    // 8x8 transpose
   1.250 +    vtrn.16         q10, q11
   1.251 +    vtrn.16         q12, q13
   1.252 +    vtrn.16         q14, q15
   1.253 +    vtrn.32         q8,  q10
   1.254 +    vtrn.32         q9,  q11
   1.255 +    vtrn.32         q12, q14
   1.256 +    vtrn.32         q13, q15
   1.257 +    vswp            d17, d24
   1.258 +    vswp            d19, d26
   1.259 +    vadd.s16        q1,  q8,  q12
   1.260 +    vswp            d21, d28
   1.261 +    vsub.s16        q8,  q8,  q12
   1.262 +    vswp            d23, d30
   1.263 +.endif
   1.264 +    bx              lr
   1.265 +endfunc
   1.266 +.endm
   1.267 +
   1.268 +VP3_IDCT_END row
   1.269 +VP3_IDCT_END col
   1.270 +
   1.271 +function ff_vp3_idct_neon, export=1
   1.272 +    mov             ip,  lr
   1.273 +    mov             r2,  r0
   1.274 +    bl              vp3_idct_start_neon
   1.275 +    bl              vp3_idct_end_row_neon
   1.276 +    mov             r3,  #8
   1.277 +    bl              vp3_idct_core_neon
   1.278 +    bl              vp3_idct_end_col_neon
   1.279 +    mov             lr,  ip
   1.280 +    vpop            {d8-d15}
   1.281 +
   1.282 +    vshr.s16        q8,  q8,  #4
   1.283 +    vshr.s16        q9,  q9,  #4
   1.284 +    vshr.s16        q10, q10, #4
   1.285 +    vshr.s16        q11, q11, #4
   1.286 +    vshr.s16        q12, q12, #4
   1.287 +    vst1.64         {d16-d19}, [r0,:128]!
   1.288 +    vshr.s16        q13, q13, #4
   1.289 +    vshr.s16        q14, q14, #4
   1.290 +    vst1.64         {d20-d23}, [r0,:128]!
   1.291 +    vshr.s16        q15, q15, #4
   1.292 +    vst1.64         {d24-d27}, [r0,:128]!
   1.293 +    vst1.64         {d28-d31}, [r0,:128]!
   1.294 +    bx              lr
   1.295 +endfunc
   1.296 +
   1.297 +function ff_vp3_idct_put_neon, export=1
   1.298 +    mov             ip,  lr
   1.299 +    bl              vp3_idct_start_neon
   1.300 +    bl              vp3_idct_end_row_neon
   1.301 +    mov             r3,  #8
   1.302 +    add             r3,  r3,  #2048         // convert signed pixel to unsigned
   1.303 +    bl              vp3_idct_core_neon
   1.304 +    bl              vp3_idct_end_col_neon
   1.305 +    mov             lr,  ip
   1.306 +    vpop            {d8-d15}
   1.307 +
   1.308 +    vqshrun.s16     d0,  q8,  #4
   1.309 +    vqshrun.s16     d1,  q9,  #4
   1.310 +    vqshrun.s16     d2,  q10, #4
   1.311 +    vqshrun.s16     d3,  q11, #4
   1.312 +    vst1.64         {d0}, [r0,:64], r1
   1.313 +    vqshrun.s16     d4,  q12, #4
   1.314 +    vst1.64         {d1}, [r0,:64], r1
   1.315 +    vqshrun.s16     d5,  q13, #4
   1.316 +    vst1.64         {d2}, [r0,:64], r1
   1.317 +    vqshrun.s16     d6,  q14, #4
   1.318 +    vst1.64         {d3}, [r0,:64], r1
   1.319 +    vqshrun.s16     d7,  q15, #4
   1.320 +    vst1.64         {d4}, [r0,:64], r1
   1.321 +    vst1.64         {d5}, [r0,:64], r1
   1.322 +    vst1.64         {d6}, [r0,:64], r1
   1.323 +    vst1.64         {d7}, [r0,:64], r1
   1.324 +    bx              lr
   1.325 +endfunc
   1.326 +
   1.327 +function ff_vp3_idct_add_neon, export=1
   1.328 +    mov             ip,  lr
   1.329 +    bl              vp3_idct_start_neon
   1.330 +    bl              vp3_idct_end_row_neon
   1.331 +    mov             r3,  #8
   1.332 +    bl              vp3_idct_core_neon
   1.333 +    bl              vp3_idct_end_col_neon
   1.334 +    mov             lr,  ip
   1.335 +    vpop            {d8-d15}
   1.336 +    mov             r2,  r0
   1.337 +
   1.338 +    vld1.64         {d0}, [r0,:64], r1
   1.339 +    vshr.s16        q8,  q8,  #4
   1.340 +    vld1.64         {d1}, [r0,:64], r1
   1.341 +    vshr.s16        q9,  q9,  #4
   1.342 +    vld1.64         {d2}, [r0,:64], r1
   1.343 +    vaddw.u8        q8,  q8,  d0
   1.344 +    vld1.64         {d3}, [r0,:64], r1
   1.345 +    vaddw.u8        q9,  q9,  d1
   1.346 +    vld1.64         {d4}, [r0,:64], r1
   1.347 +    vshr.s16        q10, q10, #4
   1.348 +    vld1.64         {d5}, [r0,:64], r1
   1.349 +    vshr.s16        q11, q11, #4
   1.350 +    vld1.64         {d6}, [r0,:64], r1
   1.351 +    vqmovun.s16     d0,  q8
   1.352 +    vld1.64         {d7}, [r0,:64], r1
   1.353 +    vqmovun.s16     d1,  q9
   1.354 +    vaddw.u8        q10, q10, d2
   1.355 +    vaddw.u8        q11, q11, d3
   1.356 +    vshr.s16        q12, q12, #4
   1.357 +    vshr.s16        q13, q13, #4
   1.358 +    vqmovun.s16     d2,  q10
   1.359 +    vqmovun.s16     d3,  q11
   1.360 +    vaddw.u8        q12, q12, d4
   1.361 +    vaddw.u8        q13, q13, d5
   1.362 +    vshr.s16        q14, q14, #4
   1.363 +    vshr.s16        q15, q15, #4
   1.364 +    vst1.64         {d0}, [r2,:64], r1
   1.365 +    vqmovun.s16     d4,  q12
   1.366 +    vst1.64         {d1}, [r2,:64], r1
   1.367 +    vqmovun.s16     d5,  q13
   1.368 +    vst1.64         {d2}, [r2,:64], r1
   1.369 +    vaddw.u8        q14, q14, d6
   1.370 +    vst1.64         {d3}, [r2,:64], r1
   1.371 +    vaddw.u8        q15, q15, d7
   1.372 +    vst1.64         {d4}, [r2,:64], r1
   1.373 +    vqmovun.s16     d6,  q14
   1.374 +    vst1.64         {d5}, [r2,:64], r1
   1.375 +    vqmovun.s16     d7,  q15
   1.376 +    vst1.64         {d6}, [r2,:64], r1
   1.377 +    vst1.64         {d7}, [r2,:64], r1
   1.378 +    bx              lr
   1.379 +endfunc
   1.380 +
   1.381 +function ff_vp3_idct_dc_add_neon, export=1
   1.382 +    ldrsh           r2,  [r2]
   1.383 +    movw            r3,  #46341
   1.384 +    mul             r2,  r3,  r2
   1.385 +    smulwt          r2,  r3,  r2
   1.386 +    mov             r3,  r0
   1.387 +    vdup.16         q15, r2
   1.388 +    vrshr.s16       q15, q15, #4
   1.389 +
   1.390 +    vld1.8          {d0}, [r0,:64], r1
   1.391 +    vld1.8          {d1}, [r0,:64], r1
   1.392 +    vld1.8          {d2}, [r0,:64], r1
   1.393 +    vaddw.u8        q8,  q15, d0
   1.394 +    vld1.8          {d3}, [r0,:64], r1
   1.395 +    vaddw.u8        q9,  q15, d1
   1.396 +    vld1.8          {d4}, [r0,:64], r1
   1.397 +    vaddw.u8        q10, q15, d2
   1.398 +    vld1.8          {d5}, [r0,:64], r1
   1.399 +    vaddw.u8        q11, q15, d3
   1.400 +    vld1.8          {d6}, [r0,:64], r1
   1.401 +    vaddw.u8        q12, q15, d4
   1.402 +    vld1.8          {d7}, [r0,:64], r1
   1.403 +    vaddw.u8        q13, q15, d5
   1.404 +    vqmovun.s16     d0,  q8
   1.405 +    vaddw.u8        q14, q15, d6
   1.406 +    vqmovun.s16     d1,  q9
   1.407 +    vaddw.u8        q15, q15, d7
   1.408 +    vqmovun.s16     d2,  q10
   1.409 +    vst1.8          {d0}, [r3,:64], r1
   1.410 +    vqmovun.s16     d3,  q11
   1.411 +    vst1.8          {d1}, [r3,:64], r1
   1.412 +    vqmovun.s16     d4,  q12
   1.413 +    vst1.8          {d2}, [r3,:64], r1
   1.414 +    vqmovun.s16     d5,  q13
   1.415 +    vst1.8          {d3}, [r3,:64], r1
   1.416 +    vqmovun.s16     d6,  q14
   1.417 +    vst1.8          {d4}, [r3,:64], r1
   1.418 +    vqmovun.s16     d7,  q15
   1.419 +    vst1.8          {d5}, [r3,:64], r1
   1.420 +    vst1.8          {d6}, [r3,:64], r1
   1.421 +    vst1.8          {d7}, [r3,:64], r1
   1.422 +    bx              lr
   1.423 +endfunc