annotate libavcodec/arm/rdft_neon.S @ 4:96e628866d41

naming some tasks to help debugging
author Nina Engelhardt <nengel@mailbox.tu-berlin.de>
date Wed, 19 Dec 2012 15:40:26 +0100
parents
children
rev   line source
nengel@2 1 /*
nengel@2 2 * ARM NEON optimised RDFT
nengel@2 3 * Copyright (c) 2009 Mans Rullgard <mans@mansr.com>
nengel@2 4 *
nengel@2 5 * This file is part of FFmpeg.
nengel@2 6 *
nengel@2 7 * FFmpeg is free software; you can redistribute it and/or
nengel@2 8 * modify it under the terms of the GNU Lesser General Public
nengel@2 9 * License as published by the Free Software Foundation; either
nengel@2 10 * version 2.1 of the License, or (at your option) any later version.
nengel@2 11 *
nengel@2 12 * FFmpeg is distributed in the hope that it will be useful,
nengel@2 13 * but WITHOUT ANY WARRANTY; without even the implied warranty of
nengel@2 14 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
nengel@2 15 * Lesser General Public License for more details.
nengel@2 16 *
nengel@2 17 * You should have received a copy of the GNU Lesser General Public
nengel@2 18 * License along with FFmpeg; if not, write to the Free Software
nengel@2 19 * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
nengel@2 20 */
nengel@2 21
nengel@2 22 #include "asm.S"
nengel@2 23
nengel@2 24 preserve8
nengel@2 25
nengel@2 26 function ff_rdft_calc_neon, export=1
nengel@2 27 push {r4-r8,lr}
nengel@2 28
nengel@2 29 ldr r6, [r0, #4] @ inverse
nengel@2 30 mov r4, r0
nengel@2 31 mov r5, r1
nengel@2 32
nengel@2 33 lsls r6, r6, #31
nengel@2 34 bne 1f
nengel@2 35 add r0, r4, #20
nengel@2 36 bl X(ff_fft_permute_neon)
nengel@2 37 add r0, r4, #20
nengel@2 38 mov r1, r5
nengel@2 39 bl X(ff_fft_calc_neon)
nengel@2 40 1:
nengel@2 41 ldr r12, [r4, #0] @ nbits
nengel@2 42 mov r2, #1
nengel@2 43 lsl r12, r2, r12
nengel@2 44 add r0, r5, #8
nengel@2 45 add r1, r5, r12, lsl #2
nengel@2 46 lsr r12, r12, #2
nengel@2 47 ldr r2, [r4, #12] @ tcos
nengel@2 48 sub r12, r12, #2
nengel@2 49 ldr r3, [r4, #16] @ tsin
nengel@2 50 mov r7, r0
nengel@2 51 sub r1, r1, #8
nengel@2 52 mov lr, r1
nengel@2 53 mov r8, #-8
nengel@2 54 vld1.32 {d0}, [r0,:64]! @ d1[0,1]
nengel@2 55 vld1.32 {d1}, [r1,:64], r8 @ d2[0,1]
nengel@2 56 vld1.32 {d4}, [r2,:64]! @ tcos[i]
nengel@2 57 vld1.32 {d5}, [r3,:64]! @ tsin[i]
nengel@2 58 vmov.f32 d18, #0.5 @ k1
nengel@2 59 vdup.32 d19, r6
nengel@2 60 pld [r0, #32]
nengel@2 61 veor d19, d18, d19 @ k2
nengel@2 62 vmov.i32 d16, #0
nengel@2 63 vmov.i32 d17, #1<<31
nengel@2 64 pld [r1, #-32]
nengel@2 65 vtrn.32 d16, d17
nengel@2 66 pld [r2, #32]
nengel@2 67 vrev64.32 d16, d16 @ d16=1,0 d17=0,1
nengel@2 68 pld [r3, #32]
nengel@2 69 2:
nengel@2 70 veor q1, q0, q8 @ -d1[0],d1[1], d2[0],-d2[1]
nengel@2 71 vld1.32 {d24}, [r0,:64]! @ d1[0,1]
nengel@2 72 vadd.f32 d0, d0, d3 @ d1[0]+d2[0], d1[1]-d2[1]
nengel@2 73 vld1.32 {d25}, [r1,:64], r8 @ d2[0,1]
nengel@2 74 vadd.f32 d1, d2, d1 @ -d1[0]+d2[0], d1[1]+d2[1]
nengel@2 75 veor q3, q12, q8 @ -d1[0],d1[1], d2[0],-d2[1]
nengel@2 76 pld [r0, #32]
nengel@2 77 vmul.f32 q10, q0, q9 @ ev.re, ev.im, od.im, od.re
nengel@2 78 pld [r1, #-32]
nengel@2 79 vadd.f32 d0, d24, d7 @ d1[0]+d2[0], d1[1]-d2[1]
nengel@2 80 vadd.f32 d1, d6, d25 @ -d1[0]+d2[0], d1[1]+d2[1]
nengel@2 81 vmul.f32 q11, q0, q9 @ ev.re, ev.im, od.im, od.re
nengel@2 82 veor d7, d21, d16 @ -od.im, od.re
nengel@2 83 vrev64.32 d3, d21 @ od.re, od.im
nengel@2 84 veor d6, d20, d17 @ ev.re,-ev.im
nengel@2 85 veor d2, d3, d16 @ -od.re, od.im
nengel@2 86 vmla.f32 d20, d3, d4[1]
nengel@2 87 vmla.f32 d20, d7, d5[1]
nengel@2 88 vmla.f32 d6, d2, d4[1]
nengel@2 89 vmla.f32 d6, d21, d5[1]
nengel@2 90 vld1.32 {d4}, [r2,:64]! @ tcos[i]
nengel@2 91 veor d7, d23, d16 @ -od.im, od.re
nengel@2 92 vld1.32 {d5}, [r3,:64]! @ tsin[i]
nengel@2 93 veor d24, d22, d17 @ ev.re,-ev.im
nengel@2 94 vrev64.32 d3, d23 @ od.re, od.im
nengel@2 95 pld [r2, #32]
nengel@2 96 veor d2, d3, d16 @ -od.re, od.im
nengel@2 97 pld [r3, #32]
nengel@2 98 vmla.f32 d22, d3, d4[0]
nengel@2 99 vmla.f32 d22, d7, d5[0]
nengel@2 100 vmla.f32 d24, d2, d4[0]
nengel@2 101 vmla.f32 d24, d23, d5[0]
nengel@2 102 vld1.32 {d0}, [r0,:64]! @ d1[0,1]
nengel@2 103 vld1.32 {d1}, [r1,:64], r8 @ d2[0,1]
nengel@2 104 vst1.32 {d20}, [r7,:64]!
nengel@2 105 vst1.32 {d6}, [lr,:64], r8
nengel@2 106 vst1.32 {d22}, [r7,:64]!
nengel@2 107 vst1.32 {d24}, [lr,:64], r8
nengel@2 108 subs r12, r12, #2
nengel@2 109 bgt 2b
nengel@2 110
nengel@2 111 veor q1, q0, q8 @ -d1[0],d1[1], d2[0],-d2[1]
nengel@2 112 vadd.f32 d0, d0, d3 @ d1[0]+d2[0], d1[1]-d2[1]
nengel@2 113 vadd.f32 d1, d2, d1 @ -d1[0]+d2[0], d1[1]+d2[1]
nengel@2 114 ldr r2, [r4, #8] @ sign_convention
nengel@2 115 vmul.f32 q10, q0, q9 @ ev.re, ev.im, od.im, od.re
nengel@2 116 add r0, r0, #4
nengel@2 117 bfc r2, #0, #31
nengel@2 118 vld1.32 {d0[0]}, [r0,:32]
nengel@2 119 veor d7, d21, d16 @ -od.im, od.re
nengel@2 120 vrev64.32 d3, d21 @ od.re, od.im
nengel@2 121 veor d6, d20, d17 @ ev.re,-ev.im
nengel@2 122 vld1.32 {d22}, [r5,:64]
nengel@2 123 vdup.32 d1, r2
nengel@2 124 vmov d23, d22
nengel@2 125 veor d2, d3, d16 @ -od.re, od.im
nengel@2 126 vtrn.32 d22, d23
nengel@2 127 veor d0, d0, d1
nengel@2 128 veor d23, d23, d17
nengel@2 129 vmla.f32 d20, d3, d4[1]
nengel@2 130 vmla.f32 d20, d7, d5[1]
nengel@2 131 vmla.f32 d6, d2, d4[1]
nengel@2 132 vmla.f32 d6, d21, d5[1]
nengel@2 133 vadd.f32 d22, d22, d23
nengel@2 134 vst1.32 {d20}, [r7,:64]
nengel@2 135 vst1.32 {d6}, [lr,:64]
nengel@2 136 vst1.32 {d0[0]}, [r0,:32]
nengel@2 137 vst1.32 {d22}, [r5,:64]
nengel@2 138
nengel@2 139 cmp r6, #0
nengel@2 140 popeq {r4-r8,pc}
nengel@2 141
nengel@2 142 vmul.f32 d22, d22, d18
nengel@2 143 vst1.32 {d22}, [r5,:64]
nengel@2 144 add r0, r4, #20
nengel@2 145 mov r1, r5
nengel@2 146 bl X(ff_fft_permute_neon)
nengel@2 147 add r0, r4, #20
nengel@2 148 mov r1, r5
nengel@2 149 pop {r4-r8,lr}
nengel@2 150 b X(ff_fft_calc_neon)
nengel@2 151 endfunc