nengel@2: @ nengel@2: @ ARMv4 optimized DSP utils nengel@2: @ Copyright (c) 2004 AGAWA Koji nengel@2: @ nengel@2: @ This file is part of FFmpeg. nengel@2: @ nengel@2: @ FFmpeg is free software; you can redistribute it and/or nengel@2: @ modify it under the terms of the GNU Lesser General Public nengel@2: @ License as published by the Free Software Foundation; either nengel@2: @ version 2.1 of the License, or (at your option) any later version. nengel@2: @ nengel@2: @ FFmpeg is distributed in the hope that it will be useful, nengel@2: @ but WITHOUT ANY WARRANTY; without even the implied warranty of nengel@2: @ MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU nengel@2: @ Lesser General Public License for more details. nengel@2: @ nengel@2: @ You should have received a copy of the GNU Lesser General Public nengel@2: @ License along with FFmpeg; if not, write to the Free Software nengel@2: @ Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA nengel@2: @ nengel@2: nengel@2: #include "config.h" nengel@2: #include "asm.S" nengel@2: nengel@2: preserve8 nengel@2: nengel@2: #if !HAVE_PLD nengel@2: .macro pld reg nengel@2: .endm nengel@2: #endif nengel@2: nengel@2: #if HAVE_ARMV5TE nengel@2: function ff_prefetch_arm, export=1 nengel@2: subs r2, r2, #1 nengel@2: pld [r0] nengel@2: add r0, r0, r1 nengel@2: bne ff_prefetch_arm nengel@2: bx lr nengel@2: endfunc nengel@2: #endif nengel@2: nengel@2: .macro ALIGN_QWORD_D shift, Rd0, Rd1, Rd2, Rd3, Rn0, Rn1, Rn2, Rn3, Rn4 nengel@2: mov \Rd0, \Rn0, lsr #(\shift * 8) nengel@2: mov \Rd1, \Rn1, lsr #(\shift * 8) nengel@2: mov \Rd2, \Rn2, lsr #(\shift * 8) nengel@2: mov \Rd3, \Rn3, lsr #(\shift * 8) nengel@2: orr \Rd0, \Rd0, \Rn1, lsl #(32 - \shift * 8) nengel@2: orr \Rd1, \Rd1, \Rn2, lsl #(32 - \shift * 8) nengel@2: orr \Rd2, \Rd2, \Rn3, lsl #(32 - \shift * 8) nengel@2: orr \Rd3, \Rd3, \Rn4, lsl #(32 - \shift * 8) nengel@2: .endm nengel@2: .macro ALIGN_DWORD shift, R0, R1, R2 nengel@2: mov \R0, \R0, lsr #(\shift * 8) nengel@2: orr \R0, \R0, \R1, lsl #(32 - \shift * 8) nengel@2: mov \R1, \R1, lsr #(\shift * 8) nengel@2: orr \R1, \R1, \R2, lsl #(32 - \shift * 8) nengel@2: .endm nengel@2: .macro ALIGN_DWORD_D shift, Rdst0, Rdst1, Rsrc0, Rsrc1, Rsrc2 nengel@2: mov \Rdst0, \Rsrc0, lsr #(\shift * 8) nengel@2: mov \Rdst1, \Rsrc1, lsr #(\shift * 8) nengel@2: orr \Rdst0, \Rdst0, \Rsrc1, lsl #(32 - (\shift * 8)) nengel@2: orr \Rdst1, \Rdst1, \Rsrc2, lsl #(32 - (\shift * 8)) nengel@2: .endm nengel@2: nengel@2: .macro RND_AVG32 Rd0, Rd1, Rn0, Rn1, Rm0, Rm1, Rmask nengel@2: @ Rd = (Rn | Rm) - (((Rn ^ Rm) & ~0x01010101) >> 1) nengel@2: @ Rmask = 0xFEFEFEFE nengel@2: @ Rn = destroy nengel@2: eor \Rd0, \Rn0, \Rm0 nengel@2: eor \Rd1, \Rn1, \Rm1 nengel@2: orr \Rn0, \Rn0, \Rm0 nengel@2: orr \Rn1, \Rn1, \Rm1 nengel@2: and \Rd0, \Rd0, \Rmask nengel@2: and \Rd1, \Rd1, \Rmask nengel@2: sub \Rd0, \Rn0, \Rd0, lsr #1 nengel@2: sub \Rd1, \Rn1, \Rd1, lsr #1 nengel@2: .endm nengel@2: nengel@2: .macro NO_RND_AVG32 Rd0, Rd1, Rn0, Rn1, Rm0, Rm1, Rmask nengel@2: @ Rd = (Rn & Rm) - (((Rn ^ Rm) & ~0x01010101) >> 1) nengel@2: @ Rmask = 0xFEFEFEFE nengel@2: @ Rn = destroy nengel@2: eor \Rd0, \Rn0, \Rm0 nengel@2: eor \Rd1, \Rn1, \Rm1 nengel@2: and \Rn0, \Rn0, \Rm0 nengel@2: and \Rn1, \Rn1, \Rm1 nengel@2: and \Rd0, \Rd0, \Rmask nengel@2: and \Rd1, \Rd1, \Rmask nengel@2: add \Rd0, \Rn0, \Rd0, lsr #1 nengel@2: add \Rd1, \Rn1, \Rd1, lsr #1 nengel@2: .endm nengel@2: nengel@2: .macro JMP_ALIGN tmp, reg nengel@2: ands \tmp, \reg, #3 nengel@2: bic \reg, \reg, #3 nengel@2: beq 1f nengel@2: subs \tmp, \tmp, #1 nengel@2: beq 2f nengel@2: subs \tmp, \tmp, #1 nengel@2: beq 3f nengel@2: b 4f nengel@2: .endm nengel@2: nengel@2: @ ---------------------------------------------------------------- nengel@2: .align 5 nengel@2: function ff_put_pixels16_arm, export=1 nengel@2: @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h) nengel@2: @ block = word aligned, pixles = unaligned nengel@2: pld [r1] nengel@2: push {r4-r11, lr} nengel@2: JMP_ALIGN r5, r1 nengel@2: 1: nengel@2: ldm r1, {r4-r7} nengel@2: add r1, r1, r2 nengel@2: stm r0, {r4-r7} nengel@2: pld [r1] nengel@2: subs r3, r3, #1 nengel@2: add r0, r0, r2 nengel@2: bne 1b nengel@2: pop {r4-r11, pc} nengel@2: .align 5 nengel@2: 2: nengel@2: ldm r1, {r4-r8} nengel@2: add r1, r1, r2 nengel@2: ALIGN_QWORD_D 1, r9, r10, r11, r12, r4, r5, r6, r7, r8 nengel@2: pld [r1] nengel@2: subs r3, r3, #1 nengel@2: stm r0, {r9-r12} nengel@2: add r0, r0, r2 nengel@2: bne 2b nengel@2: pop {r4-r11, pc} nengel@2: .align 5 nengel@2: 3: nengel@2: ldm r1, {r4-r8} nengel@2: add r1, r1, r2 nengel@2: ALIGN_QWORD_D 2, r9, r10, r11, r12, r4, r5, r6, r7, r8 nengel@2: pld [r1] nengel@2: subs r3, r3, #1 nengel@2: stm r0, {r9-r12} nengel@2: add r0, r0, r2 nengel@2: bne 3b nengel@2: pop {r4-r11, pc} nengel@2: .align 5 nengel@2: 4: nengel@2: ldm r1, {r4-r8} nengel@2: add r1, r1, r2 nengel@2: ALIGN_QWORD_D 3, r9, r10, r11, r12, r4, r5, r6, r7, r8 nengel@2: pld [r1] nengel@2: subs r3, r3, #1 nengel@2: stm r0, {r9-r12} nengel@2: add r0, r0, r2 nengel@2: bne 4b nengel@2: pop {r4-r11,pc} nengel@2: endfunc nengel@2: nengel@2: @ ---------------------------------------------------------------- nengel@2: .align 5 nengel@2: function ff_put_pixels8_arm, export=1 nengel@2: @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h) nengel@2: @ block = word aligned, pixles = unaligned nengel@2: pld [r1] nengel@2: push {r4-r5,lr} nengel@2: JMP_ALIGN r5, r1 nengel@2: 1: nengel@2: ldm r1, {r4-r5} nengel@2: add r1, r1, r2 nengel@2: subs r3, r3, #1 nengel@2: pld [r1] nengel@2: stm r0, {r4-r5} nengel@2: add r0, r0, r2 nengel@2: bne 1b nengel@2: pop {r4-r5,pc} nengel@2: .align 5 nengel@2: 2: nengel@2: ldm r1, {r4-r5, r12} nengel@2: add r1, r1, r2 nengel@2: ALIGN_DWORD 1, r4, r5, r12 nengel@2: pld [r1] nengel@2: subs r3, r3, #1 nengel@2: stm r0, {r4-r5} nengel@2: add r0, r0, r2 nengel@2: bne 2b nengel@2: pop {r4-r5,pc} nengel@2: .align 5 nengel@2: 3: nengel@2: ldm r1, {r4-r5, r12} nengel@2: add r1, r1, r2 nengel@2: ALIGN_DWORD 2, r4, r5, r12 nengel@2: pld [r1] nengel@2: subs r3, r3, #1 nengel@2: stm r0, {r4-r5} nengel@2: add r0, r0, r2 nengel@2: bne 3b nengel@2: pop {r4-r5,pc} nengel@2: .align 5 nengel@2: 4: nengel@2: ldm r1, {r4-r5, r12} nengel@2: add r1, r1, r2 nengel@2: ALIGN_DWORD 3, r4, r5, r12 nengel@2: pld [r1] nengel@2: subs r3, r3, #1 nengel@2: stm r0, {r4-r5} nengel@2: add r0, r0, r2 nengel@2: bne 4b nengel@2: pop {r4-r5,pc} nengel@2: endfunc nengel@2: nengel@2: @ ---------------------------------------------------------------- nengel@2: .align 5 nengel@2: function ff_put_pixels8_x2_arm, export=1 nengel@2: @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h) nengel@2: @ block = word aligned, pixles = unaligned nengel@2: pld [r1] nengel@2: push {r4-r10,lr} nengel@2: ldr r12, =0xfefefefe nengel@2: JMP_ALIGN r5, r1 nengel@2: 1: nengel@2: ldm r1, {r4-r5, r10} nengel@2: add r1, r1, r2 nengel@2: ALIGN_DWORD_D 1, r6, r7, r4, r5, r10 nengel@2: pld [r1] nengel@2: RND_AVG32 r8, r9, r4, r5, r6, r7, r12 nengel@2: subs r3, r3, #1 nengel@2: stm r0, {r8-r9} nengel@2: add r0, r0, r2 nengel@2: bne 1b nengel@2: pop {r4-r10,pc} nengel@2: .align 5 nengel@2: 2: nengel@2: ldm r1, {r4-r5, r10} nengel@2: add r1, r1, r2 nengel@2: ALIGN_DWORD_D 1, r6, r7, r4, r5, r10 nengel@2: ALIGN_DWORD_D 2, r8, r9, r4, r5, r10 nengel@2: pld [r1] nengel@2: RND_AVG32 r4, r5, r6, r7, r8, r9, r12 nengel@2: subs r3, r3, #1 nengel@2: stm r0, {r4-r5} nengel@2: add r0, r0, r2 nengel@2: bne 2b nengel@2: pop {r4-r10,pc} nengel@2: .align 5 nengel@2: 3: nengel@2: ldm r1, {r4-r5, r10} nengel@2: add r1, r1, r2 nengel@2: ALIGN_DWORD_D 2, r6, r7, r4, r5, r10 nengel@2: ALIGN_DWORD_D 3, r8, r9, r4, r5, r10 nengel@2: pld [r1] nengel@2: RND_AVG32 r4, r5, r6, r7, r8, r9, r12 nengel@2: subs r3, r3, #1 nengel@2: stm r0, {r4-r5} nengel@2: add r0, r0, r2 nengel@2: bne 3b nengel@2: pop {r4-r10,pc} nengel@2: .align 5 nengel@2: 4: nengel@2: ldm r1, {r4-r5, r10} nengel@2: add r1, r1, r2 nengel@2: ALIGN_DWORD_D 3, r6, r7, r4, r5, r10 nengel@2: pld [r1] nengel@2: RND_AVG32 r8, r9, r6, r7, r5, r10, r12 nengel@2: subs r3, r3, #1 nengel@2: stm r0, {r8-r9} nengel@2: add r0, r0, r2 nengel@2: bne 4b nengel@2: pop {r4-r10,pc} nengel@2: endfunc nengel@2: nengel@2: .align 5 nengel@2: function ff_put_no_rnd_pixels8_x2_arm, export=1 nengel@2: @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h) nengel@2: @ block = word aligned, pixles = unaligned nengel@2: pld [r1] nengel@2: push {r4-r10,lr} nengel@2: ldr r12, =0xfefefefe nengel@2: JMP_ALIGN r5, r1 nengel@2: 1: nengel@2: ldm r1, {r4-r5, r10} nengel@2: add r1, r1, r2 nengel@2: ALIGN_DWORD_D 1, r6, r7, r4, r5, r10 nengel@2: pld [r1] nengel@2: NO_RND_AVG32 r8, r9, r4, r5, r6, r7, r12 nengel@2: subs r3, r3, #1 nengel@2: stm r0, {r8-r9} nengel@2: add r0, r0, r2 nengel@2: bne 1b nengel@2: pop {r4-r10,pc} nengel@2: .align 5 nengel@2: 2: nengel@2: ldm r1, {r4-r5, r10} nengel@2: add r1, r1, r2 nengel@2: ALIGN_DWORD_D 1, r6, r7, r4, r5, r10 nengel@2: ALIGN_DWORD_D 2, r8, r9, r4, r5, r10 nengel@2: pld [r1] nengel@2: NO_RND_AVG32 r4, r5, r6, r7, r8, r9, r12 nengel@2: subs r3, r3, #1 nengel@2: stm r0, {r4-r5} nengel@2: add r0, r0, r2 nengel@2: bne 2b nengel@2: pop {r4-r10,pc} nengel@2: .align 5 nengel@2: 3: nengel@2: ldm r1, {r4-r5, r10} nengel@2: add r1, r1, r2 nengel@2: ALIGN_DWORD_D 2, r6, r7, r4, r5, r10 nengel@2: ALIGN_DWORD_D 3, r8, r9, r4, r5, r10 nengel@2: pld [r1] nengel@2: NO_RND_AVG32 r4, r5, r6, r7, r8, r9, r12 nengel@2: subs r3, r3, #1 nengel@2: stm r0, {r4-r5} nengel@2: add r0, r0, r2 nengel@2: bne 3b nengel@2: pop {r4-r10,pc} nengel@2: .align 5 nengel@2: 4: nengel@2: ldm r1, {r4-r5, r10} nengel@2: add r1, r1, r2 nengel@2: ALIGN_DWORD_D 3, r6, r7, r4, r5, r10 nengel@2: pld [r1] nengel@2: NO_RND_AVG32 r8, r9, r6, r7, r5, r10, r12 nengel@2: subs r3, r3, #1 nengel@2: stm r0, {r8-r9} nengel@2: add r0, r0, r2 nengel@2: bne 4b nengel@2: pop {r4-r10,pc} nengel@2: endfunc nengel@2: nengel@2: nengel@2: @ ---------------------------------------------------------------- nengel@2: .align 5 nengel@2: function ff_put_pixels8_y2_arm, export=1 nengel@2: @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h) nengel@2: @ block = word aligned, pixles = unaligned nengel@2: pld [r1] nengel@2: push {r4-r11,lr} nengel@2: mov r3, r3, lsr #1 nengel@2: ldr r12, =0xfefefefe nengel@2: JMP_ALIGN r5, r1 nengel@2: 1: nengel@2: ldm r1, {r4-r5} nengel@2: add r1, r1, r2 nengel@2: 6: ldm r1, {r6-r7} nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: RND_AVG32 r8, r9, r4, r5, r6, r7, r12 nengel@2: ldm r1, {r4-r5} nengel@2: add r1, r1, r2 nengel@2: stm r0, {r8-r9} nengel@2: add r0, r0, r2 nengel@2: pld [r1] nengel@2: RND_AVG32 r8, r9, r6, r7, r4, r5, r12 nengel@2: subs r3, r3, #1 nengel@2: stm r0, {r8-r9} nengel@2: add r0, r0, r2 nengel@2: bne 6b nengel@2: pop {r4-r11,pc} nengel@2: .align 5 nengel@2: 2: nengel@2: ldm r1, {r4-r6} nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: ALIGN_DWORD 1, r4, r5, r6 nengel@2: 6: ldm r1, {r7-r9} nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: ALIGN_DWORD 1, r7, r8, r9 nengel@2: RND_AVG32 r10, r11, r4, r5, r7, r8, r12 nengel@2: stm r0, {r10-r11} nengel@2: add r0, r0, r2 nengel@2: ldm r1, {r4-r6} nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: ALIGN_DWORD 1, r4, r5, r6 nengel@2: subs r3, r3, #1 nengel@2: RND_AVG32 r10, r11, r7, r8, r4, r5, r12 nengel@2: stm r0, {r10-r11} nengel@2: add r0, r0, r2 nengel@2: bne 6b nengel@2: pop {r4-r11,pc} nengel@2: .align 5 nengel@2: 3: nengel@2: ldm r1, {r4-r6} nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: ALIGN_DWORD 2, r4, r5, r6 nengel@2: 6: ldm r1, {r7-r9} nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: ALIGN_DWORD 2, r7, r8, r9 nengel@2: RND_AVG32 r10, r11, r4, r5, r7, r8, r12 nengel@2: stm r0, {r10-r11} nengel@2: add r0, r0, r2 nengel@2: ldm r1, {r4-r6} nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: ALIGN_DWORD 2, r4, r5, r6 nengel@2: subs r3, r3, #1 nengel@2: RND_AVG32 r10, r11, r7, r8, r4, r5, r12 nengel@2: stm r0, {r10-r11} nengel@2: add r0, r0, r2 nengel@2: bne 6b nengel@2: pop {r4-r11,pc} nengel@2: .align 5 nengel@2: 4: nengel@2: ldm r1, {r4-r6} nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: ALIGN_DWORD 3, r4, r5, r6 nengel@2: 6: ldm r1, {r7-r9} nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: ALIGN_DWORD 3, r7, r8, r9 nengel@2: RND_AVG32 r10, r11, r4, r5, r7, r8, r12 nengel@2: stm r0, {r10-r11} nengel@2: add r0, r0, r2 nengel@2: ldm r1, {r4-r6} nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: ALIGN_DWORD 3, r4, r5, r6 nengel@2: subs r3, r3, #1 nengel@2: RND_AVG32 r10, r11, r7, r8, r4, r5, r12 nengel@2: stm r0, {r10-r11} nengel@2: add r0, r0, r2 nengel@2: bne 6b nengel@2: pop {r4-r11,pc} nengel@2: endfunc nengel@2: nengel@2: .align 5 nengel@2: function ff_put_no_rnd_pixels8_y2_arm, export=1 nengel@2: @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h) nengel@2: @ block = word aligned, pixles = unaligned nengel@2: pld [r1] nengel@2: push {r4-r11,lr} nengel@2: mov r3, r3, lsr #1 nengel@2: ldr r12, =0xfefefefe nengel@2: JMP_ALIGN r5, r1 nengel@2: 1: nengel@2: ldm r1, {r4-r5} nengel@2: add r1, r1, r2 nengel@2: 6: ldm r1, {r6-r7} nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: NO_RND_AVG32 r8, r9, r4, r5, r6, r7, r12 nengel@2: ldm r1, {r4-r5} nengel@2: add r1, r1, r2 nengel@2: stm r0, {r8-r9} nengel@2: add r0, r0, r2 nengel@2: pld [r1] nengel@2: NO_RND_AVG32 r8, r9, r6, r7, r4, r5, r12 nengel@2: subs r3, r3, #1 nengel@2: stm r0, {r8-r9} nengel@2: add r0, r0, r2 nengel@2: bne 6b nengel@2: pop {r4-r11,pc} nengel@2: .align 5 nengel@2: 2: nengel@2: ldm r1, {r4-r6} nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: ALIGN_DWORD 1, r4, r5, r6 nengel@2: 6: ldm r1, {r7-r9} nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: ALIGN_DWORD 1, r7, r8, r9 nengel@2: NO_RND_AVG32 r10, r11, r4, r5, r7, r8, r12 nengel@2: stm r0, {r10-r11} nengel@2: add r0, r0, r2 nengel@2: ldm r1, {r4-r6} nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: ALIGN_DWORD 1, r4, r5, r6 nengel@2: subs r3, r3, #1 nengel@2: NO_RND_AVG32 r10, r11, r7, r8, r4, r5, r12 nengel@2: stm r0, {r10-r11} nengel@2: add r0, r0, r2 nengel@2: bne 6b nengel@2: pop {r4-r11,pc} nengel@2: .align 5 nengel@2: 3: nengel@2: ldm r1, {r4-r6} nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: ALIGN_DWORD 2, r4, r5, r6 nengel@2: 6: ldm r1, {r7-r9} nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: ALIGN_DWORD 2, r7, r8, r9 nengel@2: NO_RND_AVG32 r10, r11, r4, r5, r7, r8, r12 nengel@2: stm r0, {r10-r11} nengel@2: add r0, r0, r2 nengel@2: ldm r1, {r4-r6} nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: ALIGN_DWORD 2, r4, r5, r6 nengel@2: subs r3, r3, #1 nengel@2: NO_RND_AVG32 r10, r11, r7, r8, r4, r5, r12 nengel@2: stm r0, {r10-r11} nengel@2: add r0, r0, r2 nengel@2: bne 6b nengel@2: pop {r4-r11,pc} nengel@2: .align 5 nengel@2: 4: nengel@2: ldm r1, {r4-r6} nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: ALIGN_DWORD 3, r4, r5, r6 nengel@2: 6: ldm r1, {r7-r9} nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: ALIGN_DWORD 3, r7, r8, r9 nengel@2: NO_RND_AVG32 r10, r11, r4, r5, r7, r8, r12 nengel@2: stm r0, {r10-r11} nengel@2: add r0, r0, r2 nengel@2: ldm r1, {r4-r6} nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: ALIGN_DWORD 3, r4, r5, r6 nengel@2: subs r3, r3, #1 nengel@2: NO_RND_AVG32 r10, r11, r7, r8, r4, r5, r12 nengel@2: stm r0, {r10-r11} nengel@2: add r0, r0, r2 nengel@2: bne 6b nengel@2: pop {r4-r11,pc} nengel@2: endfunc nengel@2: nengel@2: .ltorg nengel@2: nengel@2: @ ---------------------------------------------------------------- nengel@2: .macro RND_XY2_IT align, rnd nengel@2: @ l1= (a & 0x03030303) + (b & 0x03030303) ?(+ 0x02020202) nengel@2: @ h1= ((a & 0xFCFCFCFCUL) >> 2) + ((b & 0xFCFCFCFCUL) >> 2) nengel@2: .if \align == 0 nengel@2: ldm r1, {r6-r8} nengel@2: .elseif \align == 3 nengel@2: ldm r1, {r5-r7} nengel@2: .else nengel@2: ldm r1, {r8-r10} nengel@2: .endif nengel@2: add r1, r1, r2 nengel@2: pld [r1] nengel@2: .if \align == 0 nengel@2: ALIGN_DWORD_D 1, r4, r5, r6, r7, r8 nengel@2: .elseif \align == 1 nengel@2: ALIGN_DWORD_D 1, r4, r5, r8, r9, r10 nengel@2: ALIGN_DWORD_D 2, r6, r7, r8, r9, r10 nengel@2: .elseif \align == 2 nengel@2: ALIGN_DWORD_D 2, r4, r5, r8, r9, r10 nengel@2: ALIGN_DWORD_D 3, r6, r7, r8, r9, r10 nengel@2: .elseif \align == 3 nengel@2: ALIGN_DWORD_D 3, r4, r5, r5, r6, r7 nengel@2: .endif nengel@2: ldr r14, =0x03030303 nengel@2: tst r3, #1 nengel@2: and r8, r4, r14 nengel@2: and r9, r5, r14 nengel@2: and r10, r6, r14 nengel@2: and r11, r7, r14 nengel@2: andeq r14, r14, r14, \rnd #1 nengel@2: add r8, r8, r10 nengel@2: add r9, r9, r11 nengel@2: ldr r12, =0xfcfcfcfc >> 2 nengel@2: addeq r8, r8, r14 nengel@2: addeq r9, r9, r14 nengel@2: and r4, r12, r4, lsr #2 nengel@2: and r5, r12, r5, lsr #2 nengel@2: and r6, r12, r6, lsr #2 nengel@2: and r7, r12, r7, lsr #2 nengel@2: add r10, r4, r6 nengel@2: add r11, r5, r7 nengel@2: subs r3, r3, #1 nengel@2: .endm nengel@2: nengel@2: .macro RND_XY2_EXPAND align, rnd nengel@2: RND_XY2_IT \align, \rnd nengel@2: 6: push {r8-r11} nengel@2: RND_XY2_IT \align, \rnd nengel@2: pop {r4-r7} nengel@2: add r4, r4, r8 nengel@2: add r5, r5, r9 nengel@2: ldr r14, =0x0f0f0f0f nengel@2: add r6, r6, r10 nengel@2: add r7, r7, r11 nengel@2: and r4, r14, r4, lsr #2 nengel@2: and r5, r14, r5, lsr #2 nengel@2: add r4, r4, r6 nengel@2: add r5, r5, r7 nengel@2: stm r0, {r4-r5} nengel@2: add r0, r0, r2 nengel@2: bge 6b nengel@2: pop {r4-r11,pc} nengel@2: .endm nengel@2: nengel@2: .align 5 nengel@2: function ff_put_pixels8_xy2_arm, export=1 nengel@2: @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h) nengel@2: @ block = word aligned, pixles = unaligned nengel@2: pld [r1] nengel@2: push {r4-r11,lr} @ R14 is also called LR nengel@2: JMP_ALIGN r5, r1 nengel@2: 1: RND_XY2_EXPAND 0, lsl nengel@2: .align 5 nengel@2: 2: RND_XY2_EXPAND 1, lsl nengel@2: .align 5 nengel@2: 3: RND_XY2_EXPAND 2, lsl nengel@2: .align 5 nengel@2: 4: RND_XY2_EXPAND 3, lsl nengel@2: endfunc nengel@2: nengel@2: .align 5 nengel@2: function ff_put_no_rnd_pixels8_xy2_arm, export=1 nengel@2: @ void func(uint8_t *block, const uint8_t *pixels, int line_size, int h) nengel@2: @ block = word aligned, pixles = unaligned nengel@2: pld [r1] nengel@2: push {r4-r11,lr} nengel@2: JMP_ALIGN r5, r1 nengel@2: 1: RND_XY2_EXPAND 0, lsr nengel@2: .align 5 nengel@2: 2: RND_XY2_EXPAND 1, lsr nengel@2: .align 5 nengel@2: 3: RND_XY2_EXPAND 2, lsr nengel@2: .align 5 nengel@2: 4: RND_XY2_EXPAND 3, lsr nengel@2: endfunc nengel@2: nengel@2: .align 5 nengel@2: @ void ff_add_pixels_clamped_arm(int16_t *block, uint8_t *dest, int stride) nengel@2: function ff_add_pixels_clamped_arm, export=1 nengel@2: push {r4-r10} nengel@2: mov r10, #8 nengel@2: 1: nengel@2: ldr r4, [r1] /* load dest */ nengel@2: /* block[0] and block[1]*/ nengel@2: ldrsh r5, [r0] nengel@2: ldrsh r7, [r0, #2] nengel@2: and r6, r4, #0xFF nengel@2: and r8, r4, #0xFF00 nengel@2: add r6, r5, r6 nengel@2: add r8, r7, r8, lsr #8 nengel@2: mvn r5, r5 nengel@2: mvn r7, r7 nengel@2: tst r6, #0x100 nengel@2: movne r6, r5, lsr #24 nengel@2: tst r8, #0x100 nengel@2: movne r8, r7, lsr #24 nengel@2: mov r9, r6 nengel@2: ldrsh r5, [r0, #4] /* moved form [A] */ nengel@2: orr r9, r9, r8, lsl #8 nengel@2: /* block[2] and block[3] */ nengel@2: /* [A] */ nengel@2: ldrsh r7, [r0, #6] nengel@2: and r6, r4, #0xFF0000 nengel@2: and r8, r4, #0xFF000000 nengel@2: add r6, r5, r6, lsr #16 nengel@2: add r8, r7, r8, lsr #24 nengel@2: mvn r5, r5 nengel@2: mvn r7, r7 nengel@2: tst r6, #0x100 nengel@2: movne r6, r5, lsr #24 nengel@2: tst r8, #0x100 nengel@2: movne r8, r7, lsr #24 nengel@2: orr r9, r9, r6, lsl #16 nengel@2: ldr r4, [r1, #4] /* moved form [B] */ nengel@2: orr r9, r9, r8, lsl #24 nengel@2: /* store dest */ nengel@2: ldrsh r5, [r0, #8] /* moved form [C] */ nengel@2: str r9, [r1] nengel@2: nengel@2: /* load dest */ nengel@2: /* [B] */ nengel@2: /* block[4] and block[5] */ nengel@2: /* [C] */ nengel@2: ldrsh r7, [r0, #10] nengel@2: and r6, r4, #0xFF nengel@2: and r8, r4, #0xFF00 nengel@2: add r6, r5, r6 nengel@2: add r8, r7, r8, lsr #8 nengel@2: mvn r5, r5 nengel@2: mvn r7, r7 nengel@2: tst r6, #0x100 nengel@2: movne r6, r5, lsr #24 nengel@2: tst r8, #0x100 nengel@2: movne r8, r7, lsr #24 nengel@2: mov r9, r6 nengel@2: ldrsh r5, [r0, #12] /* moved from [D] */ nengel@2: orr r9, r9, r8, lsl #8 nengel@2: /* block[6] and block[7] */ nengel@2: /* [D] */ nengel@2: ldrsh r7, [r0, #14] nengel@2: and r6, r4, #0xFF0000 nengel@2: and r8, r4, #0xFF000000 nengel@2: add r6, r5, r6, lsr #16 nengel@2: add r8, r7, r8, lsr #24 nengel@2: mvn r5, r5 nengel@2: mvn r7, r7 nengel@2: tst r6, #0x100 nengel@2: movne r6, r5, lsr #24 nengel@2: tst r8, #0x100 nengel@2: movne r8, r7, lsr #24 nengel@2: orr r9, r9, r6, lsl #16 nengel@2: add r0, r0, #16 /* moved from [E] */ nengel@2: orr r9, r9, r8, lsl #24 nengel@2: subs r10, r10, #1 /* moved from [F] */ nengel@2: /* store dest */ nengel@2: str r9, [r1, #4] nengel@2: nengel@2: /* [E] */ nengel@2: /* [F] */ nengel@2: add r1, r1, r2 nengel@2: bne 1b nengel@2: nengel@2: pop {r4-r10} nengel@2: bx lr nengel@2: endfunc