Diff of /trunk/xvidcore/src/image/x86_asm/interpolate8x8_mmx.asm

-revision 851, Sat Feb 15 15:22:19 2003 UTC
+revision 1803, Wed Nov 26 23:35:50 2008 UTC
 Line 1
- ;/**************************************************************************
+ ;/*****************************************************************************
  ; *
  ; *     XVID MPEG-4 VIDEO CODEC
- ; *     mmx 8x8 block-based halfpel interpolation
+ ; *  - mmx 8x8 block-based halfpel interpolation -
+ ; *
+ ; *  Copyright(C) 2001 Peter Ross <pross@xvid.org>
+ ; *               2002-2008 Michael Militzer <michael@xvid.org>
  ; *
  ; *     This program is free software; you can redistribute it and/or modify
  ; *     it under the terms of the GNU General Public License as published by
-Line 15
+Line 18
  ; *
  ; *     You should have received a copy of the GNU General Public License
  ; *     along with this program; if not, write to the Free Software
- ; *     Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
+ ; *  Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307 USA
- ; *
- ; *************************************************************************/
- ;/**************************************************************************
- ; *
- ; *     History:
- ; *
- ; * 05.10.2002  added some qpel mmx code - Isibaar
- ; * 06.07.2002  mmx cleanup - Isibaar
- ; *     22.12.2001      inital version; (c)2001 peter ross <pross@cs.rmit.edu.au>
  ; *
- ; *************************************************************************/
+ ; ****************************************************************************/
+ %include "nasm.inc"
- bits 32
+ ;=============================================================================
+ ; Read only data
- %macro cglobal 1
+ ;=============================================================================
-         %ifdef PREFIX
-                 global _%1
-                 %define %1 _%1
-         %else
-                 global %1
-         %endif
- %endmacro
- section .data
+ DATA
- align 16
+ ;-----------------------------------------------------------------------------
- ;===========================================================================
  ; (16 - r) rounding table
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- rounding_lowpass_mmx
+ ALIGN SECTION_ALIGN
+ rounding_lowpass_mmx:
  times 4 dw 16
  times 4 dw 15
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ; (1 - r) rounding table
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- rounding1_mmx
+ rounding1_mmx:
  times 4 dw 1
  times 4 dw 0
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ; (2 - r) rounding table
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- rounding2_mmx
+ rounding2_mmx:
  times 4 dw 2
  times 4 dw 1
- mmx_one
+ mmx_one:
  times 8 db 1
- mmx_two
+ mmx_two:
  times 8 db 2
- mmx_three
+ mmx_three:
  times 8 db 3
- mmx_five
+ mmx_five:
  times 4 dw 5
- mmx_mask
+ mmx_mask:
  times 8 db 254
- mmx_mask2
+ mmx_mask2:
  times 8 db 252
- section .text
+ ;=============================================================================
+ ; Code
+ ;=============================================================================
+ SECTION .rotext align=SECTION_ALIGN
+ cglobal interpolate8x8_halfpel_h_mmx
+ cglobal interpolate8x8_halfpel_v_mmx
+ cglobal interpolate8x8_halfpel_hv_mmx
+ cglobal interpolate8x4_halfpel_h_mmx
+ cglobal interpolate8x4_halfpel_v_mmx
+ cglobal interpolate8x4_halfpel_hv_mmx
+ cglobal interpolate8x8_avg4_mmx
+ cglobal interpolate8x8_avg2_mmx
+ cglobal interpolate8x8_6tap_lowpass_h_mmx
+ cglobal interpolate8x8_6tap_lowpass_v_mmx
+ cglobal interpolate8x8_halfpel_add_mmx
+ cglobal interpolate8x8_halfpel_h_add_mmx
+ cglobal interpolate8x8_halfpel_v_add_mmx
+ cglobal interpolate8x8_halfpel_hv_add_mmx
  %macro  CALC_AVG 6
          punpcklbw %3, %6
-Line 100
+Line 109
          psrlw %1, 1                     ; mm01 >>= 1
          psrlw %2, 1
  %endmacro
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
  ; void interpolate8x8_halfpel_h_mmx(uint8_t * const dst,
  ;                                               const uint8_t * const src,
  ;                                               const uint32_t stride,
  ;                                               const uint32_t rounding);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  %macro COPY_H_MMX 0
-                 movq mm0, [esi]
+   movq mm0, [TMP0]
-                 movq mm2, [esi + 1]
+   movq mm2, [TMP0 + 1]
                  movq mm1, mm0
                  movq mm3, mm2
-Line 125
+Line 133
                  CALC_AVG mm0, mm1, mm2, mm3, mm7, mm6
                  packuswb mm0, mm1
-                 movq [edi], mm0                 ; [dst] = mm01
+   movq [_EAX], mm0           ; [dst] = mm01
-                 add esi, edx            ; src += stride
+   add TMP0, TMP1              ; src += stride
-                 add edi, edx            ; dst += stride
+   add _EAX, TMP1              ; dst += stride
  %endmacro
- align 16
+ ALIGN SECTION_ALIGN
- cglobal interpolate8x8_halfpel_h_mmx
+ interpolate8x8_halfpel_h_mmx:
- interpolate8x8_halfpel_h_mmx
-                 push    esi
-                 push    edi
-                 mov     eax, [esp + 8 + 16]             ; rounding
+   mov _EAX, prm4       ; rounding
+   lea TMP0, [rounding1_mmx]
- interpolate8x8_halfpel_h_mmx.start
+   movq mm7, [TMP0 + _EAX * 8]
-                 movq mm7, [rounding1_mmx + eax * 8]
+   mov _EAX, prm1        ; dst
-                 mov     edi, [esp + 8 + 4]              ; dst
+   mov TMP0, prm2        ; src
-                 mov     esi, [esp + 8 + 8]              ; src
+   mov TMP1, prm3        ; stride
-                 mov     edx, [esp + 8 + 12]     ; stride
                  pxor    mm6, mm6                ; zero
-Line 158
+Line 161
                  COPY_H_MMX
                  COPY_H_MMX
-                 pop edi
-                 pop esi
                  ret
+ ENDFUNC
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
  ; void interpolate8x8_halfpel_v_mmx(uint8_t * const dst,
  ;                                               const uint8_t * const src,
  ;                                               const uint32_t stride,
  ;                                               const uint32_t rounding);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  %macro COPY_V_MMX 0
-                 movq mm0, [esi]
+   movq mm0, [TMP0]
-                 movq mm2, [esi + edx]
+   movq mm2, [TMP0 + TMP1]
                  movq mm1, mm0
                  movq mm3, mm2
-Line 185
+Line 186
                  CALC_AVG mm0, mm1, mm2, mm3, mm7, mm6
                  packuswb mm0, mm1
-                 movq [edi], mm0                 ; [dst] = mm01
+   movq [_EAX], mm0      ; [dst] = mm01
-                 add esi, edx            ; src += stride
+   add TMP0, TMP1        ; src += stride
-                 add edi, edx            ; dst += stride
+   add _EAX, TMP1        ; dst += stride
  %endmacro
- align 16
+ ALIGN SECTION_ALIGN
- cglobal interpolate8x8_halfpel_v_mmx
+ interpolate8x8_halfpel_v_mmx:
- interpolate8x8_halfpel_v_mmx
-                 push    esi
-                 push    edi
-                 mov     eax, [esp + 8 + 16]             ; rounding
- interpolate8x8_halfpel_v_mmx.start
-                 movq mm7, [rounding1_mmx + eax * 8]
-                 mov     edi, [esp + 8 + 4]              ; dst
+   mov _EAX, prm4       ; rounding
-                 mov     esi, [esp + 8 + 8]              ; src
+   lea TMP0, [rounding1_mmx]
-                 mov     edx, [esp + 8 + 12]     ; stride
+   movq mm7, [TMP0 + _EAX * 8]
+   mov _EAX, prm1       ; dst
+   mov TMP0, prm2       ; src
+   mov TMP1, prm3       ; stride
                  pxor    mm6, mm6                ; zero
-Line 219
+Line 215
                  COPY_V_MMX
                  COPY_V_MMX
-                 pop edi
-                 pop esi
                  ret
+ ENDFUNC
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
  ; void interpolate8x8_halfpel_hv_mmx(uint8_t * const dst,
  ;                                               const uint8_t * const src,
-Line 233
+Line 227
  ;                                               const uint32_t rounding);
  ;
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  %macro COPY_HV_MMX 0
                  ; current row
+   movq mm0, [TMP0]
-                 movq mm0, [esi]
+   movq mm2, [TMP0 + 1]
-                 movq mm2, [esi + 1]
                  movq mm1, mm0
                  movq mm3, mm2
-Line 253
+Line 246
                  paddusw mm1, mm3
                  ; next row
+   movq mm4, [TMP0 + TMP1]
-                 movq mm4, [esi + edx]
+   movq mm2, [TMP0 + TMP1 + 1]
-                 movq mm2, [esi + edx + 1]
                  movq mm5, mm4
                  movq mm3, mm2
-Line 269
+Line 261
                  paddusw mm5, mm3
                  ; add current + next row
                  paddusw mm0, mm4                ; mm01 += mm45
                  paddusw mm1, mm5
                  paddusw mm0, mm7                ; mm01 += rounding2
-Line 279
+Line 270
                  psrlw mm1, 2
                  packuswb mm0, mm1
-                 movq [edi], mm0                 ; [dst] = mm01
+   movq [_EAX], mm0           ; [dst] = mm01
-                 add esi, edx            ; src += stride
+   add TMP0, TMP1             ; src += stride
-                 add edi, edx            ; dst += stride
+   add _EAX, TMP1             ; dst += stride
  %endmacro
- align 16
+ ALIGN SECTION_ALIGN
- cglobal interpolate8x8_halfpel_hv_mmx
+ interpolate8x8_halfpel_hv_mmx:
- interpolate8x8_halfpel_hv_mmx
-                 push    esi
-                 push    edi
-                 mov     eax, [esp + 8 + 16]             ; rounding
+   mov _EAX, prm4    ; rounding
- interpolate8x8_halfpel_hv_mmx.start
+   lea TMP0, [rounding2_mmx]
+   movq mm7, [TMP0 + _EAX * 8]
-                 movq mm7, [rounding2_mmx + eax * 8]
+   mov _EAX, prm1    ; dst
+   mov TMP0, prm2    ; src
-                 mov     edi, [esp + 8 + 4]              ; dst
-                 mov     esi, [esp + 8 + 8]              ; src
-                 mov eax, 8
                  pxor    mm6, mm6                ; zero
-                 mov edx, [esp + 8 + 12] ; stride
+   mov TMP1, prm3    ; stride
                  COPY_HV_MMX
                  COPY_HV_MMX
-Line 315
+Line 299
                  COPY_HV_MMX
                  COPY_HV_MMX
-                 pop edi
+   ret
-                 pop esi
+ ENDFUNC
+ ;-----------------------------------------------------------------------------
+ ;
+ ; void interpolate8x4_halfpel_h_mmx(uint8_t * const dst,
+ ;                       const uint8_t * const src,
+ ;                       const uint32_t stride,
+ ;                       const uint32_t rounding);
+ ;
+ ;-----------------------------------------------------------------------------
+ ALIGN SECTION_ALIGN
+ interpolate8x4_halfpel_h_mmx:
+   mov _EAX, prm4        ; rounding
+   lea TMP0, [rounding1_mmx]
+   movq mm7, [TMP0 + _EAX * 8]
+   mov _EAX, prm1        ; dst
+   mov TMP0, prm2        ; src
+   mov TMP1, prm3        ; stride
+   pxor mm6, mm6         ; zero
+   COPY_H_MMX
+   COPY_H_MMX
+   COPY_H_MMX
+   COPY_H_MMX
+   ret
+ ENDFUNC
+ ;-----------------------------------------------------------------------------
+ ;
+ ; void interpolate8x4_halfpel_v_mmx(uint8_t * const dst,
+ ;                       const uint8_t * const src,
+ ;                       const uint32_t stride,
+ ;                       const uint32_t rounding);
+ ;
+ ;-----------------------------------------------------------------------------
+ ALIGN SECTION_ALIGN
+ interpolate8x4_halfpel_v_mmx:
+   mov _EAX, prm4       ; rounding
+   lea TMP0, [rounding1_mmx]
+   movq mm7, [TMP0 + _EAX * 8]
+   mov _EAX, prm1       ; dst
+   mov TMP0, prm2       ; src
+   mov TMP1, prm3       ; stride
+   pxor mm6, mm6        ; zero
+   COPY_V_MMX
+   COPY_V_MMX
+   COPY_V_MMX
+   COPY_V_MMX
                  ret
+ ENDFUNC
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
+ ;
+ ; void interpolate8x4_halfpel_hv_mmx(uint8_t * const dst,
+ ;                       const uint8_t * const src,
+ ;                       const uint32_t stride,
+ ;                       const uint32_t rounding);
+ ;
+ ;
+ ;-----------------------------------------------------------------------------
+ ALIGN SECTION_ALIGN
+ interpolate8x4_halfpel_hv_mmx:
+   mov _EAX, prm4    ; rounding
+   lea TMP0, [rounding2_mmx]
+   movq mm7, [TMP0 + _EAX * 8]
+   mov _EAX, prm1    ; dst
+   mov TMP0, prm2    ; src
+   pxor mm6, mm6     ; zero
+   mov TMP1, prm3    ; stride
+   COPY_HV_MMX
+   COPY_HV_MMX
+   COPY_HV_MMX
+   COPY_HV_MMX
+   ret
+ ENDFUNC
+ ;-----------------------------------------------------------------------------
  ;
  ; void interpolate8x8_avg2_mmx(uint8_t const *dst,
  ;                                                          const uint8_t * const src1,
-Line 329
+Line 406
  ;                                                          const uint32_t rounding,
  ;                                                          const uint32_t height);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  %macro AVG2_MMX_RND0 0
-         movq    mm0, [eax]                      ; src1 -> mm0
+   movq mm0, [_EAX]           ; src1 -> mm0
-         movq    mm1, [ebx]                      ; src2 -> mm1
+   movq mm1, [_EBX]           ; src2 -> mm1
-         movq    mm4, [eax+edx]
+   movq mm4, [_EAX+TMP1]
-         movq    mm5, [ebx+edx]
+   movq mm5, [_EBX+TMP1]
          movq    mm2, mm0                        ; src1 -> mm2
          movq    mm3, mm1                        ; src2 -> mm3
-Line 371
+Line 448
          paddb   mm4, mm5
          paddb   mm4, mm3
-         lea             eax,[eax+2*edx]
+   lea _EAX, [_EAX+2*TMP1]
-         lea             ebx,[ebx+2*edx]
+   lea _EBX, [_EBX+2*TMP1]
-         movq    [ecx], mm0                      ; (src1 + src2 + 1) / 2 -> dst
+   movq [TMP0], mm0           ; (src1 + src2 + 1) / 2 -> dst
-         movq    [ecx+edx], mm4
+   movq [TMP0+TMP1], mm4
  %endmacro
  %macro AVG2_MMX_RND1 0
-         movq    mm0, [eax]                      ; src1 -> mm0
+   movq mm0, [_EAX]           ; src1 -> mm0
-         movq    mm1, [ebx]                      ; src2 -> mm1
+   movq mm1, [_EBX]           ; src2 -> mm1
-         movq    mm4, [eax+edx]
+   movq mm4, [_EAX+TMP1]
-         movq    mm5, [ebx+edx]
+   movq mm5, [_EBX+TMP1]
          movq    mm2, mm0                        ; src1 -> mm2
          movq    mm3, mm1                        ; src2 -> mm3
-Line 418
+Line 495
          paddb   mm4, mm5
          paddb   mm4, mm3
-         lea             eax,[eax+2*edx]
+   lea _EAX, [_EAX+2*TMP1]
-         lea             ebx,[ebx+2*edx]
+   lea _EBX, [_EBX+2*TMP1]
-         movq    [ecx], mm0                      ; (src1 + src2 + 1) / 2 -> dst
+   movq [TMP0], mm0           ; (src1 + src2 + 1) / 2 -> dst
-         movq    [ecx+edx], mm4
+   movq [TMP0+TMP1], mm4
  %endmacro
- align 16
+ ALIGN SECTION_ALIGN
- cglobal interpolate8x8_avg2_mmx
+ interpolate8x8_avg2_mmx:
- interpolate8x8_avg2_mmx
-         push ebx
-         mov     eax, [esp + 4 + 20]             ; rounding
+   mov eax, prm5d   ; rounding
-         test eax, eax
+   test _EAX, _EAX
          jnz near .rounding1
-         mov eax, [esp + 4 + 24]         ; height -> eax
+   mov eax, prm6d   ; height -> _EAX
-         sub eax, 8
+   sub _EAX, 8
-         test eax, eax
+   test _EAX, _EAX
-         mov ecx, [esp + 4 + 4]          ; dst -> edi
+   mov TMP0, prm1   ; dst -> edi
-         mov eax, [esp + 4 + 8]          ; src1 -> esi
+   mov _EAX, prm2   ; src1 -> esi
-         mov     ebx, [esp + 4 + 12]             ; src2 -> eax
+   mov TMP1, prm4   ; stride -> TMP1
-         mov     edx, [esp + 4 + 16]             ; stride -> edx
+   push _EBX
+ %ifdef ARCH_IS_X86_64
+   mov _EBX, prm3
+ %else
+   mov _EBX, [esp + 4 + 12]   ; src2 -> eax
+ %endif
          movq mm7, [mmx_one]
          jz near .start0
          AVG2_MMX_RND0
-         lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
- .start0
+ .start0:
          AVG2_MMX_RND0
-         lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
          AVG2_MMX_RND0
-         lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
          AVG2_MMX_RND0
-         lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
          AVG2_MMX_RND0
-         pop     ebx
+   pop _EBX
          ret
- .rounding1
+ .rounding1:
-         mov eax, [esp + 4 + 24]         ; height -> eax
+   mov eax, prm6d        ; height -> _EAX
-         sub eax, 8
+   sub _EAX, 8
-         test eax, eax
+   test _EAX, _EAX
-         mov ecx, [esp + 4 + 4]          ; dst -> edi
+   mov TMP0, prm1        ; dst -> edi
-         mov eax, [esp + 4 + 8]          ; src1 -> esi
+   mov _EAX, prm2        ; src1 -> esi
-         mov     ebx, [esp + 4 + 12]             ; src2 -> eax
+   mov TMP1, prm4        ; stride -> TMP1
-         mov     edx, [esp + 4 + 16]             ; stride -> edx
+   push _EBX
+ %ifdef ARCH_IS_X86_64
+   mov _EBX, prm3
+ %else
+   mov _EBX, [esp + 4 + 12]   ; src2 -> eax
+ %endif
          movq mm7, [mmx_one]
          jz near .start1
          AVG2_MMX_RND1
-         lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
- .start1
+ .start1:
          AVG2_MMX_RND1
-         lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
          AVG2_MMX_RND1
-         lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
          AVG2_MMX_RND1
-         lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
          AVG2_MMX_RND1
-         pop ebx
+   pop _EBX
          ret
+ ENDFUNC
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
  ; void interpolate8x8_avg4_mmx(uint8_t const *dst,
  ;                                                          const uint8_t * const src1,
-Line 506
+Line 593
  ;                                                          const uint32_t stride,
  ;                                                          const uint32_t rounding);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  %macro AVG4_MMX_RND0 0
-         movq    mm0, [eax]                      ; src1 -> mm0
+   movq mm0, [_EAX]           ; src1 -> mm0
-         movq    mm1, [ebx]                      ; src2 -> mm1
+   movq mm1, [_EBX]           ; src2 -> mm1
          movq    mm2, mm0
          movq    mm3, mm1
-Line 524
+Line 611
          psrlq   mm0, 2
          psrlq   mm1, 2
-         lea             eax, [eax+edx]
+   lea _EAX, [_EAX+TMP1]
-         lea             ebx, [ebx+edx]
+   lea _EBX, [_EBX+TMP1]
          paddb   mm0, mm1
          paddb   mm2, mm3
-         movq    mm4, [esi]                      ; src3 -> mm0
+   movq mm4, [_ESI]           ; src3 -> mm0
-         movq    mm5, [edi]                      ; src4 -> mm1
+   movq mm5, [_EDI]           ; src4 -> mm1
          movq    mm1, mm4
          movq    mm3, mm5
-Line 557
+Line 644
          psrlq   mm2, 2
          paddb   mm0, mm2
-         lea             esi, [esi+edx]
+   lea _ESI, [_ESI+TMP1]
-         lea             edi, [edi+edx]
+   lea _EDI, [_EDI+TMP1]
-         movq    [ecx], mm0                      ; (src1 + src2 + src3 + src4 + 2) / 4 -> dst
+   movq [TMP0], mm0           ; (src1 + src2 + src3 + src4 + 2) / 4 -> dst
  %endmacro
  %macro AVG4_MMX_RND1 0
-         movq    mm0, [eax]                      ; src1 -> mm0
+   movq mm0, [_EAX]           ; src1 -> mm0
-         movq    mm1, [ebx]                      ; src2 -> mm1
+   movq mm1, [_EBX]           ; src2 -> mm1
          movq    mm2, mm0
          movq    mm3, mm1
-Line 579
+Line 666
          psrlq   mm0, 2
          psrlq   mm1, 2
-         lea             eax,[eax+edx]
+   lea _EAX,[_EAX+TMP1]
-         lea             ebx,[ebx+edx]
+   lea _EBX,[_EBX+TMP1]
          paddb   mm0, mm1
          paddb   mm2, mm3
-         movq    mm4, [esi]                      ; src3 -> mm0
+   movq mm4, [_ESI]           ; src3 -> mm0
-         movq    mm5, [edi]                      ; src4 -> mm1
+   movq mm5, [_EDI]           ; src4 -> mm1
          movq    mm1, mm4
          movq    mm3, mm5
-Line 612
+Line 699
          psrlq   mm2, 2
          paddb   mm0, mm2
-         lea             esi,[esi+edx]
+   lea _ESI,[_ESI+TMP1]
-         lea             edi,[edi+edx]
+   lea _EDI,[_EDI+TMP1]
-         movq    [ecx], mm0                      ; (src1 + src2 + src3 + src4 + 2) / 4 -> dst
+   movq [TMP0], mm0           ; (src1 + src2 + src3 + src4 + 2) / 4 -> dst
  %endmacro
- align 16
+ ALIGN SECTION_ALIGN
- cglobal interpolate8x8_avg4_mmx
+ interpolate8x8_avg4_mmx:
- interpolate8x8_avg4_mmx
+   mov eax, prm7d      ; rounding
+   test _EAX, _EAX
+   mov TMP0, prm1      ; dst -> edi
+   mov _EAX, prm5      ; src4 -> edi
+   mov TMP1d, prm6d    ; stride -> TMP1
+   push _EBX
+   push _EDI
+   push _ESI
-         push ebx
+   mov _EDI, _EAX
-         push edi
-         push esi
+ %ifdef ARCH_IS_X86_64
+   mov _EAX, prm2
-         mov     eax, [esp + 12 + 28]            ; rounding
+   mov _EBX, prm3
+   mov _ESI, prm4
-         test eax, eax
+ %else
+   mov _EAX, [esp + 12 +  8]      ; src1 -> esi
-         mov ecx, [esp + 12 + 4]                 ; dst -> edi
+   mov _EBX, [esp + 12 + 12]      ; src2 -> _EAX
-         mov eax, [esp + 12 + 8]                 ; src1 -> esi
+   mov _ESI, [esp + 12 + 16]      ; src3 -> esi
-         mov     ebx, [esp + 12 + 12]            ; src2 -> eax
+ %endif
-         mov     esi, [esp + 12 + 16]            ; src3 -> esi
-         mov     edi, [esp + 12 + 20]            ; src4 -> edi
-         mov     edx, [esp + 12 + 24]            ; stride -> edx
          movq mm7, [mmx_one]
          jnz near .rounding1
          AVG4_MMX_RND0
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          AVG4_MMX_RND0
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          AVG4_MMX_RND0
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          AVG4_MMX_RND0
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          AVG4_MMX_RND0
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          AVG4_MMX_RND0
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          AVG4_MMX_RND0
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          AVG4_MMX_RND0
-         pop esi
+   pop _ESI
-         pop edi
+   pop _EDI
-         pop     ebx
+   pop _EBX
          ret
- .rounding1
+ .rounding1:
          AVG4_MMX_RND1
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          AVG4_MMX_RND1
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          AVG4_MMX_RND1
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          AVG4_MMX_RND1
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          AVG4_MMX_RND1
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          AVG4_MMX_RND1
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          AVG4_MMX_RND1
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          AVG4_MMX_RND1
-         pop esi
+   pop _ESI
-         pop edi
+   pop _EDI
-         pop ebx
+   pop _EBX
          ret
+ ENDFUNC
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
  ; void interpolate8x8_6tap_lowpass_h_mmx(uint8_t const *dst,
  ;                                                                            const uint8_t * const src,
  ;                                                                            const uint32_t stride,
  ;                                                                            const uint32_t rounding);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  %macro LOWPASS_6TAP_H_MMX 0
-         movq    mm0, [eax]
+   movq mm0, [_EAX]
-         movq    mm2, [eax+1]
+   movq mm2, [_EAX+1]
          movq    mm1, mm0
          movq    mm3, mm2
-Line 713
+Line 809
          psllw   mm0, 2
          psllw   mm1, 2
-         movq    mm2, [eax-1]
+   movq mm2, [_EAX-1]
-         movq    mm4, [eax+2]
+   movq mm4, [_EAX+2]
          movq    mm3, mm2
          movq    mm5, mm4
-Line 734
+Line 830
          pmullw  mm0, [mmx_five]
          pmullw  mm1, [mmx_five]
-         movq    mm2, [eax-2]
+   movq mm2, [_EAX-2]
-         movq    mm4, [eax+3]
+   movq mm4, [_EAX+3]
          movq    mm3, mm2
          movq    mm5, mm4
-Line 758
+Line 854
          psraw   mm0, 5
          psraw   mm1, 5
-         lea             eax, [eax+edx]
+   lea _EAX, [_EAX+TMP1]
          packuswb mm0, mm1
-         movq    [ecx], mm0
+   movq [TMP0], mm0
  %endmacro
- align 16
+ ALIGN SECTION_ALIGN
- cglobal interpolate8x8_6tap_lowpass_h_mmx
+ interpolate8x8_6tap_lowpass_h_mmx:
- interpolate8x8_6tap_lowpass_h_mmx
-         mov     eax, [esp + 16]                 ; rounding
+   mov _EAX, prm4           ; rounding
-         movq mm6, [rounding_lowpass_mmx + eax * 8]
+   lea TMP0, [rounding_lowpass_mmx]
+   movq mm6, [TMP0 + _EAX * 8]
-         mov ecx, [esp + 4]                      ; dst -> edi
+   mov TMP0, prm1           ; dst -> edi
-         mov eax, [esp + 8]                      ; src -> esi
+   mov _EAX, prm2           ; src -> esi
-         mov     edx, [esp + 12]                 ; stride -> edx
+   mov TMP1, prm3           ; stride -> edx
          pxor mm7, mm7
          LOWPASS_6TAP_H_MMX
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          LOWPASS_6TAP_H_MMX
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          LOWPASS_6TAP_H_MMX
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          LOWPASS_6TAP_H_MMX
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          LOWPASS_6TAP_H_MMX
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          LOWPASS_6TAP_H_MMX
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          LOWPASS_6TAP_H_MMX
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          LOWPASS_6TAP_H_MMX
          ret
+ ENDFUNC
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
  ; void interpolate8x8_6tap_lowpass_v_mmx(uint8_t const *dst,
  ;                                                                                const uint8_t * const src,
  ;                                                                                const uint32_t stride,
  ;                                                                            const uint32_t rounding);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  %macro LOWPASS_6TAP_V_MMX 0
-         movq    mm0, [eax]
+   movq mm0, [_EAX]
-         movq    mm2, [eax+edx]
+   movq mm2, [_EAX+TMP1]
          movq    mm1, mm0
          movq    mm3, mm2
-Line 823
+Line 920
          psllw   mm0, 2
          psllw   mm1, 2
-         movq    mm4, [eax+2*edx]
+   movq mm4, [_EAX+2*TMP1]
-         sub             eax, ebx
+   sub _EAX, _EBX
-         movq    mm2, [eax+2*edx]
+   movq mm2, [_EAX+2*TMP1]
          movq    mm3, mm2
          movq    mm5, mm4
-Line 845
+Line 942
          pmullw  mm0, [mmx_five]
          pmullw  mm1, [mmx_five]
-         movq    mm2, [eax+edx]
+   movq mm2, [_EAX+TMP1]
-         movq    mm4, [eax+2*ebx]
+   movq mm4, [_EAX+2*_EBX]
          movq    mm3, mm2
          movq    mm5, mm4
-Line 869
+Line 966
          psraw   mm0, 5
          psraw   mm1, 5
-         lea             eax, [eax+4*edx]
+   lea _EAX, [_EAX+4*TMP1]
          packuswb mm0, mm1
-         movq    [ecx], mm0
+   movq [TMP0], mm0
  %endmacro
- align 16
+ ALIGN SECTION_ALIGN
- cglobal interpolate8x8_6tap_lowpass_v_mmx
+ interpolate8x8_6tap_lowpass_v_mmx:
- interpolate8x8_6tap_lowpass_v_mmx
-         push ebx
+   mov _EAX, prm4           ; rounding
-         mov     eax, [esp + 4 + 16]                     ; rounding
+   lea TMP0, [rounding_lowpass_mmx]
+   movq mm6, [TMP0 + _EAX * 8]
-         movq mm6, [rounding_lowpass_mmx + eax * 8]
+   mov TMP0, prm1           ; dst -> edi
+   mov _EAX, prm2           ; src -> esi
+   mov TMP1, prm3           ; stride -> edx
-         mov ecx, [esp + 4 + 4]                  ; dst -> edi
+   push _EBX
-         mov eax, [esp + 4 + 8]                  ; src -> esi
-         mov     edx, [esp + 4 + 12]                     ; stride -> edx
-         mov ebx, edx
+   mov _EBX, TMP1
-         shl     ebx, 1
+   shl _EBX, 1
-         add ebx, edx
+   add _EBX, TMP1
          pxor mm7, mm7
          LOWPASS_6TAP_V_MMX
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          LOWPASS_6TAP_V_MMX
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          LOWPASS_6TAP_V_MMX
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          LOWPASS_6TAP_V_MMX
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          LOWPASS_6TAP_V_MMX
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          LOWPASS_6TAP_V_MMX
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          LOWPASS_6TAP_V_MMX
-         lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
          LOWPASS_6TAP_V_MMX
-         pop ebx
+   pop _EBX
          ret
+ ENDFUNC
+ ;===========================================================================
+ ;
+ ; The next functions combine both source halfpel interpolation step and the
+ ; averaging (with rouding) step to avoid wasting memory bandwidth computing
+ ; intermediate halfpel images and then averaging them.
+ ;
+ ;===========================================================================
+ %macro PROLOG0 0
+   mov TMP0, prm1 ; Dst
+   mov _EAX, prm2 ; Src
+   mov TMP1, prm3 ; BpS
+ %endmacro
+ %macro PROLOG 2   ; %1: Rounder, %2 load Dst-Rounder
+   pxor mm6, mm6
+   movq mm7, [%1]    ; TODO: dangerous! (eax isn't checked)
+ %if %2
+   movq mm5, [rounding1_mmx]
+ %endif
+   PROLOG0
+ %endmacro
+   ; performs: mm0 == (mm0+mm2)  mm1 == (mm1+mm3)
+ %macro MIX 0
+   punpcklbw mm0, mm6
+   punpcklbw mm2, mm6
+   punpckhbw mm1, mm6
+   punpckhbw mm3, mm6
+   paddusw mm0, mm2
+   paddusw mm1, mm3
+ %endmacro
+ %macro MIX_DST 0
+   movq mm3, mm2
+   paddusw mm0, mm7  ; rounder
+   paddusw mm1, mm7  ; rounder
+   punpcklbw mm2, mm6
+   punpckhbw mm3, mm6
+   psrlw mm0, 1
+   psrlw mm1, 1
+   paddusw mm0, mm2  ; mix Src(mm0/mm1) with Dst(mm2/mm3)
+   paddusw mm1, mm3
+   paddusw mm0, mm5
+   paddusw mm1, mm5
+   psrlw mm0, 1
+   psrlw mm1, 1
+   packuswb mm0, mm1
+ %endmacro
+ %macro MIX2 0
+   punpcklbw mm0, mm6
+   punpcklbw mm2, mm6
+   paddusw mm0, mm2
+   paddusw mm0, mm7
+   punpckhbw mm1, mm6
+   punpckhbw mm3, mm6
+   paddusw mm1, mm7
+   paddusw mm1, mm3
+   psrlw mm0, 1
+   psrlw mm1, 1
+   packuswb mm0, mm1
+ %endmacro
+ ;===========================================================================
+ ;
+ ; void interpolate8x8_halfpel_add_mmx(uint8_t * const dst,
+ ;                       const uint8_t * const src,
+ ;                       const uint32_t stride,
+ ;                       const uint32_t rounding);
+ ;
+ ;
+ ;===========================================================================
+ %macro ADD_FF_MMX 1
+   movq mm0, [_EAX]
+   movq mm2, [TMP0]
+   movq mm1, mm0
+   movq mm3, mm2
+ %if (%1!=0)
+   lea _EAX,[_EAX+%1*TMP1]
+ %endif
+   MIX
+   paddusw mm0, mm5  ; rounder
+   paddusw mm1, mm5  ; rounder
+   psrlw mm0, 1
+   psrlw mm1, 1
+   packuswb mm0, mm1
+   movq [TMP0], mm0
+ %if (%1!=0)
+   lea TMP0,[TMP0+%1*TMP1]
+ %endif
+ %endmacro
+ ALIGN SECTION_ALIGN
+ interpolate8x8_halfpel_add_mmx:
+   PROLOG rounding1_mmx, 1
+   ADD_FF_MMX 1
+   ADD_FF_MMX 1
+   ADD_FF_MMX 1
+   ADD_FF_MMX 1
+   ADD_FF_MMX 1
+   ADD_FF_MMX 1
+   ADD_FF_MMX 1
+   ADD_FF_MMX 0
+   ret
+ ENDFUNC
+ ;===========================================================================
+ ;
+ ; void interpolate8x8_halfpel_h_add_mmx(uint8_t * const dst,
+ ;                       const uint8_t * const src,
+ ;                       const uint32_t stride,
+ ;                       const uint32_t rounding);
+ ;
+ ;
+ ;===========================================================================
+ %macro ADD_FH_MMX 0
+   movq mm0, [_EAX]
+   movq mm2, [_EAX+1]
+   movq mm1, mm0
+   movq mm3, mm2
+   lea _EAX,[_EAX+TMP1]
+   MIX
+   movq mm2, [TMP0]   ; prepare mix with Dst[0]
+   MIX_DST
+   movq [TMP0], mm0
+ %endmacro
+ ALIGN SECTION_ALIGN
+ interpolate8x8_halfpel_h_add_mmx:
+   PROLOG rounding1_mmx, 1
+   ADD_FH_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_FH_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_FH_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_FH_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_FH_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_FH_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_FH_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_FH_MMX
+   ret
+ ENDFUNC
+ ;===========================================================================
+ ;
+ ; void interpolate8x8_halfpel_v_add_mmx(uint8_t * const dst,
+ ;                       const uint8_t * const src,
+ ;                       const uint32_t stride,
+ ;                       const uint32_t rounding);
+ ;
+ ;
+ ;===========================================================================
+ %macro ADD_HF_MMX 0
+   movq mm0, [_EAX]
+   movq mm2, [_EAX+TMP1]
+   movq mm1, mm0
+   movq mm3, mm2
+   lea _EAX,[_EAX+TMP1]
+   MIX
+   movq mm2, [TMP0]   ; prepare mix with Dst[0]
+   MIX_DST
+   movq [TMP0], mm0
+ %endmacro
+ ALIGN SECTION_ALIGN
+ interpolate8x8_halfpel_v_add_mmx:
+   PROLOG rounding1_mmx, 1
+   ADD_HF_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_HF_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_HF_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_HF_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_HF_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_HF_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_HF_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_HF_MMX
+   ret
+ ENDFUNC
+ ; The trick is to correct the result of 'pavgb' with some combination of the
+ ; lsb's of the 4 input values i,j,k,l, and their intermediate 'pavgb' (s and t).
+ ; The boolean relations are:
+ ;   (i+j+k+l+3)/4 = (s+t+1)/2 - (ij&kl)&st
+ ;   (i+j+k+l+2)/4 = (s+t+1)/2 - (ij|kl)&st
+ ;   (i+j+k+l+1)/4 = (s+t+1)/2 - (ij&kl)|st
+ ;   (i+j+k+l+0)/4 = (s+t+1)/2 - (ij|kl)|st
+ ; with  s=(i+j+1)/2, t=(k+l+1)/2, ij = i^j, kl = k^l, st = s^t.
+ ; Moreover, we process 2 lines at a times, for better overlapping (~15% faster).
+ ;===========================================================================
+ ;
+ ; void interpolate8x8_halfpel_hv_add_mmx(uint8_t * const dst,
+ ;                       const uint8_t * const src,
+ ;                       const uint32_t stride,
+ ;                       const uint32_t rounding);
+ ;
+ ;
+ ;===========================================================================
+ %macro ADD_HH_MMX 0
+   lea _EAX,[_EAX+TMP1]
+     ; transfert prev line to mm0/mm1
+   movq mm0, mm2
+   movq mm1, mm3
+     ; load new line in mm2/mm3
+   movq mm2, [_EAX]
+   movq mm4, [_EAX+1]
+   movq mm3, mm2
+   movq mm5, mm4
+   punpcklbw mm2, mm6
+   punpcklbw mm4, mm6
+   paddusw mm2, mm4
+   punpckhbw mm3, mm6
+   punpckhbw mm5, mm6
+   paddusw mm3, mm5
+     ; mix current line (mm2/mm3) with previous (mm0,mm1);
+     ; we'll preserve mm2/mm3 for next line...
+   paddusw mm0, mm2
+   paddusw mm1, mm3
+   movq mm4, [TMP0]   ; prepare mix with Dst[0]
+   movq mm5, mm4
+   paddusw mm0, mm7  ; finish mixing current line
+   paddusw mm1, mm7
+   punpcklbw mm4, mm6
+   punpckhbw mm5, mm6
+   psrlw mm0, 2
+   psrlw mm1, 2
+   paddusw mm0, mm4  ; mix Src(mm0/mm1) with Dst(mm2/mm3)
+   paddusw mm1, mm5
+   paddusw mm0, [rounding1_mmx]
+   paddusw mm1, [rounding1_mmx]
+   psrlw mm0, 1
+   psrlw mm1, 1
+   packuswb mm0, mm1
+   movq [TMP0], mm0
+ %endmacro
+ ALIGN SECTION_ALIGN
+ interpolate8x8_halfpel_hv_add_mmx:
+   PROLOG rounding2_mmx, 0    ; mm5 is busy. Don't load dst-rounder
+     ; preprocess first line
+   movq mm0, [_EAX]
+   movq mm2, [_EAX+1]
+   movq mm1, mm0
+   movq mm3, mm2
+   punpcklbw mm0, mm6
+   punpcklbw mm2, mm6
+   punpckhbw mm1, mm6
+   punpckhbw mm3, mm6
+   paddusw mm2, mm0
+   paddusw mm3, mm1
+    ; Input: mm2/mm3 contains the value (Src[0]+Src[1]) of previous line
+   ADD_HH_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_HH_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_HH_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_HH_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_HH_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_HH_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_HH_MMX
+   lea TMP0,[TMP0+TMP1]
+   ADD_HH_MMX
+   ret
+ ENDFUNC
+ %ifidn __OUTPUT_FORMAT__,elf
+ section ".note.GNU-stack" noalloc noexec nowrite progbits
+ %endif

 Legend:



Removed from v.851
 


changed lines


 
Added in v.1803
 Legend:



Removed from v.851
 


changed lines


 
Added in v.1803
-Removed from v.851
+Added in v.1803

No admin address has been configured	ViewVC Help
Powered by ViewVC 1.0.4