Diff of /trunk/xvidcore/src/motion/x86_asm/sad_mmx.asm

-revision 262, Sun Jul  7 09:45:40 2002 UTC
+revision 1795, Wed Nov 26 01:04:34 2008 UTC
 Line 1
- ;/**************************************************************************
+ ;/****************************************************************************
  ; *
  ; *     XVID MPEG-4 VIDEO CODEC
- ; *     mmx sum of absolute difference
+ ; *  - K7 optimized SAD operators -
  ; *
- ; *     This program is free software; you can redistribute it and/or modify
+ ; *  Copyright(C) 2001 Peter Ross <pross@xvid.org>
- ; *     it under the terms of the GNU General Public License as published by
+ ; *               2002 Pascal Massimino <skal@planet-d.net>
+ ; *
+ ; *  This program is free software; you can redistribute it and/or modify it
+ ; *  under the terms of the GNU General Public License as published by
  ; *     the Free Software Foundation; either version 2 of the License, or
  ; *     (at your option) any later version.
  ; *
-Line 15
+Line 18
  ; *
  ; *     You should have received a copy of the GNU General Public License
  ; *     along with this program; if not, write to the Free Software
- ; *     Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
+ ; *  Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307 USA
- ; *
- ; *************************************************************************/
- ;/**************************************************************************
  ; *
- ; *     History:
+ ; * $Id: sad_mmx.asm,v 1.20 2008-11-26 01:04:34 Isibaar Exp $
  ; *
- ; * 23.07.2002  sad[16,8]bi_xmm; <pross@xvid.org>
+ ; ***************************************************************************/
- ; * 04.06.2002  cleanup -Skal-
- ; *     12.11.2001      inital version; (c)2001 peter ross <pross@cs.rmit.edu.au>
- ; *
- ; *************************************************************************/
- bits 32
+ %include "nasm.inc"
- %macro cglobal 1
+ ;=============================================================================
-                 global _%1
+ ; Read only data
-                 %define %1 _%1
+ ;=============================================================================
-         %else
-                 global %1
-         %endif
- %endmacro
- section .data
+ DATA
- align 16
+ ALIGN SECTION_ALIGN
- mmx_one times 4 dw 1
+ mmx_one:
+         times 4 dw 1
- section .text
+ ;=============================================================================
+ ; Helper macros
- cglobal  sad16_mmx
+ ;=============================================================================
- cglobal  sad8_mmx
- cglobal  sad16bi_mmx
- cglobal  sad8bi_mmx
- cglobal  dev16_mmx
- ;===========================================================================
- ;
- ; uint32_t sad16_mmx(const uint8_t * const cur,
- ;                                        const uint8_t * const ref,
- ;                                        const uint32_t stride,
- ; (early termination ignore; slows this down)
- ;
- ;===========================================================================
  %macro SAD_16x16_MMX 0
-     movq mm0, [eax]
+   movq mm0, [_EAX]
-     movq mm1, [edx]
+   movq mm1, [TMP1]
-     movq mm2, [eax+8]
+   movq mm2, [_EAX+8]
-     movq mm3, [edx+8]
+   movq mm3, [TMP1+8]
      movq mm4, mm0
      psubusb mm0, mm1
-     lea eax,[eax+ecx]
+   lea _EAX, [_EAX+TMP0]
      movq mm5, mm2
      psubusb mm2, mm3
-     lea edx,[edx+ecx]
      psubusb mm1, mm4
-     por mm0, mm1
      psubusb mm3, mm5
+   por mm0, mm1
      por mm2, mm3
      movq mm1,mm0
-     movq mm3,mm2
      punpcklbw mm0,mm7
+   movq mm3, mm2
      punpckhbw mm1,mm7
+   lea TMP1, [TMP1+TMP0]
      punpcklbw mm2,mm7
-     punpckhbw mm3,mm7
      paddusw mm0,mm1
+   punpckhbw mm3,mm7
      paddusw mm6,mm0
      paddusw mm2,mm3
      paddusw mm6,mm2
- %endmacro
- align 16
- sad16_mmx:
-     mov eax, [esp+ 4] ; Src1
-     mov edx, [esp+ 8] ; Src2
-     mov ecx, [esp+12] ; Stride
-     pxor mm6, mm6 ; accum
-     pxor mm7, mm7 ; zero
-     SAD_16x16_MMX
-     SAD_16x16_MMX
-     SAD_16x16_MMX
-     SAD_16x16_MMX
-     SAD_16x16_MMX
-     SAD_16x16_MMX
-     SAD_16x16_MMX
-     SAD_16x16_MMX
-     SAD_16x16_MMX
-     SAD_16x16_MMX
-     SAD_16x16_MMX
-     SAD_16x16_MMX
-     SAD_16x16_MMX
-     SAD_16x16_MMX
-     SAD_16x16_MMX
-     SAD_16x16_MMX
-     pmaddwd mm6, [mmx_one] ; collapse
-     movq mm7, mm6
-     psrlq mm7, 32
-     paddd mm6, mm7
-     movd eax, mm6
-     ret
+ %endmacro
- ;===========================================================================
- ;
- ; uint32_t sad8_mmx(const uint8_t * const cur,
- ;                                       const uint8_t * const ref,
- ;                                       const uint32_t stride);
- ;
- ;===========================================================================
  %macro SAD_8x8_MMX  0
-     movq mm0, [eax]
+   movq mm0, [_EAX]
-     movq mm1, [edx]
+   movq mm1, [TMP1]
-     movq mm2, [eax+ecx]
+   movq mm2, [_EAX+TMP0]
-     movq mm3, [edx+ecx]
+   movq mm3, [TMP1+TMP0]
-     lea eax,[eax+2*ecx]
+   lea _EAX,[_EAX+2*TMP0]
-     lea edx,[edx+2*ecx]
+   lea TMP1,[TMP1+2*TMP0]
      movq mm4, mm0
      psubusb mm0, mm1
-Line 156
+Line 88
      psubusb mm2, mm3
      psubusb mm1, mm4
-     por mm0, mm1
      psubusb mm3, mm5
+   por mm0, mm1
      por mm2, mm3
      movq mm1,mm0
-     movq mm3,mm2
      punpcklbw mm0,mm7
+   movq mm3,mm2
      punpckhbw mm1,mm7
      punpcklbw mm2,mm7
+   paddusw mm0,mm1
      punpckhbw mm3,mm7
+   paddusw mm6,mm0
+   paddusw mm2,mm3
+   paddusw mm6,mm2
+ %endmacro
+ %macro SADV_16x16_MMX 0
+   movq mm0, [_EAX]
+   movq mm1, [TMP1]
+   movq mm2, [_EAX+8]
+   movq mm4, mm0
+   movq mm3, [TMP1+8]
+   psubusb mm0, mm1
+   psubusb mm1, mm4
+   lea _EAX,[_EAX+TMP0]
+   por mm0, mm1
+   movq mm4, mm2
+   psubusb mm2, mm3
+   psubusb mm3, mm4
+   por mm2, mm3
+   movq mm1,mm0
+   punpcklbw mm0,mm7
+   movq mm3,mm2
+   punpckhbw mm1,mm7
+   punpcklbw mm2,mm7
      paddusw mm0,mm1
-     paddusw mm6,mm0
+   punpckhbw mm3,mm7
+   paddusw mm5, mm0
      paddusw mm2,mm3
+   lea TMP1,[TMP1+TMP0]
      paddusw mm6,mm2
  %endmacro
- align 16
+ %macro SADBI_16x16_MMX 2    ; SADBI_16x16_MMX( int_ptr_offset, bool_increment_ptr );
- sad8_mmx:
-     mov eax, [esp+ 4] ; Src1
+   movq mm0, [TMP1+%1]
-     mov edx, [esp+ 8] ; Src2
+   movq mm2, [_EBX+%1]
-     mov ecx, [esp+12] ; Stride
+   movq mm1, mm0
+   movq mm3, mm2
-     pxor mm6, mm6 ; accum
+ %if %2 != 0
-     pxor mm7, mm7 ; zero
+   add TMP1, TMP0
+ %endif
-     SAD_8x8_MMX
+   punpcklbw mm0, mm7
-     SAD_8x8_MMX
+   punpckhbw mm1, mm7
-     SAD_8x8_MMX
+   punpcklbw mm2, mm7
-     SAD_8x8_MMX
+   punpckhbw mm3, mm7
-     pmaddwd mm6, [mmx_one] ; collapse
+ %if %2 != 0
-     movq mm7, mm6
+   add _EBX, TMP0
-     psrlq mm7, 32
+ %endif
-     paddd mm6, mm7
-     movd eax, mm6
+   paddusw mm0, mm2              ; mm01 = ref1 + ref2
+   paddusw mm1, mm3
+   paddusw mm0, [mmx_one]        ; mm01 += 1
+   paddusw mm1, [mmx_one]
+   psrlw mm0, 1                  ; mm01 >>= 1
+   psrlw mm1, 1
-     ret
+   movq mm2, [_EAX+%1]
+   movq mm3, mm2
+   punpcklbw mm2, mm7            ; mm23 = src
+   punpckhbw mm3, mm7
+ %if %2 != 0
+   add _EAX, TMP0
+ %endif
+   movq mm4, mm0
+   movq mm5, mm1
+   psubusw mm0, mm2
+   psubusw mm1, mm3
+   psubusw mm2, mm4
+   psubusw mm3, mm5
+   por mm0, mm2                  ; mm01 = ABS(mm01 - mm23)
+   por mm1, mm3
+   paddusw mm6, mm0              ; mm6 += mm01
+   paddusw mm6, mm1
+ %endmacro
- ;===========================================================================
+ %macro MEAN_16x16_MMX 0
- ;
+   movq mm0, [_EAX]
- ; uint32_t sad16bi_mmx(const uint8_t * const cur,
+   movq mm2, [_EAX+8]
- ; const uint8_t * const ref1,
+   lea _EAX, [_EAX+TMP0]
-     movq mm0, [eax]
-     movq mm2, [eax+8]
-     lea eax,[eax+ecx]
      movq mm1, mm0
-     movq mm3, mm2
      punpcklbw mm0,mm7
-     punpcklbw mm2,mm7
+   movq mm3, mm2
      punpckhbw mm1,mm7
-     punpckhbw mm3,mm7
      paddw mm5, mm0
+   punpcklbw mm2, mm7
      paddw mm6, mm1
+   punpckhbw mm3, mm7
      paddw mm5, mm2
      paddw mm6, mm3
  %endmacro
  %macro ABS_16x16_MMX 0
-     movq mm0, [eax]
+   movq mm0, [_EAX]
-     movq mm2, [eax+8]
+   movq mm2, [_EAX+8]
-     lea eax,[eax+ecx]
+   lea _EAX, [_EAX+TMP0]
      movq mm1, mm0
      movq mm3, mm2
      punpcklbw mm0, mm7
-Line 256
+Line 238
          paddw mm5, mm2
  %endmacro
- align 16
+ ;=============================================================================
+ ; Code
+ ;=============================================================================
+ SECTION .rotext align=SECTION_ALIGN
+ cglobal sad16_mmx
+ cglobal sad16v_mmx
+ cglobal sad8_mmx
+ cglobal sad16bi_mmx
+ cglobal sad8bi_mmx
+ cglobal dev16_mmx
+ cglobal sse8_16bit_mmx
+ cglobal sse8_8bit_mmx
+ ;-----------------------------------------------------------------------------
+ ;
+ ; uint32_t sad16_mmx(const uint8_t * const cur,
+ ;                                        const uint8_t * const ref,
+ ;                                        const uint32_t stride,
+ ;                                        const uint32_t best_sad);
+ ;
+ ; (early termination ignore; slows this down)
+ ;
+ ;-----------------------------------------------------------------------------
+ ALIGN SECTION_ALIGN
+ sad16_mmx:
+   mov _EAX, prm1 ; Src1
+   mov TMP1, prm2 ; Src2
+   mov TMP0, prm3 ; Stride
+   pxor mm6, mm6 ; accum
+   pxor mm7, mm7 ; zero
+   SAD_16x16_MMX
+   SAD_16x16_MMX
+   SAD_16x16_MMX
+   SAD_16x16_MMX
+   SAD_16x16_MMX
+   SAD_16x16_MMX
+   SAD_16x16_MMX
+   SAD_16x16_MMX
+   SAD_16x16_MMX
+   SAD_16x16_MMX
+   SAD_16x16_MMX
+   SAD_16x16_MMX
+   SAD_16x16_MMX
+   SAD_16x16_MMX
+   SAD_16x16_MMX
+   SAD_16x16_MMX
+   pmaddwd mm6, [mmx_one] ; collapse
+   movq mm7, mm6
+   psrlq mm7, 32
+   paddd mm6, mm7
+   movd eax, mm6
+   ret
+ ENDFUNC
+ ;-----------------------------------------------------------------------------
+ ;
+ ; uint32_t sad8_mmx(const uint8_t * const cur,
+ ;                                       const uint8_t * const ref,
+ ;                                       const uint32_t stride);
+ ;
+ ;-----------------------------------------------------------------------------
+ ALIGN SECTION_ALIGN
+ sad8_mmx:
+   mov _EAX, prm1 ; Src1
+   mov TMP1, prm2 ; Src2
+   mov TMP0, prm3 ; Stride
+   pxor mm6, mm6 ; accum
+   pxor mm7, mm7 ; zero
+   SAD_8x8_MMX
+   SAD_8x8_MMX
+   SAD_8x8_MMX
+   SAD_8x8_MMX
+   pmaddwd mm6, [mmx_one] ; collapse
+   movq mm7, mm6
+   psrlq mm7, 32
+   paddd mm6, mm7
+   movd eax, mm6
+   ret
+ ENDFUNC
+ ;-----------------------------------------------------------------------------
+ ;
+ ; uint32_t sad16v_mmx(const uint8_t * const cur,
+ ;                                     const uint8_t * const ref,
+ ;                                         const uint32_t stride,
+ ;                                         int32_t *sad);
+ ;
+ ;-----------------------------------------------------------------------------
+ ALIGN SECTION_ALIGN
+ sad16v_mmx:
+   mov _EAX, prm1 ; Src1
+   mov TMP1, prm2 ; Src2
+   mov TMP0, prm3 ; Stride
+   push _EBX
+   push _EDI
+ %ifdef ARCH_IS_X86_64
+   mov _EBX, prm4
+ %else
+   mov _EBX, [_ESP + 8 + 16] ; sad ptr
+ %endif
+   pxor mm5, mm5 ; accum
+   pxor mm6, mm6 ; accum
+   pxor mm7, mm7 ; zero
+   SADV_16x16_MMX
+   SADV_16x16_MMX
+   SADV_16x16_MMX
+   SADV_16x16_MMX
+   SADV_16x16_MMX
+   SADV_16x16_MMX
+   SADV_16x16_MMX
+   SADV_16x16_MMX
+   pmaddwd mm5, [mmx_one] ; collapse
+   pmaddwd mm6, [mmx_one] ; collapse
+   movq mm2, mm5
+   movq mm3, mm6
+   psrlq mm2, 32
+   psrlq mm3, 32
+   paddd mm5, mm2
+   paddd mm6, mm3
+   movd [_EBX], mm5
+   movd [_EBX + 4], mm6
+   paddd mm5, mm6
+   movd edi, mm5
+   pxor mm5, mm5
+   pxor mm6, mm6
+   SADV_16x16_MMX
+   SADV_16x16_MMX
+   SADV_16x16_MMX
+   SADV_16x16_MMX
+   SADV_16x16_MMX
+   SADV_16x16_MMX
+   SADV_16x16_MMX
+   SADV_16x16_MMX
+   pmaddwd mm5, [mmx_one] ; collapse
+   pmaddwd mm6, [mmx_one] ; collapse
+   movq mm2, mm5
+   movq mm3, mm6
+   psrlq mm2, 32
+   psrlq mm3, 32
+   paddd mm5, mm2
+   paddd mm6, mm3
+   movd [_EBX + 8], mm5
+   movd [_EBX + 12], mm6
+   paddd mm5, mm6
+   movd eax, mm5
+   add _EAX, _EDI
+   pop _EDI
+   pop _EBX
+   ret
+ ENDFUNC
+ ;-----------------------------------------------------------------------------
+ ;
+ ; uint32_t sad16bi_mmx(const uint8_t * const cur,
+ ; const uint8_t * const ref1,
+ ; const uint8_t * const ref2,
+ ; const uint32_t stride);
+ ;
+ ;-----------------------------------------------------------------------------
+ ALIGN SECTION_ALIGN
+ sad16bi_mmx:
+   mov _EAX, prm1 ; Src
+   mov TMP1, prm2 ; Ref1
+   mov TMP0, prm4 ; Stride
+   push _EBX
+ %ifdef ARCH_IS_X86_64
+   mov _EBX, prm3 ; Ref2
+ %else
+   mov _EBX, [_ESP+4+12] ; Ref2
+ %endif
+   pxor mm6, mm6 ; accum2
+   pxor mm7, mm7
+ .Loop:
+   SADBI_16x16_MMX 0, 0
+   SADBI_16x16_MMX 8, 1
+   SADBI_16x16_MMX 0, 0
+   SADBI_16x16_MMX 8, 1
+   SADBI_16x16_MMX 0, 0
+   SADBI_16x16_MMX 8, 1
+   SADBI_16x16_MMX 0, 0
+   SADBI_16x16_MMX 8, 1
+   SADBI_16x16_MMX 0, 0
+   SADBI_16x16_MMX 8, 1
+   SADBI_16x16_MMX 0, 0
+   SADBI_16x16_MMX 8, 1
+   SADBI_16x16_MMX 0, 0
+   SADBI_16x16_MMX 8, 1
+   SADBI_16x16_MMX 0, 0
+   SADBI_16x16_MMX 8, 1
+   SADBI_16x16_MMX 0, 0
+   SADBI_16x16_MMX 8, 1
+   SADBI_16x16_MMX 0, 0
+   SADBI_16x16_MMX 8, 1
+   SADBI_16x16_MMX 0, 0
+   SADBI_16x16_MMX 8, 1
+   SADBI_16x16_MMX 0, 0
+   SADBI_16x16_MMX 8, 1
+   SADBI_16x16_MMX 0, 0
+   SADBI_16x16_MMX 8, 1
+   SADBI_16x16_MMX 0, 0
+   SADBI_16x16_MMX 8, 1
+   SADBI_16x16_MMX 0, 0
+   SADBI_16x16_MMX 8, 1
+   SADBI_16x16_MMX 0, 0
+   SADBI_16x16_MMX 8, 1
+   pmaddwd mm6, [mmx_one] ; collapse
+   movq mm7, mm6
+   psrlq mm7, 32
+   paddd mm6, mm7
+   movd eax, mm6
+   pop _EBX
+   ret
+ ENDFUNC
+ ;-----------------------------------------------------------------------------
+ ;
+ ; uint32_t sad8bi_mmx(const uint8_t * const cur,
+ ; const uint8_t * const ref1,
+ ; const uint8_t * const ref2,
+ ; const uint32_t stride);
+ ;
+ ;-----------------------------------------------------------------------------
+ ALIGN SECTION_ALIGN
+ sad8bi_mmx:
+   mov _EAX, prm1 ; Src
+   mov TMP1, prm2 ; Ref1
+   mov TMP0, prm4 ; Stride
+   push _EBX
+ %ifdef ARCH_IS_X86_64
+   mov _EBX, prm3
+ %else
+   mov _EBX, [_ESP+4+12] ; Ref2
+ %endif
+   pxor mm6, mm6 ; accum2
+   pxor mm7, mm7
+ .Loop:
+   SADBI_16x16_MMX 0, 1
+   SADBI_16x16_MMX 0, 1
+   SADBI_16x16_MMX 0, 1
+   SADBI_16x16_MMX 0, 1
+   SADBI_16x16_MMX 0, 1
+   SADBI_16x16_MMX 0, 1
+   SADBI_16x16_MMX 0, 1
+   SADBI_16x16_MMX 0, 1
+   pmaddwd mm6, [mmx_one] ; collapse
+   movq mm7, mm6
+   psrlq mm7, 32
+   paddd mm6, mm7
+   movd eax, mm6
+   pop _EBX
+   ret
+ ENDFUNC
+ ;-----------------------------------------------------------------------------
+ ;
+ ; uint32_t dev16_mmx(const uint8_t * const cur,
+ ;                                       const uint32_t stride);
+ ;
+ ;-----------------------------------------------------------------------------
+ ALIGN SECTION_ALIGN
  dev16_mmx:
-     mov eax, [esp+ 4] ; Src
+   mov _EAX, prm1 ; Src
-     mov ecx, [esp+ 8] ; Stride
+   mov TMP0, prm2 ; Stride
      pxor mm7, mm7 ; zero
      pxor mm5, mm5 ; accum1
-Line 299
+Line 594
      ; mm5 is the new accum
      pxor mm5, mm5
-     mov eax, [esp+ 4] ; Src
+   mov _EAX, prm1         ; Src
      ABS_16x16_MMX
      ABS_16x16_MMX
-Line 325
+Line 620
      paddd mm6, mm5
      movd eax, mm6
+   ret
+ ENDFUNC
+ ;-----------------------------------------------------------------------------
+ ;
+ ; uint32_t sse8_16bit_mmx(const int16_t *b1,
+ ;                         const int16_t *b2,
+ ;                         const uint32_t stride);
+ ;
+ ;-----------------------------------------------------------------------------
+ %macro ROW_SSE_16bit_MMX 2
+   movq mm0, [%1]
+   movq mm1, [%1+8]
+   psubw mm0, [%2]
+   psubw mm1, [%2+8]
+   pmaddwd mm0, mm0
+   pmaddwd mm1, mm1
+   paddd mm2, mm0
+   paddd mm2, mm1
+ %endmacro
+ sse8_16bit_mmx:
+   ;; Load the function params
+   mov _EAX, prm1
+   mov TMP0, prm2
+   mov TMP1, prm3
+   ;; Reset the sse accumulator
+   pxor mm2, mm2
+   ;; Let's go
+ %rep 8
+   ROW_SSE_16bit_MMX _EAX, TMP0
+   lea _EAX, [_EAX+TMP1]
+   lea TMP0, [TMP0+TMP1]
+ %endrep
+   ;; Finish adding each dword of the accumulator
+   movq mm3, mm2
+   psrlq mm2, 32
+   paddd mm2, mm3
+   movd eax, mm2
+   ;; All done
+   ret
+ ENDFUNC
+ ;-----------------------------------------------------------------------------
+ ;
+ ; uint32_t sse8_8bit_mmx(const int8_t *b1,
+ ;                        const int8_t *b2,
+ ;                        const uint32_t stride);
+ ;
+ ;-----------------------------------------------------------------------------
+ %macro ROW_SSE_8bit_MMX 2
+   movq mm0, [%1] ; load a row
+   movq mm2, [%2] ; load a row
+   movq mm1, mm0  ; copy row
+   movq mm3, mm2  ; copy row
+   punpcklbw mm0, mm7 ; turn the 4low elements into 16bit
+   punpckhbw mm1, mm7 ; turn the 4high elements into 16bit
+   punpcklbw mm2, mm7 ; turn the 4low elements into 16bit
+   punpckhbw mm3, mm7 ; turn the 4high elements into 16bit
+   psubw mm0, mm2 ; low  part of src-dst
+   psubw mm1, mm3 ; high part of src-dst
+   pmaddwd mm0, mm0 ; compute the square sum
+   pmaddwd mm1, mm1 ; compute the square sum
+   paddd mm6, mm0 ; add to the accumulator
+   paddd mm6, mm1 ; add to the accumulator
+ %endmacro
+ sse8_8bit_mmx:
+   ;; Load the function params
+   mov _EAX, prm1
+   mov TMP0, prm2
+   mov TMP1, prm3
+   ;; Reset the sse accumulator
+   pxor mm6, mm6
+   ;; Used to interleave 8bit data with 0x00 values
+   pxor mm7, mm7
+   ;; Let's go
+ %rep 8
+   ROW_SSE_8bit_MMX _EAX, TMP0
+   lea _EAX, [_EAX+TMP1]
+   lea TMP0, [TMP0+TMP1]
+ %endrep
+   ;; Finish adding each dword of the accumulator
+   movq mm7, mm6
+   psrlq mm6, 32
+   paddd mm6, mm7
+   movd eax, mm6
+   ;; All done
      ret
+ ENDFUNC
+ %ifidn __OUTPUT_FORMAT__,elf
+ section ".note.GNU-stack" noalloc noexec nowrite progbits
+ %endif

 Legend:



Removed from v.262
 


changed lines


 
Added in v.1795
 Legend:



Removed from v.262
 


changed lines


 
Added in v.1795
-Removed from v.262
+Added in v.1795

No admin address has been configured	ViewVC Help
Powered by ViewVC 1.0.4