Diff of /branches/release-1_2-branch/xvidcore/src/motion/x86_asm/sad_xmm.asm

-trunk/xvidcore/src/motion/x86_asm/sad_xmm.asm
revision 430, Fri Sep  6 16:59:47 2002 UTC
+branches/release-1_2-branch/xvidcore/src/motion/x86_asm/sad_xmm.asm
revision 1877, Wed Sep 16 17:11:39 2009 UTC
 Line 1
- ;/*****************************************************************************
+ ;/****************************************************************************
  ; *
  ; *  XVID MPEG-4 VIDEO CODEC
- ; *  xmm (extended mmx) sum of absolute difference
+ ; *  - K7 optimized SAD operators -
  ; *
- ; *  Copyright(C) 2002 Peter Ross <pross@xvid.org>
+ ; *  Copyright(C) 2001 Peter Ross <pross@xvid.org>
- ; *  Copyright(C) 2002 Michael Militzer <michael@xvid.org>
+ ; *               2001-2008 Michael Militzer <michael@xvid.org>
- ; *  Copyright(C) 2002 -Skal-
+ ; *               2002 Pascal Massimino <skal@planet-d.net>
  ; *
- ; *  This program is an implementation of a part of one or more MPEG-4
+ ; *  This program is free software; you can redistribute it and/or modify it
- ; *  Video tools as specified in ISO/IEC 14496-2 standard.  Those intending
+ ; *  under the terms of the GNU General Public License as published by
- ; *  to use this software module in hardware or software products are
- ; *  advised that its use may infringe existing patents or copyrights, and
- ; *  any such use would be at such party's own risk.  The original
- ; *  developer of this software module and his/her company, and subsequent
- ; *  editors and their companies, will have no liability for use of this
- ; *  software or modifications or derivatives thereof.
- ; *
- ; *  This program is free software; you can redistribute it and/or modify
- ; *  it under the terms of the GNU General Public License as published by
  ; *  the Free Software Foundation; either version 2 of the License, or
  ; *  (at your option) any later version.
  ; *
-Line 30
+Line 21
  ; *  along with this program; if not, write to the Free Software
  ; *  Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307 USA
  ; *
- ; *************************************************************************/
+ ; * $Id: sad_xmm.asm,v 1.13.2.2 2009-09-16 17:11:39 Isibaar Exp $
+ ; *
+ ; ***************************************************************************/
- bits 32
+ %include "nasm.inc"
- %macro cglobal 1
+ ;=============================================================================
-         %ifdef PREFIX
+ ; Read only data
-                 global _%1
+ ;=============================================================================
-                 %define %1 _%1
-         %else
+ DATA
-                 global %1
-         %endif
+ ALIGN SECTION_ALIGN
+ mmx_one: times 4 dw 1
+ ;=============================================================================
+ ; Helper macros
+ ;=============================================================================
+ %macro SAD_16x16_SSE 0
+   movq mm0, [_EAX]
+   psadbw mm0, [TMP1]
+   movq mm1, [_EAX+8]
+   add _EAX, TMP0
+   psadbw mm1, [TMP1+8]
+   paddusw mm5, mm0
+   add TMP1, TMP0
+   paddusw mm6, mm1
+ %endmacro
+ %macro SAD_8x8_SSE 0
+   movq mm0, [_EAX]
+   movq mm1, [_EAX+TMP0]
+   psadbw mm0, [TMP1]
+   psadbw mm1, [TMP1+TMP0]
+   add _EAX, _EBX
+   add TMP1, _EBX
+         paddusw mm5, mm0
+         paddusw mm6, mm1
+ %endmacro
+ %macro SADBI_16x16_SSE 0
+   movq mm0, [_EAX]
+   movq mm1, [_EAX+8]
+   movq mm2, [TMP1]
+   movq mm3, [TMP1+8]
+   pavgb mm2, [_EBX]
+   add TMP1, TMP0
+   pavgb mm3, [_EBX+8]
+   add _EBX, TMP0
+   psadbw mm0, mm2
+   add _EAX, TMP0
+   psadbw mm1, mm3
+   paddusw mm5, mm0
+   paddusw mm6, mm1
+ %endmacro
+ %macro SADBI_8x8_XMM 0
+   movq mm0, [_EAX]
+   movq mm1, [_EAX+TMP0]
+   movq mm2, [TMP1]
+   movq mm3, [TMP1+TMP0]
+   pavgb mm2, [_EBX]
+   lea TMP1, [TMP1+2*TMP0]
+   pavgb mm3, [_EBX+TMP0]
+   lea _EBX, [_EBX+2*TMP0]
+   psadbw mm0, mm2
+   lea _EAX, [_EAX+2*TMP0]
+   psadbw mm1, mm3
+   paddusw mm5, mm0
+   paddusw mm6, mm1
+ %endmacro
+ %macro MEAN_16x16_SSE 0
+   movq mm0, [_EAX]
+   movq mm1, [_EAX+8]
+   psadbw mm0, mm7
+   psadbw mm1, mm7
+   add _EAX, TMP0
+   paddw mm5, mm0
+   paddw mm6, mm1
  %endmacro
- section .data
+ %macro ABS_16x16_SSE 0
+   movq mm0, [_EAX]
+   movq mm1, [_EAX+8]
+   psadbw mm0, mm4
+   psadbw mm1, mm4
+   lea _EAX, [_EAX+TMP0]
+   paddw mm5, mm0
+   paddw mm6, mm1
+ %endmacro
- align 16
+ ;=============================================================================
- mmx_one times 4 dw 1
+ ; Code
+ ;=============================================================================
- section .text
+ TEXT
  cglobal  sad16_xmm
  cglobal  sad8_xmm
  cglobal  sad16bi_xmm
  cglobal  sad8bi_xmm
  cglobal  dev16_xmm
+ cglobal sad16v_xmm
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
  ; uint32_t sad16_xmm(const uint8_t * const cur,
  ;                                       const uint8_t * const ref,
  ;                                       const uint32_t stride,
  ;                                       const uint32_t best_sad);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- %macro SAD_16x16_SSE 0
+ ALIGN SECTION_ALIGN
-     movq mm0, [eax]
-     psadbw mm0, [edx]
-     movq mm1, [eax+8]
-     add eax, ecx
-     psadbw mm1, [edx+8]
-     paddusw mm5,mm0
-     add edx, ecx
-     paddusw mm6,mm1
- %endmacro
- align 16
  sad16_xmm:
-     mov eax, [esp+ 4] ; Src1
+   mov _EAX, prm1 ; Src1
-     mov edx, [esp+ 8] ; Src2
+   mov TMP1, prm2 ; Src2
-     mov ecx, [esp+12] ; Stride
+   mov TMP0, prm3 ; Stride
      pxor mm5, mm5 ; accum1
      pxor mm6, mm6 ; accum2
-Line 107
+Line 167
      paddusw mm6,mm5
      movd eax, mm6
      ret
+ ENDFUNC
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
  ; uint32_t sad8_xmm(const uint8_t * const cur,
  ;                                       const uint8_t * const ref,
  ;                                       const uint32_t stride);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- %macro SAD_8x8_SSE 0
-     movq mm0, [eax]
-     movq mm1, [eax+ecx]
-     psadbw mm0, [edx]
-     psadbw mm1, [edx+ecx]
-     add eax, ebx
-     add edx, ebx
-     paddusw mm5,mm0
+ ALIGN SECTION_ALIGN
-     paddusw mm6,mm1
- %endmacro
- align 16
  sad8_xmm:
-     mov eax, [esp+ 4] ; Src1
+   mov _EAX, prm1 ; Src1
-     mov edx, [esp+ 8] ; Src2
+   mov TMP1, prm2 ; Src2
-     mov ecx, [esp+12] ; Stride
+   mov TMP0, prm3 ; Stride
-     push ebx
+   push _EBX
-     lea ebx, [ecx+ecx]
+   lea _EBX, [TMP0+TMP0]
      pxor mm5, mm5 ; accum1
      pxor mm6, mm6 ; accum2
-Line 146
+Line 194
      SAD_8x8_SSE
      SAD_8x8_SSE
-     movq mm0, [eax]
+   movq mm0, [_EAX]
-     movq mm1, [eax+ecx]
+   movq mm1, [_EAX+TMP0]
-     psadbw mm0, [edx]
+   psadbw mm0, [TMP1]
-     psadbw mm1, [edx+ecx]
+   psadbw mm1, [TMP1+TMP0]
-     pop ebx
+   pop _EBX
      paddusw mm5,mm0
      paddusw mm6,mm1
-Line 160
+Line 208
      movd eax, mm6
      ret
+ ENDFUNC
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
  ; uint32_t sad16bi_xmm(const uint8_t * const cur,
  ;                                       const uint8_t * const ref1,
  ;                                       const uint8_t * const ref2,
  ;                                       const uint32_t stride);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- %macro SADBI_16x16_SSE 0
-     movq mm0, [eax]
-     movq mm1, [eax+8]
-     movq mm2, [edx]
-     movq mm3, [edx+8]
-     pavgb mm2, [ebx]
-     add edx, ecx
-     pavgb mm3, [ebx+8]
-     add ebx, ecx
-     psadbw mm0, mm2
-     add eax, ecx
-     psadbw mm1, mm3
-     paddusw mm5,mm0
-     paddusw mm6,mm1
- %endmacro
- align 16
+ ALIGN SECTION_ALIGN
  sad16bi_xmm:
-     push ebx
+   mov _EAX, prm1 ; Src
-     mov eax, [esp+4+ 4] ; Src
+   mov TMP1, prm2 ; Ref1
-     mov edx, [esp+4+ 8] ; Ref1
+   mov TMP0, prm4 ; Stride
-     mov ebx, [esp+4+12] ; Ref2
-     mov ecx, [esp+4+16] ; Stride
+   push _EBX
+ %ifdef ARCH_IS_X86_64
+   mov _EBX, prm3
+ %else
+   mov _EBX, [_ESP+4+12] ; Ref2
+ %endif
      pxor mm5, mm5 ; accum1
      pxor mm6, mm6 ; accum2
-Line 224
+Line 255
      paddusw mm6,mm5
      movd eax, mm6
-     pop ebx
+   pop _EBX
      ret
+ ENDFUNC
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
  ; uint32_t sad8bi_xmm(const uint8_t * const cur,
  ; const uint8_t * const ref1,
  ; const uint8_t * const ref2,
  ; const uint32_t stride);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- %macro SADBI_8x8_XMM 0
-    movq mm0, [eax]
-    movq mm1, [eax+ecx]
-    movq mm2, [edx]
+ ALIGN SECTION_ALIGN
-    movq mm3, [edx+ecx]
-    pavgb mm2, [ebx]
-    lea edx, [edx+2*ecx]
-    pavgb mm3, [ebx+ecx]
-    lea ebx, [ebx+2*ecx]
-    psadbw mm0, mm2
-    lea eax, [eax+2*ecx]
-    psadbw mm1, mm3
-    paddusw mm5,mm0
-    paddusw mm6,mm1
- %endmacro
- align 16
  sad8bi_xmm:
-    push ebx
+   mov _EAX, prm1 ; Src
-    mov eax, [esp+4+ 4] ; Src
+   mov TMP1, prm2 ; Ref1
-    mov edx, [esp+4+ 8] ; Ref1
+   mov TMP0, prm4 ; Stride
-    mov ebx, [esp+4+12] ; Ref2
-    mov ecx, [esp+4+16] ; Stride
+   push _EBX
+ %ifdef ARCH_IS_X86_64
+   mov _EBX, prm3
+ %else
+   mov _EBX, [_ESP+4+12] ; Ref2
+ %endif
     pxor mm5, mm5 ; accum1
     pxor mm6, mm6 ; accum2
- .Loop
+ .Loop:
     SADBI_8x8_XMM
     SADBI_8x8_XMM
     SADBI_8x8_XMM
-Line 276
+Line 291
     paddusw mm6,mm5
     movd eax, mm6
-    pop ebx
+   pop _EBX
     ret
+ ENDFUNC
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
  ; uint32_t dev16_xmm(const uint8_t * const cur,
  ;                                       const uint32_t stride);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- %macro MEAN_16x16_SSE 0
+ ALIGN SECTION_ALIGN
-     movq mm0, [eax]
-     movq mm1, [eax+8]
-     psadbw mm0, mm7
-     psadbw mm1, mm7
-     add eax, ecx
-     paddw mm5, mm0
-     paddw mm6, mm1
- %endmacro
- %macro ABS_16x16_SSE 0
-     movq mm0, [eax]
-     movq mm1, [eax+8]
-     psadbw mm0, mm4
-     psadbw mm1, mm4
-     lea eax,[eax+ecx]
-     paddw mm5, mm0
-     paddw mm6, mm1
- %endmacro
- align 16
  dev16_xmm:
-     mov eax, [esp+ 4] ; Src
+   mov _EAX, prm1 ; Src
-     mov ecx, [esp+ 8] ; Stride
+   mov TMP0, prm2 ; Stride
      pxor mm7, mm7 ; zero
      pxor mm5, mm5 ; mean accums
-Line 347
+Line 343
      ; mm4 contains the mean
-     mov eax, [esp+ 4] ; Src
+   mov _EAX, prm1 ; Src
      pxor mm5, mm5 ; sums
      pxor mm6, mm6
-Line 377
+Line 374
      movd eax, mm6
      ret
+ ENDFUNC
+ ;-----------------------------------------------------------------------------
+ ;int sad16v_xmm(const uint8_t * const cur,
+ ;               const uint8_t * const ref,
+ ;               const uint32_t stride,
+ ;               int* sad8);
+ ;-----------------------------------------------------------------------------
+ ALIGN SECTION_ALIGN
+ sad16v_xmm:
+   mov _EAX, prm1 ; Src1
+   mov TMP1, prm2 ; Src2
+   mov TMP0, prm3 ; Stride
+   push _EBX
+ %ifdef ARCH_IS_X86_64
+   mov _EBX, prm4
+ %else
+   mov _EBX, [_ESP+4+16] ; sad ptr
+ %endif
+   pxor mm5, mm5 ; accum1
+   pxor mm6, mm6 ; accum2
+   pxor mm7, mm7 ; total
+   SAD_16x16_SSE
+   SAD_16x16_SSE
+   SAD_16x16_SSE
+   SAD_16x16_SSE
+   SAD_16x16_SSE
+   SAD_16x16_SSE
+   SAD_16x16_SSE
+   SAD_16x16_SSE
+   paddusw mm7, mm5
+   paddusw mm7, mm6
+   movd [_EBX], mm5
+   movd [_EBX+4], mm6
+   pxor mm5, mm5 ; accum1
+   pxor mm6, mm6 ; accum2
+   SAD_16x16_SSE
+   SAD_16x16_SSE
+   SAD_16x16_SSE
+   SAD_16x16_SSE
+   SAD_16x16_SSE
+   SAD_16x16_SSE
+   SAD_16x16_SSE
+   SAD_16x16_SSE
+   paddusw mm7, mm5
+   paddusw mm7, mm6
+   movd [_EBX+8], mm5
+   movd [_EBX+12], mm6
+   movd eax, mm7
+   pop _EBX
+   ret
+ ENDFUNC
+ NON_EXEC_STACK

 Legend:



Removed from v.430
 


changed lines


 
Added in v.1877
 Legend:



Removed from v.430
 


changed lines


 
Added in v.1877
-Removed from v.430
+Added in v.1877

No admin address has been configured	ViewVC Help
Powered by ViewVC 1.0.4