Diff of /trunk/xvidcore/src/image/x86_asm/interpolate8x8_3dn.asm

-revision 1794, Fri Nov 14 15:43:28 2008 UTC
+revision 1795, Wed Nov 26 01:04:34 2008 UTC
 Line 4
  ; *  - 3dnow 8x8 block-based halfpel interpolation -
  ; *
  ; *  Copyright(C) 2001 Peter Ross <pross@xvid.org>
- ; *               2002 Michael Militzer <isibaar@xvid.org>
+ ; *               2002-2008 Michael Militzer <michael@xvid.org>
  ; *               2002 Pascal Massimino <skal@planet-d.net>
  ; *
  ; *  This program is free software ; you can redistribute it and/or modify
 Line 23
  ; *
  ; ****************************************************************************/
- BITS 32
+ %include "nasm.inc"
- %macro cglobal 1
-         %ifdef PREFIX
-                 %ifdef MARK_FUNCS
-                         global _%1:function %1.endfunc-%1
-                         %define %1 _%1:function %1.endfunc-%1
-                         %define ENDFUNC .endfunc
-                 %else
-                         global _%1
-                         %define %1 _%1
-                         %define ENDFUNC
-                 %endif
-         %else
-                 %ifdef MARK_FUNCS
-                         global %1:function %1.endfunc-%1
-                         %define ENDFUNC .endfunc
-                 %else
-                         global %1
-                         %define ENDFUNC
-                 %endif
-         %endif
- %endmacro
  ;=============================================================================
  ; Read Only data
  ;=============================================================================
- %ifdef FORMAT_COFF
+ DATA
- SECTION .rodata
- %else
- SECTION .rodata align=16
- %endif
- ALIGN 16
+ ALIGN SECTION_ALIGN
  mmx_one:
          times 8 db 1
-Line 65
+Line 39
  ; Code
  ;=============================================================================
- SECTION .text
+ SECTION .rotext align=SECTION_ALIGN
  cglobal interpolate8x8_halfpel_h_3dn
  cglobal interpolate8x8_halfpel_v_3dn
-Line 85
+Line 59
  ;-----------------------------------------------------------------------------
  %macro COPY_H_3DN_RND0 0
-   movq mm0, [eax]
+   movq mm0, [_EAX]
-   pavgusb mm0, [eax+1]
+   pavgusb mm0, [_EAX+1]
-   movq mm1, [eax+edx]
+   movq mm1, [_EAX+TMP1]
-   pavgusb mm1, [eax+edx+1]
+   pavgusb mm1, [_EAX+TMP1+1]
-   lea eax, [eax+2*edx]
+   lea _EAX, [_EAX+2*TMP1]
-   movq [ecx], mm0
+   movq [TMP0], mm0
-   movq [ecx+edx], mm1
+   movq [TMP0+TMP1], mm1
  %endmacro
  %macro COPY_H_3DN_RND1 0
-   movq mm0, [eax]
+   movq mm0, [_EAX]
-   movq mm1, [eax+edx]
+   movq mm1, [_EAX+TMP1]
    movq mm4, mm0
    movq mm5, mm1
-   movq mm2, [eax+1]
+   movq mm2, [_EAX+1]
-   movq mm3, [eax+edx+1]
+   movq mm3, [_EAX+TMP1+1]
    pavgusb mm0, mm2
    pxor mm2, mm4
    pavgusb mm1, mm3
-   lea eax, [eax+2*edx]
+   lea _EAX, [_EAX+2*TMP1]
    pxor mm3, mm5
    pand mm2, mm7
    pand mm3, mm7
    psubb mm0, mm2
-   movq [ecx], mm0
+   movq [TMP0], mm0
    psubb mm1, mm3
-   movq [ecx+edx], mm1
+   movq [TMP0+TMP1], mm1
  %endmacro
- ALIGN 16
+ ALIGN SECTION_ALIGN
  interpolate8x8_halfpel_h_3dn:
-   mov eax, [esp+16] ; rounding
+   mov _EAX, prm4 ; rounding
-   mov ecx, [esp+ 4] ; Dst
+   mov TMP0, prm1 ; Dst
-   test eax, eax
+   test _EAX, _EAX
-   mov eax, [esp+ 8] ; Src
+   mov _EAX, prm2 ; Src
-   mov edx, [esp+12] ; stride
+   mov TMP1, prm3 ; stride
    jnz near .rounding1
    COPY_H_3DN_RND0
-   lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
    COPY_H_3DN_RND0
-   lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
    COPY_H_3DN_RND0
-   lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
    COPY_H_3DN_RND0
    ret
-Line 138
+Line 112
    ; we use: (i+j)/2 = ( i+j+1 )/2 - (i^j)&1
    movq mm7, [mmx_one]
    COPY_H_3DN_RND1
-   lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
    COPY_H_3DN_RND1
-   lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
    COPY_H_3DN_RND1
-   lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
    COPY_H_3DN_RND1
    ret
  ENDFUNC
-Line 158
+Line 132
  ;-----------------------------------------------------------------------------
  %macro COPY_V_3DN_RND0 0
-   movq mm0, [eax]
+   movq mm0, [_EAX]
-   movq mm1, [eax+edx]
+   movq mm1, [_EAX+TMP1]
    pavgusb mm0, mm1
-   pavgusb mm1, [eax+2*edx]
+   pavgusb mm1, [_EAX+2*TMP1]
-   lea eax, [eax+2*edx]
+   lea _EAX, [_EAX+2*TMP1]
-   movq [ecx], mm0
+   movq [TMP0], mm0
-   movq [ecx+edx], mm1
+   movq [TMP0+TMP1], mm1
  %endmacro
  %macro COPY_V_3DN_RND1 0
    movq mm0, mm2
-   movq mm1, [eax]
+   movq mm1, [_EAX]
-   movq mm2, [eax+edx]
+   movq mm2, [_EAX+TMP1]
-   lea eax, [eax+2*edx]
+   lea _EAX, [_EAX+2*TMP1]
    movq mm4, mm0
    movq mm5, mm1
    pavgusb mm0, mm1
-Line 181
+Line 155
    pand mm4, mm7         ; lsb's of (i^j)...
    pand mm5, mm7         ; lsb's of (i^j)...
    psubb mm0, mm4        ; ...are substracted from result of pavgusb
-   movq [ecx], mm0
+   movq [TMP0], mm0
    psubb mm1, mm5        ; ...are substracted from result of pavgusb
-   movq [ecx+edx], mm1
+   movq [TMP0+TMP1], mm1
  %endmacro
- ALIGN 16
+ ALIGN SECTION_ALIGN
  interpolate8x8_halfpel_v_3dn:
-   mov eax, [esp+16] ; rounding
+   mov _EAX, prm4 ; rounding
-   mov ecx, [esp+ 4] ; Dst
+   mov TMP0, prm1 ; Dst
-   test eax,eax
+   test _EAX,_EAX
-   mov eax, [esp+ 8] ; Src
+   mov _EAX, prm2 ; Src
-   mov edx, [esp+12] ; stride
+   mov TMP1, prm3 ; stride
      ; we process 2 line at a time
    jnz near .rounding1
    COPY_V_3DN_RND0
-   lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
    COPY_V_3DN_RND0
-   lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
    COPY_V_3DN_RND0
-   lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
    COPY_V_3DN_RND0
    ret
  .rounding1:
   ; we use: (i+j)/2 = ( i+j+1 )/2 - (i^j)&1
    movq mm7, [mmx_one]
-   movq mm2, [eax]       ; loop invariant
+   movq mm2, [_EAX]       ; loop invariant
-   add eax, edx
+   add _EAX, TMP1
    COPY_V_3DN_RND1
-   lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
    COPY_V_3DN_RND1
-   lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
    COPY_V_3DN_RND1
-   lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
    COPY_V_3DN_RND1
    ret
  ENDFUNC
-Line 247
+Line 221
  ; Moreover, we process 2 lines at a times, for better overlapping (~15% faster).
  %macro COPY_HV_3DN_RND0 0
-   lea eax, [eax+edx]
+   lea _EAX, [_EAX+TMP1]
-   movq mm0, [eax]
+   movq mm0, [_EAX]
-   movq mm1, [eax+1]
+   movq mm1, [_EAX+1]
    movq mm6, mm0
    pavgusb mm0, mm1      ; mm0=(j+k+1)/2. preserved for next step
-   lea eax, [eax+edx]
+   lea _EAX, [_EAX+TMP1]
    pxor mm1, mm6         ; mm1=(j^k).     preserved for next step
    por mm3, mm1          ; ij |= jk
-Line 265
+Line 239
    pand mm3, mm7         ; mask lsb
    psubb mm2, mm3        ; apply.
-   movq [ecx], mm2
+   movq [TMP0], mm2
-   movq mm2, [eax]
+   movq mm2, [_EAX]
-   movq mm3, [eax+1]
+   movq mm3, [_EAX+1]
    movq mm6, mm2
    pavgusb mm2, mm3      ; preserved for next iteration
-   lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
    pxor mm3, mm6         ; preserved for next iteration
    por mm1, mm3
-Line 283
+Line 257
    pand mm1, mm7
    psubb mm0, mm1
-   movq [ecx], mm0
+   movq [TMP0], mm0
  %endmacro
  %macro COPY_HV_3DN_RND1 0
-   lea eax,[eax+edx]
+   lea _EAX,[_EAX+TMP1]
-   movq mm0, [eax]
+   movq mm0, [_EAX]
-   movq mm1, [eax+1]
+   movq mm1, [_EAX+1]
    movq mm6, mm0
    pavgusb mm0, mm1      ; mm0=(j+k+1)/2. preserved for next step
-   lea eax, [eax+edx]
+   lea _EAX, [_EAX+TMP1]
    pxor mm1, mm6         ; mm1=(j^k).     preserved for next step
    pand mm3, mm1
-Line 305
+Line 279
    pand mm3, mm7
    psubb mm2, mm3
-   movq [ecx], mm2
+   movq [TMP0], mm2
-   movq mm2, [eax]
+   movq mm2, [_EAX]
-   movq mm3, [eax+1]
+   movq mm3, [_EAX+1]
    movq mm6, mm2
    pavgusb mm2, mm3      ; preserved for next iteration
-   lea ecx, [ecx+edx]
+   lea TMP0, [TMP0+TMP1]
    pxor mm3, mm6         ; preserved for next iteration
    pand mm1, mm3
-Line 322
+Line 296
    pand mm1, mm7
    psubb mm0, mm1
-   movq [ecx], mm0
+   movq [TMP0], mm0
  %endmacro
- ALIGN 16
+ ALIGN SECTION_ALIGN
  interpolate8x8_halfpel_hv_3dn:
-   mov eax, [esp+16] ; rounding
+   mov _EAX, prm4 ; rounding
-   mov ecx, [esp+ 4] ; Dst
+   mov TMP0, prm1 ; Dst
-   test eax, eax
+   test _EAX, _EAX
-   mov eax, [esp+ 8] ; Src
+   mov _EAX, prm2 ; Src
-   mov edx, [esp+12] ; stride
+   mov TMP1, prm3 ; stride
    movq mm7, [mmx_one]
      ; loop invariants: mm2=(i+j+1)/2  and  mm3= i^j
-   movq mm2, [eax]
+   movq mm2, [_EAX]
-   movq mm3, [eax+1]
+   movq mm3, [_EAX+1]
    movq mm6, mm2
    pavgusb mm2, mm3
    pxor mm3, mm6     ; mm2/mm3 ready
-Line 345
+Line 319
    jnz near .rounding1
    COPY_HV_3DN_RND0
-   add ecx, edx
+   add TMP0, TMP1
    COPY_HV_3DN_RND0
-   add ecx, edx
+   add TMP0, TMP1
    COPY_HV_3DN_RND0
-   add ecx, edx
+   add TMP0, TMP1
    COPY_HV_3DN_RND0
    ret
  .rounding1:
    COPY_HV_3DN_RND1
-   add ecx, edx
+   add TMP0, TMP1
    COPY_HV_3DN_RND1
-   add ecx, edx
+   add TMP0, TMP1
    COPY_HV_3DN_RND1
-   add ecx, edx
+   add TMP0, TMP1
    COPY_HV_3DN_RND1
    ret
  ENDFUNC
-Line 373
+Line 347
  ;
  ;-----------------------------------------------------------------------------
- ALIGN 16
+ ALIGN SECTION_ALIGN
  interpolate8x4_halfpel_h_3dn:
-   mov eax, [esp+16] ; rounding
+   mov _EAX, prm4 ; rounding
-   mov ecx, [esp+ 4] ; Dst
+   mov TMP0, prm1 ; Dst
-   test eax, eax
+   test _EAX, _EAX
-   mov eax, [esp+ 8] ; Src
+   mov _EAX, prm2 ; Src
-   mov edx, [esp+12] ; stride
+   mov TMP1, prm3 ; stride
    jnz near .rounding1
    COPY_H_3DN_RND0
-   lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
    COPY_H_3DN_RND0
    ret
-Line 393
+Line 367
    ; we use: (i+j)/2 = ( i+j+1 )/2 - (i^j)&1
    movq mm7, [mmx_one]
    COPY_H_3DN_RND1
-   lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
    COPY_H_3DN_RND1
    ret
  ENDFUNC
-Line 408
+Line 382
  ;
  ;-----------------------------------------------------------------------------
- ALIGN 16
+ ALIGN SECTION_ALIGN
  interpolate8x4_halfpel_v_3dn:
-   mov eax, [esp+16] ; rounding
+   mov _EAX, prm4 ; rounding
-   mov ecx, [esp+ 4] ; Dst
+   mov TMP0, prm1 ; Dst
-   test eax,eax
+   test _EAX,_EAX
-   mov eax, [esp+ 8] ; Src
+   mov _EAX, prm2 ; Src
-   mov edx, [esp+12] ; stride
+   mov TMP1, prm3 ; stride
      ; we process 2 line at a time
    jnz near .rounding1
    COPY_V_3DN_RND0
-   lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
    COPY_V_3DN_RND0
    ret
  .rounding1:
   ; we use: (i+j)/2 = ( i+j+1 )/2 - (i^j)&1
    movq mm7, [mmx_one]
-   movq mm2, [eax]       ; loop invariant
+   movq mm2, [_EAX]       ; loop invariant
-   add eax, edx
+   add _EAX, TMP1
    COPY_V_3DN_RND1
-   lea ecx, [ecx+2*edx]
+   lea TMP0, [TMP0+2*TMP1]
    COPY_V_3DN_RND1
    ret
  ENDFUNC
-Line 458
+Line 432
  ;   (i+j+k+l+0)/4 = (s+t+1)/2 - (ij|kl)|st
  ; with  s=(i+j+1)/2, t=(k+l+1)/2, ij = i^j, kl = k^l, st = s^t.
- ALIGN 16
+ ALIGN SECTION_ALIGN
  interpolate8x4_halfpel_hv_3dn:
-   mov eax, [esp+16] ; rounding
+   mov _EAX, prm4 ; rounding
-   mov ecx, [esp+ 4] ; Dst
+   mov TMP0, prm1 ; Dst
-   test eax, eax
+   test _EAX, _EAX
-   mov eax, [esp+ 8] ; Src
+   mov _EAX, prm2 ; Src
-   mov edx, [esp+12] ; stride
+   mov TMP1, prm3 ; stride
    movq mm7, [mmx_one]
      ; loop invariants: mm2=(i+j+1)/2  and  mm3= i^j
-   movq mm2, [eax]
+   movq mm2, [_EAX]
-   movq mm3, [eax+1]
+   movq mm3, [_EAX+1]
    movq mm6, mm2
    pavgusb mm2, mm3
    pxor mm3, mm6     ; mm2/mm3 ready
-Line 478
+Line 452
    jnz near .rounding1
    COPY_HV_3DN_RND0
-   add ecx, edx
+   add TMP0, TMP1
    COPY_HV_3DN_RND0
    ret
  .rounding1:
    COPY_HV_3DN_RND1
-   add ecx, edx
+   add TMP0, TMP1
    COPY_HV_3DN_RND1
    ret
  ENDFUNC

 Legend:



Removed from v.1794
 


changed lines


 
Added in v.1795
 Legend:



Removed from v.1794
 


changed lines


 
Added in v.1795
-Removed from v.1794
+Added in v.1795

No admin address has been configured	ViewVC Help
Powered by ViewVC 1.0.4