Diff of /trunk/xvidcore/src/quant/x86_asm/quantize_h263_mmx.asm

-revision 1382, Mon Mar 22 22:36:25 2004 UTC
+revision 1424, Mon Apr 12 15:49:56 2004 UTC
 Line 5
  ; *
  ; *  Copyright(C) 2001-2003 Peter Ross <pross@xvid.org>
  ; *               2002-2003 Pascal Massimino <skal@planet-d.net>
+ ; *               2004      Jean-Marc Bastide <jmtest@voila.fr>
  ; *
  ; *  This program is free software ; you can redistribute it and/or modify
  ; *  it under the terms of the GNU General Public License as published by
-Line 20
+Line 21
  ; *  along with this program ; if not, write to the Free Software
  ; *  Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307 USA
  ; *
- ; * $Id: quantize_h263_mmx.asm,v 1.2 2004-03-22 22:36:24 edgomez Exp $
+ ; * $Id: quantize_h263_mmx.asm,v 1.3 2004-04-12 15:49:56 edgomez Exp $
  ; *
  ; ****************************************************************************/
-Line 54
+Line 55
  ;-----------------------------------------------------------------------------
  ;
- ; subtract by Q/2 table
+ ; quant table
  ;
  ;-----------------------------------------------------------------------------
  ALIGN 16
- mmx_sub:
+ mmx_quant:
- %assign quant 1
+ %assign quant 0
- %rep 31
+ %rep 32
-         times 4 dw  quant / 2
+         times 4 dw quant
          %assign quant quant+1
  %endrep
  ;-----------------------------------------------------------------------------
  ;
- ; divide by 2Q table
+ ; subtract by Q/2 table
- ;
- ; use a shift of 16 to take full advantage of _pmulhw_
- ; for q=1, _pmulhw_ will overflow so it is treated seperately
- ; (3dnow2 provides _pmulhuw_ which wont cause overflow)
  ;
  ;-----------------------------------------------------------------------------
  ALIGN 16
- mmx_div:
+ mmx_sub:
  %assign quant 1
  %rep 31
-         times 4 dw  (1<<16) / (quant*2) + 1
+         times 4 dw  quant / 2
          %assign quant quant+1
  %endrep
  ;-----------------------------------------------------------------------------
  ;
- ; add by (odd(Q) ? Q : Q - 1) table
+ ; divide by 2Q table
- ;
- ;-----------------------------------------------------------------------------
- ALIGN 16
- mmx_add:
- %assign quant 1
- %rep 31
-         %if quant % 2 != 0
-         times 4 dw  quant
-         %else
-         times 4 dw quant - 1
-         %endif
-         %assign quant quant+1
- %endrep
- ;-----------------------------------------------------------------------------
  ;
- ; multiple by 2Q table
+ ; use a shift of 16 to take full advantage of _pmulhw_
+ ; for q=1, _pmulhw_ will overflow so it is treated seperately
+ ; (3dnow2 provides _pmulhuw_ which wont cause overflow)
  ;
  ;-----------------------------------------------------------------------------
  ALIGN 16
- mmx_mul:
+ mmx_div:
  %assign quant 1
  %rep 31
-         times 4 dw  quant*2
+         times 4 dw  (1<<16) / (quant*2) + 1
          %assign quant quant+1
  %endrep
- ;-----------------------------------------------------------------------------
- ;
- ; saturation limits
- ;
- ;-----------------------------------------------------------------------------
- ALIGN 16
- sse2_2047:
-         times 8 dw 2047
- ALIGN 16
- mmx_2047:
-         times 4 dw 2047
- ALIGN 8
- mmx_32768_minus_2048:
-         times 4 dw (32768-2048)
- mmx_32767_minus_2047:
-         times 4 dw (32767-2047)
  ;=============================================================================
  ; Code
  ;=============================================================================
-Line 168
+Line 129
  ALIGN 16
  quant_h263_intra_mmx:
-   push ecx
    push esi
-   push edi
-   mov edi, [esp + 12 + 4]     ; coeff
-   mov esi, [esp + 12 + 8]     ; data
-   mov eax, [esp + 12 + 12]    ; quant
-   xor ecx, ecx
+   mov esi, [esp + 4 + 8]     ; data
-   cmp al, 1
-   jz .q1loop
-   movq mm7, [mmx_div + eax * 8 - 8]
+   movsx eax, word [esi]      ; data[0]
- ALIGN 16
+   mov ecx,[esp + 4 + 16]         ; dcscalar
- .loop
+   mov edx,eax
-   movq mm0, [esi + 8*ecx]           ; mm0 = [1st]
+   sar ecx,1
-   movq mm3, [esi + 8*ecx + 8]
+   add eax,ecx
-   pxor mm1, mm1                     ; mm1 = 0
+   sub edx,ecx
-   pxor mm4, mm4                     ;
+   cmovl eax,edx             ; +/- dcscalar/2
-   pcmpgtw mm1, mm0                  ; mm1 = (0 > mm0)
+   mov ecx, [esp + 4 + 12]    ; quant
-   pcmpgtw mm4, mm3                  ;
+   cdq
-   pxor mm0, mm1                     ; mm0 = |mm0|
+   idiv dword [esp + 4 + 16]  ; dcscalar
-   pxor mm3, mm4                     ;
+   cmp ecx, 1
-   psubw mm0, mm1                    ; displace
+   mov edx, [esp + 4 + 4]     ; coeff
-   psubw mm3, mm4                    ;
+   je .low
-   pmulhw mm0, mm7                   ; mm0 = (mm0 / 2Q) >> 16
-   pmulhw mm3, mm7                   ;
-   pxor mm0, mm1                     ; mm0 *= sign(mm0)
-   pxor mm3, mm4                     ;
-   psubw mm0, mm1                    ; undisplace
-   psubw mm3, mm4                    ;
-   movq [edi + 8*ecx], mm0
-   movq [edi + 8*ecx + 8], mm3
-   add ecx, 2
+   movq mm7, [mmx_div+ecx * 8 - 8]
-   cmp ecx, 16
+   mov ecx,4
-   jnz .loop
- .done
+ .loop
+   movq mm0, [esi]           ; data
+   pxor mm4,mm4
+   movq mm1, [esi + 8]
+   pcmpgtw mm4,mm0           ; (data<0)
+   pxor mm5,mm5
+   pmulhw mm0,mm7            ; /(2*quant)
+   pcmpgtw mm5,mm1
+   movq mm2, [esi+16]
+   psubw mm0,mm4             ;  +(data<0)
+   pmulhw mm1,mm7
+   pxor mm4,mm4
+   movq mm3,[esi+24]
+   pcmpgtw mm4,mm2
+   psubw mm1,mm5
+   pmulhw mm2,mm7
+   pxor mm5,mm5
+   pcmpgtw mm5,mm3
+   pmulhw mm3,mm7
+   psubw mm2,mm4
+   psubw mm3,mm5
+   movq [edx], mm0
+   lea esi, [esi+32]
+   movq [edx + 8], mm1
+   movq [edx + 16], mm2
+   movq [edx + 24], mm3
+   dec ecx
+   lea edx, [edx+32]
+   jne .loop
+   jmp .end
+ .low
+   movd mm7,ecx
+   mov ecx,4
+ .loop_low
+   movq mm0, [esi]
+   pxor mm4,mm4
+   movq mm1, [esi + 8]
+   pcmpgtw mm4,mm0
+   pxor mm5,mm5
+   psubw mm0,mm4
+   pcmpgtw mm5,mm1
+   psraw mm0,mm7
+   psubw mm1,mm5
+   movq mm2,[esi+16]
+   pxor mm4,mm4
+   psraw mm1,mm7
+   pcmpgtw mm4,mm2
+   pxor mm5,mm5
+   psubw mm2,mm4
+   movq mm3,[esi+24]
+   pcmpgtw mm5,mm3
+   psraw mm2,mm7
+   psubw mm3,mm5
+   movq [edx], mm0
+   psraw mm3,mm7
+   movq [edx + 8], mm1
+   movq [edx+16],mm2
+   lea esi, [esi+32]
+   movq [edx+24],mm3
+   dec ecx
+   lea edx, [edx+32]
+   jne .loop_low
-     ; caclulate  data[0] // (int32_t)dcscalar)
+ .end
-   mov ecx, [esp + 12 + 16]      ; dcscalar
+   mov edx, [esp + 4 + 4]     ; coeff
-   mov edx, ecx
+   mov [edx],ax
-   movsx eax, word [esi]         ; data[0]
+   xor eax,eax                ; return 0
-   shr edx, 1                    ; edx = dcscalar /2
-   cmp eax, 0
-   jg .gtzero
-   sub eax, edx
-   jmp short .mul
- .gtzero
-   add eax, edx
- .mul
-   cdq ; expand eax -> edx:eax
-   idiv ecx          ; eax = edx:eax / dcscalar
-   mov [edi], ax     ; coeff[0] = ax
-   xor eax, eax      ; return(0);
-   pop edi
    pop esi
-   pop ecx
    ret
- ALIGN 16
- .q1loop
-   movq mm0, [esi + 8*ecx]           ; mm0 = [1st]
-   movq mm3, [esi + 8*ecx + 8]
-   pxor mm1, mm1                     ; mm1 = 0
-   pxor mm4, mm4                     ;
-   pcmpgtw mm1, mm0                  ; mm1 = (0 > mm0)
-   pcmpgtw mm4, mm3                  ;
-   pxor mm0, mm1                     ; mm0 = |mm0|
-   pxor mm3, mm4                     ;
-   psubw mm0, mm1                    ; displace
-   psubw mm3, mm4                    ;
-   psrlw mm0, 1                      ; mm0 >>= 1   (/2)
-   psrlw mm3, 1                      ;
-   pxor mm0, mm1                     ; mm0 *= sign(mm0)
-   pxor mm3, mm4
-   psubw mm0, mm1                    ; undisplace
-   psubw mm3, mm4                    ;
-   movq [edi + 8*ecx], mm0
-   movq [edi + 8*ecx + 8], mm3
-   add ecx, 2
-   cmp ecx, 16
-   jnz .q1loop
-   jmp short .done
  ;-----------------------------------------------------------------------------
  ;
-Line 276
+Line 240
  quant_h263_intra_sse2:
    push esi
-   push edi
-   mov edi, [esp + 8 + 4]                ; coeff
+   mov esi, [esp + 4 + 8]     ; data
-   mov esi, [esp + 8 + 8]                ; data
-   mov eax, [esp + 8 + 12]               ; quant
-   xor ecx, ecx
+   movsx eax, word [esi]      ; data[0]
-   cmp al, 1
-   jz near .qas2_q1loop
+   mov ecx,[esp + 4 + 16]     ; dcscalar
+   mov edx,eax
+   sar ecx,1
+   add eax,ecx
+   sub edx,ecx
+   cmovl eax,edx              ; +/- dcscalar/2
+   mov ecx, [esp + 4 + 12]    ; quant
+   cdq
+   idiv dword [esp + 4 + 16]  ; dcscalar
+   cmp ecx, 1
+   mov edx, [esp + 4 + 4]     ; coeff
+   movq xmm7, [mmx_div+ecx * 8 - 8]
+   je .low
- .qas2_not1
+   mov ecx,2
-   movq mm7, [mmx_div + eax*8 - 8]
-   movq2dq xmm7, mm7
    movlhps xmm7, xmm7
- ALIGN 16
+ .loop
- .qas2_loop
+   movdqa xmm0, [esi]
-   movdqa xmm0, [esi + ecx*8]                ; xmm0 = [1st]
-   movdqa xmm3, [esi + ecx*8 + 16]           ; xmm3 = [2nd]
-   pxor xmm1, xmm1
    pxor xmm4, xmm4
-   pcmpgtw xmm1, xmm0
+   movdqa xmm1, [esi + 16]
-   pcmpgtw xmm4, xmm3
+   pcmpgtw xmm4,xmm0
-   pxor xmm0, xmm1
+   pxor xmm5,xmm5
-   pxor xmm3, xmm4
-   psubw xmm0, xmm1
-   psubw xmm3, xmm4
    pmulhw xmm0, xmm7
+   pcmpgtw xmm5,xmm1
+   movdqa xmm2, [esi+32]
+   psubw xmm0,xmm4
+   pmulhw xmm1,xmm7
+   pxor xmm4,xmm4
+   movdqa xmm3,[esi+48]
+   pcmpgtw xmm4,xmm2
+   psubw xmm1,xmm5
+   pmulhw xmm2,xmm7
+   pxor xmm5,xmm5
+   pcmpgtw xmm5,xmm3
    pmulhw xmm3, xmm7
-   pxor xmm0, xmm1
+   psubw xmm2,xmm4
-   pxor xmm3, xmm4
+   psubw xmm3,xmm5
-   psubw xmm0, xmm1
+   movdqa [edx], xmm0
-   psubw xmm3, xmm4
+   lea esi, [esi+64]
-   movdqa [edi + ecx*8], xmm0
+   movdqa [edx + 16], xmm1
-   movdqa [edi + ecx*8 + 16], xmm3
+   movdqa [edx + 32], xmm2
+   movdqa [edx + 48], xmm3
-   add ecx, 4
-   cmp ecx, 16
+   dec ecx
-   jnz .qas2_loop
+   lea edx, [edx+64]
+   jne .loop
- .qas2_done
+   jmp .end
-   mov ecx, [esp + 8 + 16]   ; dcscalar
-   mov edx, ecx
+ .low
-   movsx eax, word [esi]
+   movd xmm7,ecx
-   shr edx, 1
+   mov ecx,2
-   cmp eax, 0
+ .loop_low
-   jg .qas2_gtzero
+   movdqa xmm0, [esi]
+   pxor xmm4,xmm4
-   sub eax, edx
+   movdqa xmm1, [esi + 16]
-   jmp short .qas2_mul
+   pcmpgtw xmm4,xmm0
+   pxor xmm5,xmm5
- .qas2_gtzero
+   psubw xmm0,xmm4
-   add eax, edx
+   pcmpgtw xmm5,xmm1
+   psraw xmm0,xmm7
- .qas2_mul
+   psubw xmm1,xmm5
-   cdq
+   movdqa xmm2,[esi+32]
-   idiv ecx
+   pxor xmm4,xmm4
+   psraw xmm1,xmm7
+   pcmpgtw xmm4,xmm2
+   pxor xmm5,xmm5
+   psubw xmm2,xmm4
+   movdqa xmm3,[esi+48]
+   pcmpgtw xmm5,xmm3
+   psraw xmm2,xmm7
+   psubw xmm3,xmm5
+   movdqa [edx], xmm0
+   psraw xmm3,xmm7
+   movdqa [edx+16], xmm1
+   movdqa [edx+32],xmm2
+   lea esi, [esi+64]
+   movdqa [edx+48],xmm3
+   dec ecx
+   lea edx, [edx+64]
+   jne .loop_low
-   mov [edi], ax
+ .end
+   mov edx, [esp + 4 + 4]     ; coeff
+   mov [edx],ax
+   xor eax,eax                ; return 0
-   xor eax, eax      ; return(0);
-   pop edi
    pop esi
    ret
- ALIGN 16
- .qas2_q1loop
-   movdqa xmm0, [esi + ecx*8]         ; xmm0 = [1st]
-   movdqa xmm3, [esi + ecx*8 + 16]    ; xmm3 = [2nd]
-   pxor xmm1, xmm1
-   pxor xmm4, xmm4
-   pcmpgtw xmm1, xmm0
-   pcmpgtw xmm4, xmm3
-   pxor xmm0, xmm1
-   pxor xmm3, xmm4
-   psubw xmm0, xmm1
-   psubw xmm3, xmm4
-   psrlw xmm0, 1
-   psrlw xmm3, 1
-   pxor xmm0, xmm1
-   pxor xmm3, xmm4
-   psubw xmm0, xmm1
-   psubw xmm3, xmm4
-   movdqa [edi + ecx*8], xmm0
-   movdqa [edi + ecx*8 + 16], xmm3
-   add ecx, 4
-   cmp ecx, 16
-   jnz .qas2_q1loop
-   jmp near .qas2_done
  ;-----------------------------------------------------------------------------
  ;
  ; uint32_t quant_h263_inter_mmx(int16_t * coeff,
-Line 598
+Line 564
  ;
  ;-----------------------------------------------------------------------------
-   ; note: we only saturate to +2047 *before* restoring the sign.
-   ; Hence, final clamp really is [-2048,2047]
  ALIGN 16
  dequant_h263_intra_mmx:
+   mov ecx, [esp+12]                 ; quant
+   mov eax, [esp+ 8]                 ; coeff
+   pcmpeqw mm0,mm0
+   movq mm6, [mmx_quant + ecx*8]     ; quant
+   shl ecx,31                        ; quant & 1 ? 0 : - 1
+   movq mm7,mm6
+   movq mm5,mm0
+   movd mm1,ecx
    mov edx, [esp+ 4]                 ; data
-   mov ecx, [esp+ 8]                 ; coeff
+   psllw mm0,mm1
-   mov eax, [esp+12]                 ; quant
+   paddw mm7,mm7                     ; 2*quant
-   movq mm6, [mmx_add + eax*8 - 8]   ; quant or quant-1
+   paddw mm6,mm0                     ; quant-1
-   movq mm7, [mmx_mul + eax*8 - 8]   ; 2*quant
+   psllw mm5,12
-   mov eax, -16
+   mov ecx,8
+   psrlw mm5,1
- ALIGN 16
+ .loop:
- .loop
+   movq mm0,[eax]
-   movq mm0, [ecx+8*eax+8*16]        ; c  = coeff[i]
+   pxor mm2,mm2
-   movq mm3, [ecx+8*eax+8*16 + 8]    ; c' = coeff[i+1]
-   pxor mm1, mm1
    pxor mm4, mm4
-   pcmpgtw mm1, mm0                  ; sign(c)
+   pcmpgtw mm2,mm0
-   pcmpgtw mm4, mm3                  ; sign(c')
+   pcmpeqw mm4,mm0
+   pmullw mm0,mm7      ; * 2 * quant
+   movq mm1,[eax+8]
+   psubw mm0,mm2
+   pxor mm2,mm6
+   pxor mm3,mm3
+   pandn mm4,mm2
    pxor mm2, mm2
-   pxor mm5, mm5
+   pcmpgtw mm3,mm1
-   pcmpeqw mm2, mm0                  ; c is zero
+   pcmpeqw mm2,mm1
-   pcmpeqw mm5, mm3                  ; c' is zero
+   pmullw mm1,mm7
-   pandn mm2, mm6                    ; offset = isZero ? 0 : quant_add
+   paddw mm0,mm4
-   pandn mm5, mm6
+   psubw mm1,mm3
-   pxor mm0, mm1                     ; negate if negative
+   pxor mm3,mm6
-   pxor mm3, mm4                     ; negate if negative
+   pandn mm2,mm3
-   psubw mm0, mm1
+   paddsw mm0, mm5        ; saturate
-   psubw mm3, mm4
+   paddw mm1,mm2
-   pmullw mm0, mm7                   ; *= 2Q
-   pmullw mm3, mm7                   ; *= 2Q
+   paddsw mm1, mm5
-   paddw mm0, mm2                    ; + offset
+   psubsw mm0, mm5
-   paddw mm3, mm5                    ; + offset
+   psubsw mm1, mm5
-   paddw mm0, mm1                    ; negate back
+   psubsw mm0, mm5
-   paddw mm3, mm4                    ; negate back
+   psubsw mm1, mm5
+   paddsw mm0, mm5
-   ; saturates to +2047
+   paddsw mm1, mm5
-   movq mm2, [mmx_32767_minus_2047]
-   add eax, 2
+   movq [edx],mm0
-   paddsw mm0, mm2
+   lea eax,[eax+16]
-   paddsw mm3, mm2
+   movq [edx+8],mm1
-   psubsw mm0, mm2
-   psubsw mm3, mm2
+   dec ecx
+   lea edx,[edx+16]
-   pxor mm0, mm1
+   jne .loop
-   pxor mm3, mm4
-   movq [edx + 8*eax + 8*16   - 2*8], mm0
-   movq [edx + 8*eax + 8*16+8 - 2*8], mm3
-   jnz near .loop
   ; deal with DC
-   movd mm0, [ecx]
+   mov eax, [esp+ 8]                ; coeff
-   pmullw mm0, [esp+16]          ; dcscalar
+   movsx eax,word [eax]
-   movq mm2, [mmx_32767_minus_2047]
+   mov ecx,2047
-   paddsw mm0, mm2
+   imul dword [esp+16]              ; dcscalar
-   psubsw mm0, mm2
+   mov edx, [esp+ 4]                ; data
-   movq mm3, [mmx_32768_minus_2048]
+   cmp eax,ecx
-   psubsw mm0, mm3
+   cmovg eax,ecx
-   paddsw mm0, mm3
+   not ecx
-   movd eax, mm0
+   cmp eax,ecx
+   cmovl eax,ecx
    mov [edx], ax
-   xor eax, eax              ; return(0);
+   xor eax, eax                    ; return 0
    ret
  ;-----------------------------------------------------------------------------
-Line 675
+Line 649
  ;
  ;-----------------------------------------------------------------------------
-   ; this is the same as dequant_inter_mmx, except that we're
-   ; saturating using 'pminsw' (saves 2 cycles/loop => ~5% faster)
  ALIGN 16
  dequant_h263_intra_xmm:
+   mov ecx, [esp+12]                 ; quant
+   mov eax, [esp+ 8]                 ; coeff
+   movd mm6,ecx                      ; quant
+   pcmpeqw mm0,mm0
+   pshufw mm6,mm6,0                  ; all quant
+   shl ecx,31
+   movq mm5,mm0
+   movq mm7,mm6
+   movd mm1,ecx
    mov edx, [esp+ 4]                 ; data
-   mov ecx, [esp+ 8]                 ; coeff
+   psllw mm0,mm1                     ; quant & 1 ? 0 : - 1
-   mov eax, [esp+12]                 ; quant
+   movq mm4,mm5
-   movq mm6, [mmx_add + eax*8 - 8]   ; quant or quant-1
+   paddw mm7,mm7                     ; quant*2
-   movq mm7, [mmx_mul + eax*8 - 8]   ; 2*quant
+   paddw mm6,mm0                     ; quant-1
-   mov eax, -16
+   psrlw mm4,5                       ; mm4=2047
+   mov ecx,8
+   pxor mm5,mm4                      ; mm5=-2048
- ALIGN 16
+ .loop:
- .loop
+   movq mm0,[eax]
-   movq mm0, [ecx+8*eax+8*16]        ; c  = coeff[i]
-   movq mm3, [ecx+8*eax+8*16 + 8]    ; c' = coeff[i+1]
-   pxor mm1, mm1
-   pxor mm4, mm4
-   pcmpgtw mm1, mm0                  ; sign(c)
-   pcmpgtw mm4, mm3                  ; sign(c')
    pxor mm2, mm2
-   pxor mm5, mm5
+   pxor mm3,mm3
-   pcmpeqw mm2, mm0                  ; c is zero
-   pcmpeqw mm5, mm3                  ; c' is zero
+   pcmpgtw mm2,mm0
-   pandn mm2, mm6                    ; offset = isZero ? 0 : quant_add
+   pcmpeqw mm3,mm0     ; if coeff==0...
-   pandn mm5, mm6
+   pmullw mm0,mm7      ; * 2 * quant
-   pxor mm0, mm1                     ; negate if negative
+   movq mm1,[eax+8]
-   pxor mm3, mm4                     ; negate if negative
-   psubw mm0, mm1
+   psubw mm0,mm2
-   psubw mm3, mm4
+   pxor mm2,mm6
-   pmullw mm0, mm7                   ; *= 2Q
+   pandn mm3,mm2       ; ...then data=0
-   pmullw mm3, mm7                   ; *= 2Q
+   pxor mm2,mm2
-   paddw mm0, mm2                    ; + offset
+   paddw mm0,mm3
-   paddw mm3, mm5                    ; + offset
+   pxor mm3,mm3
-   paddw mm0, mm1                    ; negate back
+   pcmpeqw mm2,mm1
-   paddw mm3, mm4                    ; negate back
+   pcmpgtw mm3,mm1
+   pmullw mm1,mm7
-    ; saturates to +2047
-   movq mm2, [mmx_2047]
+   pminsw mm0,mm4
-   pminsw mm0, mm2
+   psubw mm1,mm3
-   add eax, 2
+   pxor mm3,mm6
-   pminsw mm3, mm2
+   pandn mm2,mm3
+   paddw mm1,mm2
-   pxor mm0, mm1
-   pxor mm3, mm4
+   pmaxsw mm0,mm5
-   movq [edx + 8*eax + 8*16   - 2*8], mm0
+   pminsw mm1,mm4
-   movq [edx + 8*eax + 8*16+8 - 2*8], mm3
+   movq [edx],mm0
-   jnz near .loop
+   pmaxsw mm1,mm5
+   lea eax,[eax+16]
+   movq [edx+8],mm1
+   dec ecx
+   lea edx,[edx+16]
+   jne .loop
      ; deal with DC
-   movd mm0, [ecx]
+   mov eax, [esp+ 8]                 ; coeff
+   mov edx, [esp+ 4]                 ; data
+   movd mm0, [eax]
    pmullw mm0, [esp+16]    ; dcscalar
-   movq mm2, [mmx_32767_minus_2047]
+   pminsw mm0,mm4
-   paddsw mm0, mm2
+   pmaxsw mm0,mm5
-   psubsw mm0, mm2
-   movq mm2, [mmx_32768_minus_2048]
-   psubsw mm0, mm2
-   paddsw mm0, mm2
    movd eax, mm0
    mov [edx], ax
-   xor eax, eax
+   xor eax, eax                      ; return 0
    ret
-Line 753
+Line 735
  ALIGN 16
  dequant_h263_intra_sse2:
+   mov ecx, [esp+12]                 ; quant
+   mov eax, [esp+ 8]                 ; coeff
+   movd xmm6,ecx                     ; quant
+ ;  shr ecx,1
+   shl ecx,31
+   pshuflw xmm6,xmm6,0
+   pcmpeqw xmm0,xmm0
+   movlhps xmm6,xmm6                 ; all quant
+   movd xmm1,ecx
+   movdqa xmm5,xmm0
+   movdqa xmm7,xmm6
    mov edx, [esp+ 4]        ; data
-   mov ecx, [esp+ 8]        ; coeff
+   paddw xmm7,xmm7                   ; quant *2
-   mov eax, [esp+12]        ; quant
+   psllw xmm0,xmm1                   ; quant & 1 ? 0 : - 1
-   movq mm6, [mmx_add + eax * 8 - 8]
+   movdqa xmm4,xmm5
-   movq mm7, [mmx_mul + eax * 8 - 8]
+   paddw xmm6,xmm0                   ; quant-1
-   movq2dq xmm6, mm6
+   psrlw xmm4,5                      ; 2047
-   movq2dq xmm7, mm7
+   mov ecx,4
-   movlhps xmm6, xmm6
+   pxor xmm5,xmm4                    ; mm5=-2048
-   movlhps xmm7, xmm7
-   mov eax, -16
- ALIGN 16
+ .loop:
- .loop
+   movdqa xmm0,[eax]
-   movdqa xmm0, [ecx + 8*16 + 8*eax]      ; c  = coeff[i]
-   movdqa xmm3, [ecx + 8*16 + 8*eax+ 16]
-   pxor xmm1, xmm1
-   pxor xmm4, xmm4
-   pcmpgtw xmm1, xmm0    ; sign(c)
-   pcmpgtw xmm4, xmm3
    pxor xmm2, xmm2
-   pxor xmm5, xmm5
+   pxor xmm3,xmm3
-   pcmpeqw xmm2, xmm0    ; c is zero
-   pcmpeqw xmm5, xmm3
-   pandn xmm2, xmm6      ; offset = isZero ? 0 : quant_add
-   pandn xmm5, xmm6
-   pxor xmm0, xmm1       ; negate if negative
-   pxor xmm3, xmm4
-   psubw xmm0, xmm1
-   psubw xmm3, xmm4
-   pmullw xmm0, xmm7     ; *= 2Q
-   pmullw xmm3, xmm7
-   paddw xmm0, xmm2      ; + offset
-   paddw xmm3, xmm5
-   paddw xmm0, xmm1      ; negate back
-   paddw xmm3, xmm4
-     ; saturates to +2047
-   movdqa xmm2, [sse2_2047]
-   pminsw xmm0, xmm2
-   add eax, 4
-   pminsw xmm3, xmm2
-   pxor xmm0, xmm1
+   pcmpgtw xmm2,xmm0
-   pxor xmm3, xmm4
+   pcmpeqw xmm3,xmm0
-   movdqa [edx + 8*16 - 8*4 + 8*eax], xmm0
+   pmullw xmm0,xmm7      ; * 2 * quant
-   movdqa [edx + 8*16 - 8*4 + 8*eax + 16], xmm3
+   movdqa xmm1,[eax+16]
-   jnz near .loop
+   psubw xmm0,xmm2
+   pxor xmm2,xmm6
+   pandn xmm3,xmm2
+   pxor xmm2,xmm2
+   paddw xmm0,xmm3
+   pxor xmm3,xmm3
+   pcmpeqw xmm2,xmm1
+   pcmpgtw xmm3,xmm1
+   pmullw xmm1,xmm7
+   pminsw xmm0,xmm4
+   psubw xmm1,xmm3
+   pxor xmm3,xmm6
+   pandn xmm2,xmm3
+   paddw xmm1,xmm2
+   pmaxsw xmm0,xmm5
+   pminsw xmm1,xmm4
+   movdqa [edx],xmm0
+   pmaxsw xmm1,xmm5
+   lea eax,[eax+32]
+   movdqa [edx+16],xmm1
+   dec ecx
+   lea edx,[edx+32]
+   jne .loop
   ; deal with DC
-   movd mm0, [ecx]
-   pmullw mm0, [esp+16]    ; dcscalar
+   mov eax, [esp+ 8]             ; coeff
-   movq mm2, [mmx_32767_minus_2047]
+   movsx eax,word [eax]
-   paddsw mm0, mm2
+   imul dword [esp+16]            ; dcscalar
-   psubsw mm0, mm2
+   mov edx, [esp+ 4]              ; data
-   movq mm2, [mmx_32768_minus_2048]
+   movd xmm0,eax
-   psubsw mm0, mm2
+   pminsw xmm0,xmm4
-   paddsw mm0, mm2
+   pmaxsw xmm0,xmm5
-   movd eax, mm0
+   movd eax,xmm0
    mov [edx], ax
-   xor eax, eax
+   xor eax, eax              ; return 0
    ret
  ;-----------------------------------------------------------------------------
-Line 828
+Line 822
  ALIGN 16
  dequant_h263_inter_mmx:
+   mov ecx, [esp+12]                 ; quant
+   mov eax, [esp+ 8]                 ; coeff
+   pcmpeqw mm0,mm0
+   movq mm6, [mmx_quant + ecx*8]     ; quant
+   shl ecx,31                        ; odd/even
+   movq mm7,mm6
+   movd mm1,ecx
    mov edx, [esp+ 4]        ; data
-   mov ecx, [esp+ 8]        ; coeff
+   movq mm5,mm0
-   mov eax, [esp+12]        ; quant
+   psllw mm0,mm1                     ; quant & 1 ? 0 : - 1
-   movq mm6, [mmx_add + eax*8 - 8]  ; quant or quant-1
+   paddw mm7,mm7                     ; quant*2
-   movq mm7, [mmx_mul + eax*8 - 8]  ; 2*quant
+   paddw mm6,mm0                     ; quant & 1 ? quant : quant - 1
-   mov eax, -16
+   psllw mm5,12
+   mov ecx,8
+   psrlw mm5,1                       ; 32767-2047 (32768-2048)
- ALIGN 16
+ .loop:
- .loop
+   movq mm0,[eax]
-   movq mm0, [ecx+8*eax+8*16]      ; c  = coeff[i]
-   movq mm3, [ecx+8*eax+8*16 + 8]  ; c' = coeff[i+1]
-   pxor mm1, mm1
    pxor mm4, mm4
-   pcmpgtw mm1, mm0  ; sign(c)
-   pcmpgtw mm4, mm3  ; sign(c')
    pxor mm2, mm2
-   pxor mm5, mm5
+   pcmpeqw mm4,mm0     ; if coeff==0...
-   pcmpeqw mm2, mm0  ; c is zero
+   pcmpgtw mm2,mm0
-   pcmpeqw mm5, mm3  ; c' is zero
+   pmullw mm0,mm7      ; * 2 * quant
-   pandn mm2, mm6    ; offset = isZero ? 0 : quant_add
+   pxor mm3,mm3
-   pandn mm5, mm6
+   psubw mm0,mm2
-   pxor mm0, mm1     ; negate if negative
+   movq mm1,[eax+8]
-   pxor mm3, mm4     ; negate if negative
+   pxor mm2,mm6
-   psubw mm0, mm1
+   pcmpgtw mm3,mm1
-   psubw mm3, mm4
+   pandn mm4,mm2      ; ... then data==0
-   pmullw mm0, mm7   ; *= 2Q
+   pmullw mm1,mm7
-   pmullw mm3, mm7   ; *= 2Q
+   pxor mm2,mm2
-   paddw mm0, mm2    ; + offset
+   pcmpeqw mm2,mm1
-   paddw mm3, mm5    ; + offset
+   psubw mm1,mm3
-   paddw mm0, mm1    ; negate back
+   pxor mm3,mm6
-   paddw mm3, mm4    ; negate back
+   pandn mm2,mm3
-   ; saturates to +2047
+   paddw mm0,mm4
-   movq mm2, [mmx_32767_minus_2047]
+   paddw mm1,mm2
-   add eax, 2
-   paddsw mm0, mm2
+   paddsw mm0, mm5        ; saturate
-   paddsw mm3, mm2
+   paddsw mm1, mm5
-   psubsw mm0, mm2
+   psubsw mm0, mm5
-   psubsw mm3, mm2
+   psubsw mm1, mm5
+   psubsw mm0, mm5
-   pxor mm0, mm1
+   psubsw mm1, mm5
-   pxor mm3, mm4
+   paddsw mm0, mm5
-   movq [edx + 8*eax + 8*16   - 2*8], mm0
+   paddsw mm1, mm5
-   movq [edx + 8*eax + 8*16+8 - 2*8], mm3
-   jnz near .loop
+   movq [edx],mm0
+   lea eax,[eax+16]
+   movq [edx+8],mm1
+   dec ecx
+   lea edx,[edx+16]
+   jne .loop
-   xor eax, eax
+   xor eax, eax              ; return 0
    ret
  ;-----------------------------------------------------------------------------
  ;
  ; uint32_t dequant_h263_inter_xmm(int16_t * data,
-Line 884
+Line 889
  ;                                 const uint16_t *mpeg_matrices);
  ;
  ;-----------------------------------------------------------------------------
-   ; this is the same as dequant_inter_mmx,
-   ; except that we're saturating using 'pminsw' (saves 2 cycles/loop)
  ALIGN 16
  dequant_h263_inter_xmm:
+   mov ecx, [esp+12]                 ; quant
+   mov eax, [esp+ 8]                 ; coeff
+   pcmpeqw mm0,mm0
+   movq mm6, [mmx_quant + ecx*8]     ; quant
+   shl ecx,31
+   movq mm5,mm0
+   movd mm1,ecx
+   movq mm7,mm6
+   psllw mm0,mm1
    mov edx, [esp+ 4]        ; data
-   mov ecx, [esp+ 8]        ; coeff
+   movq mm4,mm5
-   mov eax, [esp+12]        ; quant
+   paddw mm7,mm7
-   movq mm6, [mmx_add + eax*8 - 8]  ; quant or quant-1
+   paddw mm6,mm0                     ; quant-1
-   movq mm7, [mmx_mul + eax*8 - 8]  ; 2*quant
-   mov eax, -16
+   psrlw mm4,5
+   mov ecx,8
- ALIGN 16
+   pxor mm5,mm4                      ; mm5=-2048
- .loop
-   movq mm0, [ecx+8*eax+8*16]      ; c  = coeff[i]
+ .loop:
-   movq mm3, [ecx+8*eax+8*16 + 8]  ; c' = coeff[i+1]
+   movq mm0,[eax]
-   pxor mm1, mm1
+   pxor mm3,mm3
-   pxor mm4, mm4
-   pcmpgtw mm1, mm0  ; sign(c)
-   pcmpgtw mm4, mm3  ; sign(c')
    pxor mm2, mm2
-   pxor mm5, mm5
+   pcmpeqw mm3,mm0
-   pcmpeqw mm2, mm0  ; c is zero
+   pcmpgtw mm2,mm0
-   pcmpeqw mm5, mm3  ; c' is zero
+   pmullw mm0,mm7                    ; * 2 * quant
-   pandn mm2, mm6    ; offset = isZero ? 0 : quant_add
+   pandn mm3,mm6
-   pandn mm5, mm6
+   movq mm1,[eax+8]
-   pxor mm0, mm1     ; negate if negative
+   psubw mm0,mm2
-   pxor mm3, mm4     ; negate if negative
+   pxor mm2,mm3
-   psubw mm0, mm1
+   pxor mm3,mm3
-   psubw mm3, mm4
+   paddw mm0,mm2
-   pmullw mm0, mm7   ; *= 2Q
+   pxor mm2,mm2
-   pmullw mm3, mm7   ; *= 2Q
+   pcmpgtw mm3,mm1
-   paddw mm0, mm2    ; + offset
+   pcmpeqw mm2,mm1
-   paddw mm3, mm5    ; + offset
+   pmullw mm1,mm7
-   paddw mm0, mm1    ; start restoring sign
+   pandn mm2,mm6
-   paddw mm3, mm4    ; start restoring sign
+   psubw mm1,mm3
-                             ; saturates to +2047
+   pxor mm3,mm2
-   movq mm2, [mmx_2047]
+   paddw mm1,mm3
-   pminsw mm0, mm2
-   add eax, 2
+   pminsw mm0,mm4
-   pminsw mm3, mm2
+   pminsw mm1,mm4
+   pmaxsw mm0,mm5
-   pxor mm0, mm1 ; finish restoring sign
+   pmaxsw mm1,mm5
-   pxor mm3, mm4 ; finish restoring sign
-   movq [edx + 8*eax + 8*16   - 2*8], mm0
+   movq [edx],mm0
-   movq [edx + 8*eax + 8*16+8 - 2*8], mm3
+   lea eax,[eax+16]
-   jnz near .loop
+   movq [edx+8],mm1
+   dec ecx
+   lea edx,[edx+16]
+   jne .loop
-   xor eax, eax
+   xor eax, eax              ; return 0
    ret
  ;-----------------------------------------------------------------------------
  ;
  ; uint32_t dequant_h263_inter_sse2(int16_t * data,
-Line 948
+Line 960
  ALIGN 16
  dequant_h263_inter_sse2:
-   mov edx, [esp + 4]    ; data
-   mov ecx, [esp + 8]    ; coeff
-   mov eax, [esp + 12]   ; quant
-   movq mm6, [mmx_add + eax * 8 - 8]
-   movq mm7, [mmx_mul + eax * 8 - 8]
-   movq2dq xmm6, mm6
-   movq2dq xmm7, mm7
-   movlhps xmm6, xmm6
-   movlhps xmm7, xmm7
-   mov eax, -16
- ALIGN 16
+   mov ecx, [esp+12]                 ; quant
- .loop
+   mov eax, [esp+ 8]                 ; coeff
-   movdqa xmm0, [ecx + 8*16 + 8*eax]  ; c  = coeff[i]
-   movdqa xmm3, [ecx + 8*16 + 8*eax + 16]
-   pxor xmm1, xmm1
+   movq xmm6, [mmx_quant + ecx*8]    ; quant
-   pxor xmm4, xmm4
+   inc ecx
-   pcmpgtw xmm1, xmm0    ; sign(c)
+   pcmpeqw xmm5,xmm5
-   pcmpgtw xmm4, xmm3
+   and ecx,1
+   movlhps xmm6,xmm6
+   movd xmm0,ecx
+   movdqa xmm7,xmm6
+   pshuflw xmm0,xmm0,0
+   movdqa xmm4,xmm5
+   mov edx, [esp+ 4]                 ; data
+   movlhps xmm0,xmm0
+   paddw xmm7,xmm7
+   psubw xmm6,xmm0
+   psrlw xmm4,5   ; 2047
+   mov ecx,4
+   pxor xmm5,xmm4 ; mm5=-2048
+ .loop:
+   movdqa xmm0,[eax]
+   pxor xmm3,xmm3
    pxor xmm2, xmm2
-   pxor xmm5, xmm5
+   pcmpeqw xmm3,xmm0
-   pcmpeqw xmm2, xmm0    ; c is zero
+   pcmpgtw xmm2,xmm0
-   pcmpeqw xmm5, xmm3
+   pmullw xmm0,xmm7      ; * 2 * quant
+   pandn xmm3,xmm6
+   movdqa xmm1,[eax+16]
+   psubw xmm0,xmm2
+   pxor xmm2,xmm3
+   pxor xmm3,xmm3
+   paddw xmm0,xmm2
+   pxor xmm2,xmm2
+   pcmpgtw xmm3,xmm1
+   pcmpeqw xmm2,xmm1
+   pmullw xmm1,xmm7
    pandn xmm2, xmm6
-   pandn xmm5, xmm6
+   psubw xmm1,xmm3
-   pxor xmm0, xmm1       ; negate if negative
+   pxor xmm3,xmm2
-   pxor xmm3, xmm4
+   paddw xmm1,xmm3
-   psubw xmm0, xmm1
-   psubw xmm3, xmm4
+   pminsw xmm0,xmm4
-   pmullw xmm0, xmm7     ; *= 2Q
+   pminsw xmm1,xmm4
-   pmullw xmm3, xmm7
+   pmaxsw xmm0,xmm5
-   paddw xmm0, xmm2      ; + offset
+   pmaxsw xmm1,xmm5
-   paddw xmm3, xmm5
+   movdqa [edx],xmm0
-   paddw xmm0, xmm1      ; start restoring sign
+   lea eax,[eax+32]
-   paddw xmm3, xmm4
+   movdqa [edx+16],xmm1
-  ; saturates to +2047
+   dec ecx
-   movdqa xmm2, [sse2_2047]
+   lea edx,[edx+32]
-   pminsw xmm0, xmm2
+   jne .loop
-   add eax, 4
-   pminsw xmm3, xmm2
-   pxor xmm0, xmm1 ; finish restoring sign
-   pxor xmm3, xmm4
-   movdqa [edx + 8*16 - 8*4 + 8*eax], xmm0
-   movdqa [edx + 8*16 - 8*4 + 8*eax + 16], xmm3
-   jnz near .loop
-   xor eax, eax
+   xor eax, eax              ; return 0
    ret

 Legend:



Removed from v.1382
 


changed lines


 
Added in v.1424
 Legend:



Removed from v.1382
 


changed lines


 
Added in v.1424
-Removed from v.1382
+Added in v.1424

No admin address has been configured	ViewVC Help
Powered by ViewVC 1.0.4