Diff of /trunk/xvidcore/src/quant/x86_asm/quantize_mmx.asm

-revision 126, Wed Apr 17 10:54:19 2002 UTC
+revision 269, Sun Jul  7 13:21:34 2002 UTC
 Line 32
  ; *
  ; *     History:
  ; *
+ ; * 14.06.2002  mmx+xmm dequant_* funcs revamped  -Skal-
+ ; * 24.02.2002  sse2 quant_intra / dequant_intra (have to use movdqu ???)
+ ; * 17.04.2002  sse2 quant_inter / dequant_inter
  ; * 26.12.2001  minor bug fixes, dequant saturate, further optimization
  ; * 19.11.2001  quant_inter_mmx now returns sum of abs. coefficient values
  ; *     04.11.2001      nasm version; (c)2001 peter ross <pross@cs.rmit.edu.au>
-Line 258
+Line 261
  ;
  ;===========================================================================
- align ALIGN
+ align 8
  mmx_32768_minus_2048                            times 4 dw (32768-2048)
  mmx_32767_minus_2047                            times 4 dw (32767-2047)
  align 16
+ mmx_2047 times 4 dw 2047
+ align 16
  sse2_pos_2047                                           times 8 dw 2047
  sse2_neg_2048                                           times 8 dw -2048
-Line 377
+Line 383
  ;===========================================================================
  ;
+ ; void quant_intra_sse2(int16_t * coeff,
+ ;                                       const int16_t const * data,
+ ;                                       const uint32_t quant,
+ ;                                       const uint32_t dcscalar);
+ ;
+ ;===========================================================================
+ align ALIGN
+ cglobal quant_intra_sse2
+ quant_intra_sse2
+                 push    esi
+                 push    edi
+                 mov             edi, [esp + 8 + 4]                      ; coeff
+                 mov             esi, [esp + 8 + 8]                      ; data
+                 mov             eax, [esp + 8 + 12]                     ; quant
+                 xor             ecx, ecx
+                 cmp             al, 1
+                 jz              near .qas2_q1loop
+ .qas2_not1
+                 movq    mm7, [mmx_div + eax*8 - 8]
+                 movq2dq xmm7, mm7
+                 movlhps xmm7, xmm7
+ align 16
+ .qas2_loop
+                 movdqa  xmm0, [esi + ecx*8]                     ; xmm0 = [1st]
+                 movdqa  xmm3, [esi + ecx*8 + 16]        ; xmm3 = [2nd]
+                 pxor    xmm1, xmm1
+                 pxor    xmm4, xmm4
+                 pcmpgtw xmm1, xmm0
+                 pcmpgtw xmm4, xmm3
+                 pxor    xmm0, xmm1
+                 pxor    xmm3, xmm4
+                 psubw   xmm0, xmm1
+                 psubw   xmm3, xmm4
+                 pmulhw  xmm0, xmm7
+                 pmulhw  xmm3, xmm7
+                 pxor    xmm0, xmm1
+                 pxor    xmm3, xmm4
+                 psubw   xmm0, xmm1
+                 psubw   xmm3, xmm4
+                 movdqa  [edi + ecx*8], xmm0
+                 movdqa  [edi + ecx*8 + 16], xmm3
+                 add             ecx, 4
+                 cmp             ecx, 16
+                 jnz     .qas2_loop
+ .qas2_done
+                 mov     ecx, [esp + 8 + 16]     ; dcscalar
+                 mov     edx, ecx
+                 movsx   eax, word [esi]
+                 shr     edx, 1
+                 cmp             eax, 0
+                 jg              .qas2_gtzero
+                 sub             eax, edx
+                 jmp             short .qas2_mul
+ .qas2_gtzero
+                 add             eax, edx
+ .qas2_mul
+                 cdq
+                 idiv    ecx
+                 mov             [edi], ax
+                 pop             edi
+                 pop             esi
+                 ret
+ align 16
+ .qas2_q1loop
+                 movdqa  xmm0, [esi + ecx*8]                     ; xmm0 = [1st]
+                 movdqa  xmm3, [esi + ecx*8 + 16]        ; xmm3 = [2nd]
+                 pxor    xmm1, xmm1
+                 pxor    xmm4, xmm4
+                 pcmpgtw xmm1, xmm0
+                 pcmpgtw xmm4, xmm3
+                 pxor    xmm0, xmm1
+                 pxor    xmm3, xmm4
+                 psubw   xmm0, xmm1
+                 psubw   xmm3, xmm4
+                 psrlw   xmm0, 1
+                 psrlw   xmm3, 1
+                 pxor    xmm0, xmm1
+                 pxor    xmm3, xmm4
+                 psubw   xmm0, xmm1
+                 psubw   xmm3, xmm4
+                 movdqa  [edi + ecx*8], xmm0
+                 movdqa  [edi + ecx*8 + 16], xmm3
+                 add             ecx, 4
+                 cmp             ecx, 16
+                 jnz             .qas2_q1loop
+                 jmp             near .qas2_done
+ ;===========================================================================
+ ;
  ; uint32_t quant_inter_mmx(int16_t * coeff,
  ;                                       const int16_t const * data,
  ;                                       const uint32_t quant);
-Line 508
+Line 619
                  movlhps xmm6, xmm6                                      ; duplicate into high 8 bytes
                  cmp             al, 1
-                 jnz             .not1
+                 jz              near .qes2_q1loop
-                 jmp             .q1loop
- .not1
+ .qes2_not1
                  movq    mm0, [mmx_div + eax*8 - 8]      ; divider
                  movq2dq xmm7, mm0
                  movlhps xmm7, xmm7
  align 16
- .loop
+ .qes2_loop
                  movdqa  xmm0, [esi + ecx*8]                     ; xmm0 = [1st]
                  movdqa  xmm3, [esi + ecx*8 + 16]        ; xmm3 = [2nd]
-                 pxor    xmm1, xmm1                                      ; xmm1 = 0
+                 pxor    xmm1, xmm1
                  pxor    xmm4, xmm4
-                 pcmpgtw xmm1, xmm0                                      ; xmm1 = (0 > xmm0)
+                 pcmpgtw xmm1, xmm0
                  pcmpgtw xmm4, xmm3
-                 pxor    xmm0, xmm1                                      ; xmm0 = |xmm0|
+                 pxor    xmm0, xmm1
                  pxor    xmm3, xmm4
-                 psubw   xmm0, xmm1                                      ; displace
+                 psubw   xmm0, xmm1
                  psubw   xmm3, xmm4
-                 psubusw xmm0, xmm6                                      ; xmm0 -= sub (unsigned, dont go < 0)
+                 psubusw xmm0, xmm6
                  psubusw xmm3, xmm6
-                 pmulhw  xmm0, xmm7                                      ; xmm0 = (xmm0 / 2Q) >> 16
+                 pmulhw  xmm0, xmm7
                  pmulhw  xmm3, xmm7
-                 paddw   xmm5, xmm0                                      ; sum += xmm0
+                 paddw   xmm5, xmm0
-                 pxor    xmm0, xmm1                                      ; xmm0 *= sign(xmm0)
+                 pxor    xmm0, xmm1
                  paddw   xmm5, xmm3
                  pxor    xmm3, xmm4
-                 psubw   xmm0, xmm1                                      ; undisplace
+                 psubw   xmm0, xmm1
                  psubw   xmm3, xmm4
                  movdqa  [edi + ecx*8], xmm0
                  movdqa  [edi + ecx*8 + 16], xmm3
                  add             ecx, 4
                  cmp             ecx, 16
-                 jnz             .loop
+                 jnz             .qes2_loop
- .done
+ .qes2_done
-                 pmaddwd xmm5, [plus_one]
+                 movdqu  xmm6, [plus_one]
+                 pmaddwd xmm5, xmm6
                  movhlps xmm6, xmm5
                  paddd   xmm5, xmm6
                  movdq2q mm0, xmm5
-Line 562
+Line 673
                  ret
  align 16
- .q1loop
+ .qes2_q1loop
-                 movq    mm0, [esi + 8*ecx]              ; mm0 = [1st]
+                 movdqa  xmm0, [esi + ecx*8]                     ; xmm0 = [1st]
-                 movq    mm3, [esi + 8*ecx+ 8]           ;
+                 movdqa  xmm3, [esi + ecx*8 + 16]        ; xmm3 = [2nd]
-                 pxor    mm1, mm1                ; mm1 = 0
+                 pxor    xmm1, xmm1
-                 pxor    mm4, mm4                ;
+                 pxor    xmm4, xmm4
-                 pcmpgtw mm1, mm0                ; mm1 = (0 > mm0)
+                 pcmpgtw xmm1, xmm0
-                 pcmpgtw mm4, mm3                ;
+                 pcmpgtw xmm4, xmm3
-                 pxor    mm0, mm1                ; mm0 = |mm0|
+                 pxor    xmm0, xmm1
-                 pxor    mm3, mm4                ;
+                 pxor    xmm3, xmm4
-                 psubw   mm0, mm1                ; displace
+                 psubw   xmm0, xmm1
-                 psubw   mm3, mm4                ;
+                 psubw   xmm3, xmm4
-                 psubusw mm0, mm6                ; mm0 -= sub (unsigned, dont go < 0)
+                 psubusw xmm0, xmm6
-                 psubusw mm3, mm6                ;
+                 psubusw xmm3, xmm6
-                 psrlw   mm0, 1                  ; mm0 >>= 1   (/2)
+                 psrlw   xmm0, 1
-                 psrlw   mm3, 1                  ;
+                 psrlw   xmm3, 1
-                 paddw   mm5, mm0                ; sum += mm0
+                 paddw   xmm5, xmm0
-                 pxor    mm0, mm1                ; mm0 *= sign(mm0)
+                 pxor    xmm0, xmm1
-                 paddw   mm5, mm3                ;
+                 paddw   xmm5, xmm3
-                 pxor    mm3, mm4                ;
+                 pxor    xmm3, xmm4
-                 psubw   mm0, mm1                ; undisplace
+                 psubw   xmm0, xmm1
-                 psubw   mm3, mm4
+                 psubw   xmm3, xmm4
-                 movq    [edi + 8*ecx], mm0
+                 movdqa  [edi + ecx*8], xmm0
-                 movq    [edi + 8*ecx + 8], mm3
+                 movdqa  [edi + ecx*8 + 16], xmm3
-                 add ecx,2
+                 add             ecx,4
                  cmp ecx,16
-                 jnz     .q1loop
+                 jnz             .qes2_q1loop
+                 jmp             .qes2_done
-                 jmp     .done
  ;===========================================================================
-Line 603
+Line 712
  ;
  ;===========================================================================
+   ; note: we only saturate to +2047 *before* restoring the sign.
+   ; Hence, final clamp really is [-2048,2047]
  align ALIGN
  cglobal dequant_intra_mmx
- dequant_intra_mmx
+ dequant_intra_mmx:
+   mov    edx, [esp+ 4]        ; data
+   mov    ecx, [esp+ 8]        ; coeff
+   mov    eax, [esp+12]        ; quant
+   movq mm6, [mmx_add + eax*8 - 8]  ; quant or quant-1
+   movq mm7, [mmx_mul + eax*8 - 8]  ; 2*quant
+   mov eax, -16
+ align ALIGN
+ .loop
+   movq mm0, [ecx+8*eax+8*16]      ; c  = coeff[i]
+   movq mm3, [ecx+8*eax+8*16 + 8]  ; c' = coeff[i+1]
+   pxor mm1, mm1
+   pxor mm4, mm4
+   pcmpgtw mm1, mm0  ; sign(c)
+   pcmpgtw mm4, mm3  ; sign(c')
+   pxor mm2, mm2
+   pxor mm5, mm5
+   pcmpeqw mm2, mm0  ; c is zero
+   pcmpeqw mm5, mm3  ; c' is zero
+   pandn mm2, mm6    ; offset = isZero ? 0 : quant_add
+   pandn mm5, mm6
+   pxor mm0, mm1     ; negate if negative
+   pxor mm3, mm4     ; negate if negative
+   psubw mm0, mm1
+   psubw mm3, mm4
+   pmullw mm0, mm7 ; *= 2Q
+   pmullw mm3, mm7 ; *= 2Q
+   paddw mm0, mm2 ; + offset
+   paddw mm3, mm5 ; + offset
+   paddw mm0, mm1 ; negate back
+   paddw mm3, mm4 ; negate back
+     ; saturates to +2047
+   movq mm2, [mmx_32767_minus_2047]
+   add eax, 2
+   paddsw mm0, mm2
+   paddsw mm3, mm2
+   psubsw mm0, mm2
+   psubsw mm3, mm2
+   pxor mm0, mm1
+   pxor mm3, mm4
+   movq [edx + 8*eax + 8*16   - 2*8], mm0
+   movq [edx + 8*eax + 8*16+8 - 2*8], mm3
+   jnz   near .loop
+     ; deal with DC
+   movd mm0, [ecx]
+   pmullw mm0, [esp+16]    ; dcscalar
+   movq mm2, [mmx_32767_minus_2047]
+   paddsw mm0, mm2
+   psubsw mm0, mm2
+   movq mm3, [mmx_32768_minus_2048]
+   psubsw mm0, mm3
+   paddsw mm0, mm3
+   movd eax, mm0
+   mov [edx], ax
+   ret
+ ;===========================================================================
+ ;
+ ; void dequant_intra_xmm(int16_t *data,
+ ;                                       const int16_t const *coeff,
+ ;                                       const uint32_t quant,
+ ;                                       const uint32_t dcscalar);
+ ;
+ ;===========================================================================
+   ; this is the same as dequant_inter_mmx, except that we're
+   ; saturating using 'pminsw' (saves 2 cycles/loop => ~5% faster)
+ align ALIGN
+ cglobal dequant_intra_xmm
+ dequant_intra_xmm:
+   mov    edx, [esp+ 4]        ; data
+   mov    ecx, [esp+ 8]        ; coeff
+   mov    eax, [esp+12]        ; quant
+   movq mm6, [mmx_add + eax*8 - 8]  ; quant or quant-1
+   movq mm7, [mmx_mul + eax*8 - 8]  ; 2*quant
+   mov eax, -16
+ align ALIGN
+ .loop
+   movq mm0, [ecx+8*eax+8*16]      ; c  = coeff[i]
+   movq mm3, [ecx+8*eax+8*16 + 8]  ; c' = coeff[i+1]
+   pxor mm1, mm1
+   pxor mm4, mm4
+   pcmpgtw mm1, mm0  ; sign(c)
+   pcmpgtw mm4, mm3  ; sign(c')
+   pxor mm2, mm2
+   pxor mm5, mm5
+   pcmpeqw mm2, mm0  ; c is zero
+   pcmpeqw mm5, mm3  ; c' is zero
+   pandn mm2, mm6    ; offset = isZero ? 0 : quant_add
+   pandn mm5, mm6
+   pxor mm0, mm1     ; negate if negative
+   pxor mm3, mm4     ; negate if negative
+   psubw mm0, mm1
+   psubw mm3, mm4
+   pmullw mm0, mm7 ; *= 2Q
+   pmullw mm3, mm7 ; *= 2Q
+   paddw mm0, mm2 ; + offset
+   paddw mm3, mm5 ; + offset
+   paddw mm0, mm1 ; negate back
+   paddw mm3, mm4 ; negate back
+     ; saturates to +2047
+   movq mm2, [mmx_2047]
+   pminsw mm0, mm2
+   add eax, 2
+   pminsw mm3, mm2
+   pxor mm0, mm1
+   pxor mm3, mm4
+   movq [edx + 8*eax + 8*16   - 2*8], mm0
+   movq [edx + 8*eax + 8*16+8 - 2*8], mm3
+   jnz   near .loop
+     ; deal with DC
+   movd mm0, [ecx]
+   pmullw mm0, [esp+16]    ; dcscalar
+   movq mm2, [mmx_32767_minus_2047]
+   paddsw mm0, mm2
+   psubsw mm0, mm2
+   movq mm2, [mmx_32768_minus_2048]
+   psubsw mm0, mm2
+   paddsw mm0, mm2
+   movd eax, mm0
+   mov [edx], ax
+   ret
+ ;===========================================================================
+ ;
+ ; void dequant_intra_sse2(int16_t *data,
+ ;                                       const int16_t const *coeff,
+ ;                                       const uint32_t quant,
+ ;                                       const uint32_t dcscalar);
+ ;
+ ;===========================================================================
+ align 16
+ cglobal dequant_intra_sse2
+ dequant_intra_sse2:
                  push    esi
                  push    edi
-Line 616
+Line 877
                  movq    mm6, [mmx_add + eax * 8 - 8]
                  movq    mm7, [mmx_mul + eax * 8 - 8]
+                 movq2dq xmm6, mm6
+                 movq2dq xmm7, mm7
+                 movlhps xmm6, xmm6
+                 movlhps xmm7, xmm7
                  xor eax, eax
- align ALIGN
+ align 16
- .loop
+ .das2_loop
-                 movq    mm0, [esi + 8*eax]              ; mm0 = [coeff]
+                 movdqa  xmm0, [esi + eax*8]
-                 movq    mm3, [esi + 8*eax + 8]  ;
+                 movdqa  xmm3, [esi + eax*8 + 16]
-                 pxor    mm1, mm1                ; mm1 = 0
+                 pxor    xmm1, xmm1
-                 pxor    mm4, mm4                ;
+                 pxor    xmm4, xmm4
-                 pcmpgtw mm1, mm0                ; mm1 = (0 > mm0)
+                 pcmpgtw xmm1, xmm0
-                 pcmpgtw mm4, mm3                ;
+                 pcmpgtw xmm4, xmm3
-                 pxor    mm2, mm2                ; mm2 = 0
+                 pxor    xmm2, xmm2
-                 pxor    mm5, mm5                ;
+                 pxor    xmm5, xmm5
-                 pcmpeqw mm2, mm0                ; mm2 = (0 == mm0)
+                 pcmpeqw xmm2, xmm0
-                 pcmpeqw mm5, mm3                ;
+                 pcmpeqw xmm5, xmm3
-                 pandn   mm2, mm6                ; mm2 = (iszero ? 0 : add)
+                 pandn   xmm2, xmm6
-                 pandn   mm5, mm6                ;
+                 pandn   xmm5, xmm6
-                 pxor    mm0, mm1                ; mm0 = |mm0|
+                 pxor    xmm0, xmm1
-                 pxor    mm3, mm4                ;
+                 pxor    xmm3, xmm4
-                 psubw   mm0, mm1                ; displace
+                 psubw   xmm0, xmm1
-                 psubw   mm3, mm4                ;
+                 psubw   xmm3, xmm4
-                 pmullw  mm0, mm7                ; mm0 *= 2Q
+                 pmullw  xmm0, xmm7
-                 pmullw  mm3, mm7                ;
+                 pmullw  xmm3, xmm7
-                 paddw   mm0, mm2                ; mm0 += mm2 (add)
+                 paddw   xmm0, xmm2
-                 paddw   mm3, mm5                ;
+                 paddw   xmm3, xmm5
-                 pxor    mm0, mm1                ; mm0 *= sign(mm0)
+                 pxor    xmm0, xmm1
-                 pxor    mm3, mm4                ;
+                 pxor    xmm3, xmm4
-                 psubw   mm0, mm1                ; undisplace
+                 psubw   xmm0, xmm1
-                 psubw   mm3, mm4
+                 psubw   xmm3, xmm4
  %ifdef SATURATE
-                 movq mm2, [mmx_32767_minus_2047]
+                 movdqu  xmm2, [sse2_pos_2047]
-                 movq mm4, [mmx_32768_minus_2048]
+                 movdqu  xmm4, [sse2_neg_2048]
-                 paddsw  mm0, mm2
+                 pminsw  xmm0, xmm2
-                 paddsw  mm3, mm2
+                 pminsw  xmm3, xmm2
-                 psubsw  mm0, mm2
+                 pmaxsw  xmm0, xmm4
-                 psubsw  mm3, mm2
+                 pmaxsw  xmm3, xmm4
-                 psubsw  mm0, mm4
-                 psubsw  mm3, mm4
-                 paddsw  mm0, mm4
-                 paddsw  mm3, mm4
  %endif
-                 movq    [edi + 8*eax], mm0              ; [data] = mm0
+                 movdqa  [edi + eax*8], xmm0
-                 movq    [edi + 8*eax + 8], mm3
+                 movdqa  [edi + eax*8 + 16], xmm3
-                 add eax, 2
+                 add             eax, 4
                  cmp eax, 16
-                 jnz     near .loop
+                 jnz             near .das2_loop
                  mov     ax, [esi]                                       ; ax = data[0]
                  imul ax, [esp + 8 + 16]                 ; eax = data[0] * dcscalar
  %ifdef SATURATE
                  cmp ax, -2048
-                 jl .set_n2048
+                 jl              .das2_set_n2048
                  cmp ax, 2047
-                 jg .set_2047
+                 jg              .das2_set_2047
  %endif
                  mov     [edi], ax
-Line 681
+Line 943
                  ret
  %ifdef SATURATE
- align ALIGN
+ align 16
- .set_n2048
+ .das2_set_n2048
                  mov     word [edi], -2048
                  pop     edi
                  pop     esi
                  ret
- align ALIGN
+ align 16
- .set_2047
+ .das2_set_2047
                  mov     word [edi], 2047
                  pop     edi
                  pop     esi
-Line 706
+Line 968
  align ALIGN
  cglobal dequant_inter_mmx
- dequant_inter_mmx
+ dequant_inter_mmx:
-                 push    esi
+   mov    edx, [esp+ 4]        ; data
-                 push    edi
+   mov    ecx, [esp+ 8]        ; coeff
+   mov    eax, [esp+12]        ; quant
-                 mov     edi, [esp + 8 + 4]      ; data
+   movq mm6, [mmx_add + eax*8 - 8]  ; quant or quant-1
-                 mov     esi, [esp + 8 + 8]      ; coeff
+   movq mm7, [mmx_mul + eax*8 - 8]  ; 2*quant
-                 mov     eax, [esp + 8 + 12]     ; quant
+   mov eax, -16
-                 movq    mm6, [mmx_add + eax * 8 - 8]
-                 movq    mm7, [mmx_mul + eax * 8 - 8]
-                 xor eax, eax
  align ALIGN
  .loop
-                 movq    mm0, [esi + 8*eax]                      ; mm0 = [coeff]
+   movq mm0, [ecx+8*eax+8*16]      ; c  = coeff[i]
-                 movq    mm3, [esi + 8*eax + 8]          ;
+   movq mm3, [ecx+8*eax+8*16 + 8]  ; c' = coeff[i+1]
-                 pxor    mm1, mm1                ; mm1 = 0
+   pxor mm1, mm1
-                 pxor    mm4, mm4                ;
+   pxor mm4, mm4
-                 pcmpgtw mm1, mm0                ; mm1 = (0 > mm0)
+   pcmpgtw mm1, mm0  ; sign(c)
-                 pcmpgtw mm4, mm3                ;
+   pcmpgtw mm4, mm3  ; sign(c')
-                 pxor    mm2, mm2                ; mm2 = 0
+   pxor mm2, mm2
-                 pxor    mm5, mm5                ;
+   pxor mm5, mm5
-                 pcmpeqw mm2, mm0                ; mm2 = (0 == mm0)
+   pcmpeqw mm2, mm0  ; c is zero
-                 pcmpeqw mm5, mm3                ;
+   pcmpeqw mm5, mm3  ; c' is zero
-                 pandn   mm2, mm6                ; mm2 = (iszero ? 0 : add)
+   pandn mm2, mm6    ; offset = isZero ? 0 : quant_add
-                 pandn   mm5, mm6                ;
+   pandn mm5, mm6
-                 pxor    mm0, mm1                ; mm0 = |mm0|
+   pxor mm0, mm1     ; negate if negative
-                 pxor    mm3, mm4                ;
+   pxor mm3, mm4     ; negate if negative
-                 psubw   mm0, mm1                ; displace
+   psubw mm0, mm1
-                 psubw   mm3, mm4                ;
-                 pmullw  mm0, mm7                ; mm0 *= 2Q
-                 pmullw  mm3, mm7                ;
-                 paddw   mm0, mm2                ; mm0 += mm2 (add)
-                 paddw   mm3, mm5                ;
-                 pxor    mm0, mm1                ; mm0 *= sign(mm0)
-                 pxor    mm3, mm4                ;
-                 psubw   mm0, mm1                ; undisplace
                  psubw   mm3, mm4
+   pmullw mm0, mm7 ; *= 2Q
+   pmullw mm3, mm7 ; *= 2Q
+   paddw mm0, mm2 ; + offset
+   paddw mm3, mm5 ; + offset
+   paddw mm0, mm1 ; negate back
+   paddw mm3, mm4 ; negate back
- %ifdef SATURATE
+     ; saturates to +2047
                  movq mm2, [mmx_32767_minus_2047]
-                 movq mm4, [mmx_32768_minus_2048]
+   add eax, 2
                  paddsw  mm0, mm2
                  paddsw  mm3, mm2
                  psubsw  mm0, mm2
                  psubsw  mm3, mm2
-                 psubsw  mm0, mm4
-                 psubsw  mm3, mm4
-                 paddsw  mm0, mm4
-                 paddsw  mm3, mm4
- %endif
-                 movq    [edi + 8*eax], mm0
+   pxor mm0, mm1
-                 movq    [edi + 8*eax + 8], mm3
+   pxor mm3, mm4
+   movq [edx + 8*eax + 8*16   - 2*8], mm0
+   movq [edx + 8*eax + 8*16+8 - 2*8], mm3
+   jnz   near .loop
+   ret
+ ;===========================================================================
+ ;
+ ; void dequant_inter_xmm(int16_t * data,
+ ;                                       const int16_t * const coeff,
+ ;                                       const uint32_t quant);
+ ;
+ ;===========================================================================
+   ; this is the same as dequant_inter_mmx,
+   ; except that we're saturating using 'pminsw' (saves 2 cycles/loop)
+ align ALIGN
+ cglobal dequant_inter_xmm
+ dequant_inter_xmm:
+   mov    edx, [esp+ 4]        ; data
+   mov    ecx, [esp+ 8]        ; coeff
+   mov    eax, [esp+12]        ; quant
+   movq mm6, [mmx_add + eax*8 - 8]  ; quant or quant-1
+   movq mm7, [mmx_mul + eax*8 - 8]  ; 2*quant
+   mov eax, -16
+ align ALIGN
+ .loop
+   movq mm0, [ecx+8*eax+8*16]      ; c  = coeff[i]
+   movq mm3, [ecx+8*eax+8*16 + 8]  ; c' = coeff[i+1]
+   pxor mm1, mm1
+   pxor mm4, mm4
+   pcmpgtw mm1, mm0  ; sign(c)
+   pcmpgtw mm4, mm3  ; sign(c')
+   pxor mm2, mm2
+   pxor mm5, mm5
+   pcmpeqw mm2, mm0  ; c is zero
+   pcmpeqw mm5, mm3  ; c' is zero
+   pandn mm2, mm6    ; offset = isZero ? 0 : quant_add
+   pandn mm5, mm6
+   pxor mm0, mm1     ; negate if negative
+   pxor mm3, mm4     ; negate if negative
+   psubw mm0, mm1
+   psubw mm3, mm4
+   pmullw mm0, mm7 ; *= 2Q
+   pmullw mm3, mm7 ; *= 2Q
+   paddw mm0, mm2 ; + offset
+   paddw mm3, mm5 ; + offset
+   paddw mm0, mm1 ; start restoring sign
+   paddw mm3, mm4 ; start restoring sign
+       ; saturates to +2047
+   movq mm2, [mmx_2047]
+   pminsw mm0, mm2
                  add eax, 2
-                 cmp eax, 16
+   pminsw mm3, mm2
-                 jnz     near .loop
-                 pop     edi
+   pxor mm0, mm1 ; finish restoring sign
-                 pop     esi
+   pxor mm3, mm4 ; finish restoring sign
+   movq [edx + 8*eax + 8*16   - 2*8], mm0
+   movq [edx + 8*eax + 8*16+8 - 2*8], mm3
+   jnz   near .loop
                  ret
  ;===========================================================================
  ;
  ; void dequant_inter_sse2(int16_t * data,
-Line 801
+Line 1108
                  xor eax, eax
  align 16
- .loop
+ .des2_loop
                  movdqa  xmm0, [esi + eax*8]                     ; xmm0 = [coeff]
                  movdqa  xmm3, [esi + eax*8 + 16]
                  pxor    xmm1, xmm1
-Line 828
+Line 1135
                  psubw   xmm3, xmm4
  %ifdef SATURATE
-                 movdqa  xmm2, [sse2_pos_2047]
+                 movdqu  xmm2, [sse2_pos_2047]
-                 movdqa  xmm4, [sse2_neg_2048]
+                 movdqu  xmm4, [sse2_neg_2048]
                  pminsw  xmm0, xmm2
                  pminsw  xmm3, xmm2
                  pmaxsw  xmm0, xmm4
-Line 841
+Line 1148
                  add eax, 4
                  cmp eax, 16
-                 jnz     near .loop
+                 jnz     near .des2_loop
                  pop     edi
                  pop     esi

 Legend:



Removed from v.126
 


changed lines


 
Added in v.269
 Legend:



Removed from v.126
 


changed lines


 
Added in v.269
-Removed from v.126
+Added in v.269

No admin address has been configured	ViewVC Help
Powered by ViewVC 1.0.4