Diff of /branches/dev-api-4/xvidcore/src/quant/x86_asm/quantize_mpeg_mmx.asm

-revision 1176, Thu Oct  9 18:50:22 2003 UTC
+revision 1192, Tue Oct 28 22:23:03 2003 UTC
 Line 21
  ; *  along with this program ; if not, write to the Free Software
  ; *  Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307 USA
  ; *
- ; * $Id: quantize_mpeg_mmx.asm,v 1.1.2.2 2003-10-09 18:50:22 edgomez Exp $
+ ; * $Id: quantize_mpeg_mmx.asm,v 1.1.2.3 2003-10-28 22:23:03 edgomez Exp $
  ; *
  ; *************************************************************************/
- ; data/text alignment
- %define ALIGN 8
  %define SATURATE
- bits 32
+ BITS 32
  %macro cglobal 1
          %ifdef PREFIX
-Line 50
+Line 47
          %endif
  %endmacro
- ;***************************************************************************
+ ;=============================================================================
- ; Local data
+ ; Local data (Read Only)
- ;***************************************************************************
+ ;=============================================================================
- %ifdef FORMAT_COFF
+ SECTION .rodata
- SECTION .data data
- %else
- SECTION .data data align=8
- %endif
  mmx_one:
          times 4 dw       1
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- ;
  ; divide by 2Q table
- ;
+ ;-----------------------------------------------------------------------------
- ;===========================================================================
- align 16
+ ALIGN 16
  mmx_div:
- %assign quant 1
+         times 4 dw 65535 ; the div by 2 formula will overflow for the case
- %rep 31
+                          ; quant=1 but we don't care much because quant=1
+                          ; is handled by a different piece of code that
+                          ; doesn't use this table.
+ %assign quant 2
+ %rep 30
          times 4 dw  (1<<17) / (quant*2) + 1
          %assign quant quant+1
  %endrep
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- ;
  ; intra matrix
- ;
+ ;-----------------------------------------------------------------------------
- ;===========================================================================
  cextern intra_matrix
  cextern intra_matrix_fix
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- ;
  ; inter matrix
- ;
+ ;-----------------------------------------------------------------------------
- ;===========================================================================
  cextern inter_matrix
  cextern inter_matrix_fix
-Line 100
+Line 91
  %define VM18Q 4
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- ;
  ; quantd table
- ;
+ ;-----------------------------------------------------------------------------
- ;===========================================================================
  quantd:
  %assign quant 1
-Line 113
+Line 102
          %assign quant quant+1
  %endrep
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- ;
  ; multiple by 2Q table
- ;
+ ;-----------------------------------------------------------------------------
- ;===========================================================================
  mmx_mul_quant:
  %assign quant 1
-Line 126
+Line 113
          %assign quant quant+1
  %endrep
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- ;
  ; saturation limits
- ;
+ ;-----------------------------------------------------------------------------
- ;===========================================================================
- align 16
+ ALIGN 16
  mmx_32767_minus_2047:
          times 4 dw (32767-2047)
-Line 145
+Line 130
  zero:
          times 4 dw 0
- ;***************************************************************************
+ ;=============================================================================
- ; Local data
+ ; Code
- ;***************************************************************************
+ ;=============================================================================
- section .text
+ SECTION .text
- ;===========================================================================
+ cglobal quant_mpeg_intra_mmx
+ cglobal quant_mpeg_inter_mmx
+ cglobal dequant_mpeg_intra_mmx
+ cglobal dequant_mpeg_inter_mmx
+ ;-----------------------------------------------------------------------------
  ;
  ; uint32_t quant_mpeg_intra_mmx(int16_t * coeff,
  ;                               const int16_t const * data,
  ;                               const uint32_t quant,
  ;                               const uint32_t dcscalar);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- align ALIGN
+ ALIGN 16
- cglobal quant_mpeg_intra_mmx
  quant_mpeg_intra_mmx:
          push    ecx
-Line 183
+Line 172
          movq    mm7, [mmx_div + eax * 8 - 8] ; multipliers[quant] -> mm7
- align ALIGN
+ ALIGN 16
  .loop
          movq    mm0, [esi + 8*ecx]              ; mm0 = [1st]
          movq    mm3, [esi + 8*ecx + 8]  ;
          pxor    mm1, mm1                ; mm1 = 0
          pxor    mm4, mm4
          pcmpgtw mm1, mm0                ; mm1 = (0 > mm0)
          pcmpgtw mm4, mm3
          pxor    mm0, mm1                ; mm0 = |mm0|
          pxor    mm3, mm4                ;
          psubw   mm0, mm1                ; displace
          psubw   mm3, mm4                ;
          psllw   mm0, 4                  ; level << 4
-         psllw   mm3, 4                  ;
+   psllw mm3, 4
          movq    mm2, [intra_matrix + 8*ecx]
          psrlw   mm2, 1                  ; intra_matrix[i]>>1
          paddw   mm0, mm2
          movq    mm2, [intra_matrix_fix + ecx*8]
          pmulhw  mm0, mm2                ; (level<<4 + intra_matrix[i]>>1) / intra_matrix[i]
          movq    mm2, [intra_matrix + 8*ecx + 8]
          psrlw   mm2, 1
          paddw   mm3, mm2
          movq    mm2, [intra_matrix_fix + ecx*8 + 8]
          pmulhw  mm3, mm2
          paddw   mm0, mm5                ; + quantd
          paddw   mm3, mm5
          pmulhw  mm0, mm7                ; mm0 = (mm0 / 2Q) >> 16
          pmulhw  mm3, mm7                ;
          psrlw   mm0, 1                  ; additional shift by 1 => 16 + 1 = 17
          psrlw   mm3, 1
          pxor    mm0, mm1                ; mm0 *= sign(mm0)
          pxor    mm3, mm4                ;
          psubw   mm0, mm1                ; undisplace
-Line 237
+Line 216
  .done
                  ; caclulate  data[0] // (int32_t)dcscalar)
          mov     ecx, [esp + 12 + 16]    ; dcscalar
          mov     edx, ecx
          movsx   eax, word [esi] ; data[0]
-Line 262
+Line 240
          xor eax, eax                            ; return(0);
          ret
- align ALIGN
+ ALIGN 16
  .q1loop
          movq    mm0, [esi + 8*ecx]              ; mm0 = [1st]
          movq    mm3, [esi + 8*ecx + 8]  ;
          pxor    mm1, mm1                ; mm1 = 0
          pxor    mm4, mm4                ;
          pcmpgtw mm1, mm0                ; mm1 = (0 > mm0)
          pcmpgtw mm4, mm3                ;
          pxor    mm0, mm1                ; mm0 = |mm0|
          pxor    mm3, mm4                ;
          psubw   mm0, mm1                ; displace
          psubw   mm3, mm4                ;
          psllw   mm0, 4
          psllw   mm3, 4
          movq    mm2, [intra_matrix + 8*ecx]
          psrlw   mm2, 1
          paddw   mm0, mm2
          movq    mm2, [intra_matrix_fix + ecx*8]
          pmulhw  mm0, mm2                ; (level<<4 + intra_matrix[i]>>1) / intra_matrix[i]
          movq    mm2, [intra_matrix + 8*ecx + 8]
          psrlw   mm2, 1
          paddw   mm3, mm2
          movq    mm2, [intra_matrix_fix + ecx*8 + 8]
          pmulhw  mm3, mm2
          paddw   mm0, mm5
          paddw   mm3, mm5
          psrlw   mm0, 1                  ; mm0 >>= 1   (/2)
          psrlw   mm3, 1                  ;
          pxor    mm0, mm1                ; mm0 *= sign(mm0)
          pxor    mm3, mm4        ;
          psubw   mm0, mm1                ; undisplace
          psubw   mm3, mm4                ;
          movq    [edi + 8*ecx], mm0
          movq    [edi + 8*ecx + 8], mm3
-Line 315
+Line 281
          jmp             near .done
- align ALIGN
+ ALIGN 16
  .q2loop
          movq    mm0, [esi + 8*ecx]              ; mm0 = [1st]
          movq    mm3, [esi + 8*ecx + 8]  ;
          pxor    mm1, mm1                ; mm1 = 0
          pxor    mm4, mm4                ;
          pcmpgtw mm1, mm0                ; mm1 = (0 > mm0)
          pcmpgtw mm4, mm3                ;
          pxor    mm0, mm1                ; mm0 = |mm0|
          pxor    mm3, mm4                ;
          psubw   mm0, mm1                ; displace
          psubw   mm3, mm4                ;
          psllw   mm0, 4
          psllw   mm3, 4
          movq    mm2, [intra_matrix + 8*ecx]
          psrlw   mm2, 1
          paddw   mm0, mm2
          movq    mm2, [intra_matrix_fix + ecx*8]
          pmulhw  mm0, mm2                ; (level<<4 + intra_matrix[i]>>1) / intra_matrix[i]
          movq    mm2, [intra_matrix + 8*ecx + 8]
          psrlw   mm2, 1
          paddw   mm3, mm2
          movq    mm2, [intra_matrix_fix + ecx*8 + 8]
          pmulhw  mm3, mm2
          paddw   mm0, mm5
          paddw   mm3, mm5
          psrlw   mm0, 2                  ; mm0 >>= 1   (/4)
          psrlw   mm3, 2                  ;
          pxor    mm0, mm1                ; mm0 *= sign(mm0)
          pxor    mm3, mm4        ;
          psubw   mm0, mm1                ; undisplace
          psubw   mm3, mm4                ;
          movq    [edi + 8*ecx], mm0
          movq    [edi + 8*ecx + 8], mm3
-Line 368
+Line 322
          jmp             near .done
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
  ; uint32_t quant_mpeg_inter_mmx(int16_t * coeff,
  ;                               const int16_t const * data,
  ;                               const uint32_t quant);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
- align ALIGN
+ ALIGN 16
- cglobal quant_mpeg_inter_mmx
  quant_mpeg_inter_mmx:
          push    ecx
-Line 400
+Line 353
          movq    mm7, [mmx_div + eax * 8 - 8]    ; divider
- align ALIGN
+ ALIGN 16
  .loop
          movq    mm0, [esi + 8*ecx]              ; mm0 = [1st]
          movq    mm3, [esi + 8*ecx + 8]  ;
-Line 412
+Line 365
          pxor    mm3, mm4                ;
          psubw   mm0, mm1                ; displace
          psubw   mm3, mm4                ;
          psllw   mm0, 4
          psllw   mm3, 4
          movq    mm2, [inter_matrix + 8*ecx]
          psrlw   mm2, 1
          paddw   mm0, mm2
          movq    mm2, [inter_matrix_fix + ecx*8]
          pmulhw  mm0, mm2                ; (level<<4 + inter_matrix[i]>>1) / inter_matrix[i]
          movq    mm2, [inter_matrix + 8*ecx + 8]
          psrlw   mm2, 1
          paddw   mm3, mm2
          movq    mm2, [inter_matrix_fix + ecx*8 + 8]
          pmulhw  mm3, mm2
          pmulhw  mm0, mm7                ; mm0 = (mm0 / 2Q) >> 16
          pmulhw  mm3, mm7                ;
          psrlw   mm0, 1                  ; additional shift by 1 => 16 + 1 = 17
          psrlw   mm3, 1
          paddw   mm5, mm0                ; sum += mm0
          pxor    mm0, mm1                ; mm0 *= sign(mm0)
          paddw   mm5, mm3                ;
-Line 461
+Line 407
          ret
- align ALIGN
+ ALIGN 16
  .q1loop
          movq    mm0, [esi + 8*ecx]              ; mm0 = [1st]
          movq    mm3, [esi + 8*ecx+ 8]
-                                 ;
          pxor    mm1, mm1                ; mm1 = 0
          pxor    mm4, mm4                ;
          pcmpgtw mm1, mm0                ; mm1 = (0 > mm0)
          pcmpgtw mm4, mm3                ;
          pxor    mm0, mm1                ; mm0 = |mm0|
          pxor    mm3, mm4                ;
          psubw   mm0, mm1                ; displace
          psubw   mm3, mm4                ;
          psllw   mm0, 4
          psllw   mm3, 4
          movq    mm2, [inter_matrix + 8*ecx]
          psrlw   mm2, 1
          paddw   mm0, mm2
          movq    mm2, [inter_matrix_fix + ecx*8]
          pmulhw  mm0, mm2                ; (level<<4 + inter_matrix[i]>>1) / inter_matrix[i]
          movq    mm2, [inter_matrix + 8*ecx + 8]
          psrlw   mm2, 1
          paddw   mm3, mm2
          movq    mm2, [inter_matrix_fix + ecx*8 + 8]
          pmulhw  mm3, mm2
          psrlw   mm0, 1                  ; mm0 >>= 1   (/2)
          psrlw   mm3, 1                  ;
          paddw   mm5, mm0                ; sum += mm0
          pxor    mm0, mm1                ; mm0 *= sign(mm0)
          paddw   mm5, mm3                ;
          pxor    mm3, mm4                ;
          psubw   mm0, mm1                ; undisplace
          psubw   mm3, mm4
          movq    [edi + 8*ecx], mm0
          movq    [edi + 8*ecx + 8], mm3
-Line 514
+Line 449
          jmp             .done
- align ALIGN
+ ALIGN 16
  .q2loop
          movq    mm0, [esi + 8*ecx]              ; mm0 = [1st]
          movq    mm3, [esi + 8*ecx+ 8]
-                                 ;
          pxor    mm1, mm1                ; mm1 = 0
          pxor    mm4, mm4                ;
          pcmpgtw mm1, mm0                ; mm1 = (0 > mm0)
          pcmpgtw mm4, mm3                ;
          pxor    mm0, mm1                ; mm0 = |mm0|
          pxor    mm3, mm4                ;
          psubw   mm0, mm1                ; displace
          psubw   mm3, mm4                ;
          psllw   mm0, 4
          psllw   mm3, 4
          movq    mm2, [inter_matrix + 8*ecx]
          psrlw   mm2, 1
          paddw   mm0, mm2
          movq    mm2, [inter_matrix_fix + ecx*8]
          pmulhw  mm0, mm2                ; (level<<4 + inter_matrix[i]>>1) / inter_matrix[i]
          movq    mm2, [inter_matrix + 8*ecx + 8]
          psrlw   mm2, 1
          paddw   mm3, mm2
          movq    mm2, [inter_matrix_fix + ecx*8 + 8]
          pmulhw  mm3, mm2
          psrlw   mm0, 2                  ; mm0 >>= 1   (/2)
          psrlw   mm3, 2                  ;
          paddw   mm5, mm0                ; sum += mm0
          pxor    mm0, mm1                ; mm0 *= sign(mm0)
          paddw   mm5, mm3                ;
          pxor    mm3, mm4                ;
          psubw   mm0, mm1                ; undisplace
          psubw   mm3, mm4
          movq    [edi + 8*ecx], mm0
          movq    [edi + 8*ecx + 8], mm3
-Line 567
+Line 491
          jmp     .done
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
  ; uint32_t dequant_mpeg_intra_mmx(int16_t *data,
  ;                                 const int16_t const *coeff,
  ;                                 const uint32_t quant,
  ;                                 const uint32_t dcscalar);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
    ;   Note: in order to saturate 'easily', we pre-shift the quantifier
    ; by 4. Then, the high-word of (coeff[]*matrix[i]*quant) are used to
-Line 615
+Line 539
    ;********************************************************************
- align 16
+ ALIGN 16
- cglobal dequant_mpeg_intra_mmx
  dequant_mpeg_intra_mmx:
          mov             edx, [esp+4]  ; data
-Line 624
+Line 547
          mov             eax, [esp+12] ; quant
          movq    mm7, [mmx_mul_quant  + eax*8 - 8]
-         mov             eax, -16   ; to keep aligned, we regularly process coeff[0]
+   mov eax, -16      ; to keep ALIGNed, we regularly process coeff[0]
          psllw   mm7, 2   ; << 2. See comment.
          pxor    mm6, mm6   ; this is a NOP
- align 16
+ ALIGN 16
  .loop
          movq    mm0, [ecx+8*eax + 8*16]   ; mm0 = c  = coeff[i]
          movq    mm3, [ecx+8*eax + 8*16 +8]; mm3 = c' = coeff[i+1]
-Line 685
+Line 608
          jnz             near .loop
      ; deal with DC
          movd    mm0, [ecx]
          pmullw  mm0, [esp+16]  ; dcscalar
          movq    mm2, [mmx_32767_minus_2047]
-Line 700
+Line 622
          xor             eax, eax
          ret
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
  ;
  ; uint32_t dequant_mpeg_inter_mmx(int16_t * data,
  ;                                 const int16_t * const coeff,
  ;                                 const uint32_t quant);
  ;
- ;===========================================================================
+ ;-----------------------------------------------------------------------------
      ; Note:  We use (2*c + sgn(c) - sgn(-c)) as multiplier
      ; so we handle the 3 cases: c<0, c==0, and c>0 in one shot.
      ; sgn(x) is the result of 'pcmpgtw 0,x':  0 if x>=0, -1 if x<0.
      ; It's mixed with the extraction of the absolute value.
- align 16
+ ALIGN 16
- cglobal dequant_mpeg_inter_mmx
  dequant_mpeg_inter_mmx:
          mov             edx, [esp+ 4]        ; data
-Line 725
+Line 646
          paddw   mm7, mm7    ; << 1
          pxor    mm6, mm6 ; mismatch sum
- align 16
+ ALIGN 16
  .loop
          movq    mm0, [ecx+8*eax + 8*16   ]   ; mm0 = coeff[i]
          movq    mm2, [ecx+8*eax + 8*16 +8]   ; mm2 = coeff[i+1]

 Legend:



Removed from v.1176
 


changed lines


 
Added in v.1192
 Legend:



Removed from v.1176
 


changed lines


 
Added in v.1192
-Removed from v.1176
+Added in v.1192

No admin address has been configured	ViewVC Help
Powered by ViewVC 1.0.4