--- trunk/xvidcore/src/bitstream/x86_asm/cbp_mmx.asm	2005/08/01 18:37:46	1628
+++ trunk/xvidcore/src/bitstream/x86_asm/cbp_mmx.asm	2005/08/05 20:49:23	1629
@@ -3,7 +3,8 @@
 ; *  XVID MPEG-4 VIDEO CODEC
 ; *  - MMX CBP computation -
 ; *
-; *  Copyright (C) 2001-2003 Peter Ross <pross@xvid.org>
+; *  Copyright (C) 2005      Carlo Bramini <carlo.bramix@libero.it>
+; *                2001-2003 Peter Ross <pross@xvid.org>
 ; *                2002-2003 Pascal Massimino <skal@planet-d.net>
 ; *
 ; *  This program is free software ; you can redistribute it and/or modify
@@ -20,7 +21,7 @@
 ; *  along with this program ; if not, write to the Free Software
 ; *  Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307 USA
 ; *
-; * $Id: cbp_mmx.asm,v 1.12 2004-08-29 10:02:38 edgomez Exp $
+; * $Id: cbp_mmx.asm,v 1.13 2005-08-05 20:49:23 Skal Exp $
 ; *
 ; ***************************************************************************/
 
@@ -60,8 +61,10 @@
 
 ALIGN 16
 
+mult_mask:
+  db 0x10,0x20,0x04,0x08,0x01,0x02,0x00,0x00
 ignore_dc:
-	dw 0, -1, -1, -1, -1, -1, -1, -1
+  dw 0, -1, -1, -1
 
 ;=============================================================================
 ; Code
@@ -75,62 +78,71 @@
 ; uint32_t calc_cbp_mmx(const int16_t coeff[6][64]);
 ;-----------------------------------------------------------------------------
 
+%macro      MAKE_LOAD         1
+  por mm0, [eax-128*1+%1*8]
+  por mm1, [eax+128*0+%1*8]
+  por mm2, [eax+128*1+%1*8]
+  por mm3, [eax+128*2+%1*8]
+  por mm4, [eax+128*3+%1*8]
+  por mm5, [eax+128*4+%1*8]
+%endmacro
+
 ALIGN 16
 calc_cbp_mmx:
-  push ebx
-  push esi
-
-  mov esi, [esp + 8 + 4]	; coeff
-  xor eax, eax			; cbp = 0
-  mov edx, (1 << 5)
+  mov eax, [esp + 4]            ; coeff
 
   movq mm7, [ignore_dc]
-
-.loop
-  movq mm0, [esi]
-  movq mm1, [esi+8]
+  pxor mm6, mm6                ; used only for comparing
+  movq mm0, [eax+128*0]
+  movq mm1, [eax+128*1]
+  movq mm2, [eax+128*2]
+  movq mm3, [eax+128*3]
+  movq mm4, [eax+128*4]
+  movq mm5, [eax+128*5]
+  add eax, 8+128
   pand mm0, mm7
+  pand mm1, mm7
+  pand mm2, mm7
+  pand mm3, mm7
+  pand mm4, mm7
+  pand mm5, mm7
+
+  MAKE_LOAD 0
+  MAKE_LOAD 1
+  MAKE_LOAD 2
+  MAKE_LOAD 3
+  MAKE_LOAD 4
+  MAKE_LOAD 5
+  MAKE_LOAD 6
+  MAKE_LOAD 7
+  MAKE_LOAD 8
+  MAKE_LOAD 9
+  MAKE_LOAD 10
+  MAKE_LOAD 11
+  MAKE_LOAD 12
+  MAKE_LOAD 13
+  MAKE_LOAD 14
+
+  movq mm7, [mult_mask]
+  packssdw mm0, mm1
+  packssdw mm2, mm3
+  packssdw mm4, mm5
+  packssdw mm0, mm2
+  packssdw mm4, mm6
+  pcmpgtw mm0, mm6
+  pcmpgtw mm4, mm6
+  psrlw mm0, 15
+  psrlw mm4, 15
+  packuswb mm0, mm4
+  pmaddwd mm0, mm7
 
-  por mm0, [esi+16]
-  por mm1, [esi+24]
-
-  por mm0, [esi+32]
-  por mm1, [esi+40]
-
-  por mm0, [esi+48]
-  por mm1, [esi+56]
-
-  por mm0, [esi+64]
-  por mm1, [esi+72]
-
-  por mm0, [esi+80]
-  por mm1, [esi+88]
-
-  por mm0, [esi+96]
-  por mm1, [esi+104]
-
-  por mm0, [esi+112]
-  por mm1, [esi+120]
-
-  por mm0, mm1
   movq mm1, mm0
   psrlq mm1, 32
-  lea esi, [esi + 128]
-
-  por mm0, mm1
-  movd ebx, mm0
-
-  test ebx, ebx
-  jz .next
-  or eax, edx     ; cbp |= 1 << (5-i)
-
-.next
-  shr edx,1
-  jnc .loop
-
-  pop esi
-  pop ebx
+  paddusb mm0, mm1
 
+  movd eax, mm0
+  shr eax, 8
+  and eax, 0x3F
   ret
 .endfunc