[svn] / trunk / xvidcore / examples / xvid_bench.c Repository:
ViewVC logotype

Diff of /trunk/xvidcore/examples/xvid_bench.c

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 1398, Fri Apr 2 21:29:21 2004 UTC revision 1804, Wed Nov 26 23:37:28 2008 UTC
# Line 19  Line 19 
19   *  along with this program; if not, write to the Free Software   *  along with this program; if not, write to the Free Software
20   *  Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307 USA   *  Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307 USA
21   *   *
22   * $Id: xvid_bench.c,v 1.12 2004-04-02 21:29:21 edgomez Exp $   * $Id: xvid_bench.c,v 1.38 2008-11-26 23:37:28 Isibaar Exp $
23   *   *
24   ****************************************************************************/   ****************************************************************************/
25    
26  /*****************************************************************************  /*****************************************************************************
27   *   *
28   *  'Reference' output is at the end of file.   *  'Reference' output is at the end of file.
  *  Don't take the checksums and crc too seriouly, they aren't  
  *  bullet-proof (should plug some .md5 here)...  
29   *   *
30   *   compiles with something like:   *   compiles with something like:
31   *   gcc -o xvid_bench xvid_bench.c  -I../src/ -lxvidcore -lm   *   gcc -o xvid_bench xvid_bench.c  -I../src/ -lxvidcore -lm
# Line 60  Line 58 
58  #include "utils/timer.h"  #include "utils/timer.h"
59  #include "quant/quant_matrix.c"  #include "quant/quant_matrix.c"
60  #include "bitstream/cbp.h"  #include "bitstream/cbp.h"
61    #include "bitstream/bitstream.h"
62    
63  #include <math.h>  #include <math.h>
64    
# Line 67  Line 66 
66  #define M_PI            3.14159265358979323846  #define M_PI            3.14159265358979323846
67  #endif  #endif
68    
69  const int speed_ref = 100;  /* on slow machines, decrease this value */  int speed_ref = 100;  /* on slow machines, decrease this value */
70    int verbose = 0;
71    unsigned int cpu_mask;
72    
73  /*********************************************************************  /*********************************************************************
74   * misc   * misc
# Line 83  Line 84 
84  #else  #else
85          clock_t clk;          clock_t clk;
86          clk = clock();          clk = clock();
87          return clk * 1000000 / CLOCKS_PER_SEC;          return clk * 1000. / CLOCKS_PER_SEC;  /* clock() returns time in Milliseconds */
88  #endif  #endif
89  }  }
90    
# Line 112  Line 113 
113          unsigned int cpu;          unsigned int cpu;
114  } CPU;  } CPU;
115    
116  CPU cpu_list[] =  CPU cpu_list[] = {
117  { { "PLAINC", 0 }          { "PLAINC ", 0 },
118  #ifdef ARCH_IS_IA32  #if defined(ARCH_IS_IA32) || defined(ARCH_IS_X86_64)
119    , { "MMX   ", XVID_CPU_MMX }          { "MMX    ", XVID_CPU_MMX },
120    , { "MMXEXT", XVID_CPU_MMXEXT | XVID_CPU_MMX }          { "MMXEXT ", XVID_CPU_MMXEXT | XVID_CPU_MMX },
121    , { "SSE2  ", XVID_CPU_SSE2 | XVID_CPU_MMX }          { "SSE2   ", XVID_CPU_SSE2 | XVID_CPU_MMX },
122    , { "3DNOW ", XVID_CPU_3DNOW }          { "SSE3   ", XVID_CPU_SSE3 | XVID_CPU_SSE2 | XVID_CPU_MMX },
123    , { "3DNOWE", XVID_CPU_3DNOW | XVID_CPU_3DNOWEXT }          { "SSE41  ", XVID_CPU_SSE41| XVID_CPU_SSE3 | XVID_CPU_SSE2 | XVID_CPU_MMX },
124            { "3DNOW  ", XVID_CPU_3DNOW },
125            { "3DNOWE ", XVID_CPU_3DNOW | XVID_CPU_3DNOWEXT },
126  #endif  #endif
127  //, { "IA64  ", XVID_CPU_IA64 }  #ifdef ARCH_IS_PPC
128  //, { "TSC   ", XVID_CPU_TSC }          { "ALTIVEC", XVID_CPU_ALTIVEC },
   , { 0, 0 } };  
   
 CPU  cpu_short_list[] =  
 { { "PLAINC", 0 }  
 #ifdef ARCH_IS_IA32  
   , { "MMX   ", XVID_CPU_MMX }  
 //, { "MMXEXT", XVID_CPU_MMXEXT | XVID_CPU_MMX }  
129  #endif  #endif
130  //, { "IA64  ", XVID_CPU_IA64 }  #ifdef ARCH_IS_IA64
131    , { 0, 0 } };  //      { "IA64   ", XVID_CPU_IA64 },
   
 CPU cpu_short_list2[] =  
 { { "PLAINC", 0 }  
 #ifdef ARCH_IS_IA32  
   , { "MMX   ", XVID_CPU_MMX }  
   , { "SSE2  ", XVID_CPU_SSE2 | XVID_CPU_MMX }  
132  #endif  #endif
133    , { 0, 0 } };  //      { "TSC    ", XVID_CPU_TSC },
134            { 0, 0 }
135    };
136    
137    
138  int init_cpu(CPU *cpu)  int init_cpu(CPU *cpu)
# Line 253  Line 245 
245  };  };
246    
247  uint32_t  uint32_t
248  calc_crc(uint8_t *mem, int len, uint32_t initial)  calc_crc(uint8_t *mem, int len, uint32_t crc)
249  {  {
   
         register unsigned int crc;  
   
         crc = initial;  
   
250          while( len >= 8) {          while( len >= 8) {
251                  DO8(mem, crc);                  DO8(mem, crc);
252                  len -= 8;                  len -= 8;
# Line 270  Line 257 
257                  len--;                  len--;
258          }          }
259    
260          return(crc);          return crc;
261    }
262    
263    void byte_swap(uint8_t *mem, int len, int element_size) {
264    #ifdef ARCH_IS_BIG_ENDIAN
265            int i;
266    
267            if(element_size == 1) {
268                    /* No need to swap */
269            } else if(element_size == 2) {
270                    uint8_t temp[2];
271    
272                    for(i=0; i < (len/2); i++ ) {
273                            temp[0] = mem[0];
274                            temp[1] = mem[1];
275                            mem[0] = temp[1];
276                            mem[1] = temp[0];
277    
278                            mem += 2;
279                    }
280            } else if(element_size == 4) {
281                    uint8_t temp[4];
282    
283                    for(i=0; i < (len/4); i++ ) {
284                            temp[0] = mem[0];
285                            temp[1] = mem[1];
286                            temp[2] = mem[2];
287                            temp[3] = mem[3];
288                            mem[0] = temp[3];
289                            mem[1] = temp[2];
290                            mem[2] = temp[1];
291                            mem[3] = temp[0];
292    
293                            mem += 4;
294                    }
295            } else {
296                    printf("ERROR: byte_swap unsupported element_size(%u)\n", element_size);
297            }
298    #endif
299  }  }
300    
301  /*********************************************************************  /*********************************************************************
# Line 389  Line 413 
413    
414                  t = gettime_usec();                  t = gettime_usec();
415                  emms();                  emms();
416                    for(tst=0; tst<nb_tests; ++tst) s = sad8bi(Cur, Ref1, Ref2, 8);
417                    emms();
418                    t = (gettime_usec() - t) / nb_tests;
419                    printf( "%s - sad8bi %.3f usec       sad=%d %s\n",
420                                    cpu->name, t, s,
421                                    (s!=4002)?"| ERROR": "" );
422    
423                    t = gettime_usec();
424                    emms();
425                  for(tst=0; tst<nb_tests; ++tst) s = dev16(Cur, 16);                  for(tst=0; tst<nb_tests; ++tst) s = dev16(Cur, 16);
426                  emms();                  emms();
427                  t = (gettime_usec() - t) / nb_tests;                  t = (gettime_usec() - t) / nb_tests;
# Line 494  Line 527 
527                             (iCrc!=8107)?"| ERROR": "" );                             (iCrc!=8107)?"| ERROR": "" );
528  #endif  #endif
529    
530        /* New functions for field prediction by CK 1.10.2005 */
531    #pragma NEW8X4
532                    TEST_MB(interpolate8x4_halfpel_h, 0);
533                    printf("%s - interpfield-h -round0 %.3f usec       crc32=0x%08x %s\n",
534                               cpu->name, t, iCrc,
535                               (iCrc!=0x9538d6df)?"| ERROR": "" );
536    
537                    TEST_MB(interpolate8x4_halfpel_h, 1);
538                    printf("%s -                round1 %.3f usec       crc32=0x%08x %s\n",
539                               cpu->name, t, iCrc,
540                               (iCrc!=0xde5f1db4)?"| ERROR": "" );
541    
542    
543                    TEST_MB(interpolate8x4_halfpel_v, 0);
544                    printf("%s - interpfield- v-round0 %.3f usec       crc32=0x%08x %s\n",
545                               cpu->name, t, iCrc,
546                               (iCrc!=0xea5a69ef)?"| ERROR": "" );
547    
548                    TEST_MB(interpolate8x4_halfpel_v, 1);
549                    printf("%s -                round1 %.3f usec       crc32=0x%08x %s\n",
550                               cpu->name, t, iCrc,
551                               (iCrc!=0x4f10ec0f)?"| ERROR": "" );
552    
553    
554                    TEST_MB(interpolate8x4_halfpel_hv, 0);
555                    printf("%s - interpfield-hv-round0 %.3f usec       crc32=0x%08x %s\n",
556                               cpu->name, t, iCrc,
557                               (iCrc!=0xf97ee367)?"| ERROR": "" );
558    
559                    TEST_MB(interpolate8x4_halfpel_hv, 1);
560                    printf("%s -                round1 %.3f usec       crc32=0x%08x %s\n",
561                               cpu->name, t, iCrc,
562                               (iCrc!=0xb6a9f581)?"| ERROR": "" );
563    /* End of 8x4 functions */
564    
565                  printf( " --- \n" );                  printf( " --- \n" );
566          }          }
567  }  }
568    
569    #undef ENTER
570    #undef LEAVE
571    #undef TEST_MB
572    #undef TEST_MB2
573    
574  /*********************************************************************  /*********************************************************************
575   * test transfer   * test transfer
576   *********************************************************************/   *********************************************************************/
# Line 527  Line 600 
600  }                                         \  }                                         \
601  emms();                                   \  emms();                                   \
602  t = (gettime_usec()-t -overhead) / nb_tests;\  t = (gettime_usec()-t -overhead) / nb_tests;\
603  s = calc_crc((uint8_t*)(DST), sizeof((DST)), CRC32_INITIAL)  byte_swap((uint8_t*)(DST), 8*32*sizeof((DST)[0]), sizeof((DST)[0]));  \
604    s = calc_crc((uint8_t*)(DST), 8*32*sizeof((DST)[0]), CRC32_INITIAL)
605    
606  #define TEST_TRANSFER(FUNC, DST, SRC)         \  #define TEST_TRANSFER(FUNC, DST, SRC)         \
607  TEST_TRANSFER_BEGIN(DST);                 \  TEST_TRANSFER_BEGIN(DST);                 \
# Line 553  Line 627 
627  }                                         \  }                                         \
628  emms();                                   \  emms();                                   \
629  t = (gettime_usec()-t -overhead) / nb_tests;\  t = (gettime_usec()-t -overhead) / nb_tests;\
630  s = calc_crc((uint8_t*)(DST), sizeof((DST)), CRC32_INITIAL)  byte_swap((uint8_t*)(DST), 8*32*sizeof((DST)[0]), sizeof((DST)[0]));  \
631    s = calc_crc((uint8_t*)(DST), 8*32*sizeof((DST)[0]), CRC32_INITIAL)
632    
633  #define TEST_TRANSFER2(FUNC, DST, SRC, R1)    \  #define TEST_TRANSFER2(FUNC, DST, SRC, R1)    \
634  TEST_TRANSFER2_BEGIN(DST,SRC);            \  TEST_TRANSFER2_BEGIN(DST,SRC);            \
# Line 570  Line 645 
645          const int nb_tests = 4000*speed_ref;          const int nb_tests = 4000*speed_ref;
646          int i;          int i;
647          CPU *cpu;          CPU *cpu;
648          uint8_t  Src8[8*32], Dst8[8*32], Ref1[8*32], Ref2[8*32];  //      uint8_t  Src8[8*32], Dst8[8*32], Ref1[8*32], Ref2[8*32];
649          int16_t Src16[8*32], Dst16[8*32];  //      int16_t Src16[8*32], Dst16[8*32];
650      DECLARE_ALIGNED_MATRIX(Src8, 8, 32, uint8_t, CACHE_LINE);
651      DECLARE_ALIGNED_MATRIX(Dst8, 8, 32, uint8_t, CACHE_LINE);
652      DECLARE_ALIGNED_MATRIX(Ref1, 8, 32, uint8_t, CACHE_LINE);
653      DECLARE_ALIGNED_MATRIX(Ref2, 8, 32, uint8_t, CACHE_LINE);
654      DECLARE_ALIGNED_MATRIX(Src16, 8, 32, uint16_t, CACHE_LINE);
655      DECLARE_ALIGNED_MATRIX(Dst16, 8, 32, uint16_t, CACHE_LINE);
656    
657          printf( "\n ===  test transfer ===\n" );          printf( "\n ===  test transfer ===\n" );
658    
# Line 593  Line 674 
674                                  cpu->name, t, s,                                  cpu->name, t, s,
675                                  (s!=0xee7ccbb4)?"| ERROR": "");                                  (s!=0xee7ccbb4)?"| ERROR": "");
676    
677        /* New functions for field prediction by CK 1.10.2005 */
678    #pragma NEW8X4
679                    TEST_TRANSFER(transfer8x4_copy, Dst8, Src8);
680                    printf("%s - 8to4      %.3f usec       crc32=0x%08x %s\n",
681                               cpu->name, t, s,
682                               (s!=0xbb9c3db5)?"| ERROR": "");
683    /* End of new functions */
684    
685                  TEST_TRANSFER(transfer8x8_copy, Dst8, Src8);                  TEST_TRANSFER(transfer8x8_copy, Dst8, Src8);
686                  printf("%s - 8to8      %.3f usec       crc32=0x%08x %s\n",                  printf("%s - 8to8      %.3f usec       crc32=0x%08x %s\n",
687                             cpu->name, t, s,                             cpu->name, t, s,
# Line 606  Line 695 
695                  TEST_TRANSFER2(transfer_8to16sub, Dst16, Src8, Ref1);                  TEST_TRANSFER2(transfer_8to16sub, Dst16, Src8, Ref1);
696                  {                  {
697                          int s1, s2;                          int s1, s2;
698                          s1 = calc_crc((uint8_t*)Dst16, sizeof(Dst16), CRC32_INITIAL);                          s1 = calc_crc((uint8_t*)Dst16, 8*32*sizeof(Dst16[0]), CRC32_INITIAL);
699                          s2 = calc_crc((uint8_t*)Src8, sizeof(Src8), CRC32_INITIAL);                          s2 = calc_crc((uint8_t*)Src8, 8*32*sizeof(Src8[0]), CRC32_INITIAL);
700                          printf("%s - 8to16sub  %.3f usec       crc32(1)=0x%08x crc32(2)=0x%08x %s %s\n",                          printf("%s - 8to16sub  %.3f usec       crc32(1)=0x%08x crc32(2)=0x%08x %s %s\n",
701                                     cpu->name, t, s1, s2,                                     cpu->name, t, s1, s2,
702                                     (s1!=0xa1e07163)?"| ERROR1": "",                                     (s1!=0xa1e07163)?"| ERROR1": "",
# Line 636  Line 725 
725    for(q=1; q<=max_Q; ++q) {                 \    for(q=1; q<=max_Q; ++q) {                 \
726          for(tst=0; tst<nb_tests; ++tst)         \          for(tst=0; tst<nb_tests; ++tst)         \
727            (FUNC)((DST), (SRC), q, mpeg_quant_matrices);              \            (FUNC)((DST), (SRC), q, mpeg_quant_matrices);              \
728          s = calc_crc((uint8_t*)(DST), 64*sizeof(int16_t), s); \          byte_swap((uint8_t*)(DST), 64*sizeof((DST)[0]), sizeof((DST)[0]));  \
729            s = calc_crc((uint8_t*)(DST), 64*sizeof((DST)[0]), s); \
730    }                                         \    }                                         \
731    emms();                                   \    emms();                                   \
732  }                                           \  }                                           \
# Line 649  Line 739 
739    set_intra_matrix( mpeg_quant_matrices, Quant );                \    set_intra_matrix( mpeg_quant_matrices, Quant );                \
740    emms();                                   \    emms();                                   \
741    for(q=1; q<=max_Q; ++q) {                 \    for(q=1; q<=max_Q; ++q) {                 \
742            init_intra_matrix( mpeg_quant_matrices, q ); \
743          for(tst=0; tst<nb_tests; ++tst)         \          for(tst=0; tst<nb_tests; ++tst)         \
744            (FUNC)((DST), (SRC), q, q, mpeg_quant_matrices);           \            (FUNC)((DST), (SRC), q, q, mpeg_quant_matrices);           \
745          s = calc_crc((uint8_t*)(DST), 64*sizeof(int16_t), s); \          byte_swap((uint8_t*)(DST), 64*sizeof((DST)[0]), sizeof((DST)[0]));  \
746            s = calc_crc((uint8_t*)(DST), 64*sizeof((DST)[0]), s); \
747    }                                         \    }                                         \
748    emms();                                   \    emms();                                   \
749  }                                           \  }                                           \
750  t = (gettime_usec()-t-overhead)/nb_tests/qm  t = (gettime_usec()-t-overhead)/nb_tests/qm
751    
752  #define TEST_INTRA(REFFUNC, NEWFUNC, RANGE)              \  #define TEST_INTRA(REFFUNC, NEWFUNC, RANGE)              \
753  { int i,q,s;\  { int32_t i,q,s;\
754          DECLARE_ALIGNED_MATRIX(Src, 8, 8, int16_t, 16); \          DECLARE_ALIGNED_MATRIX(Src, 8, 8, int16_t, 16); \
755    DECLARE_ALIGNED_MATRIX(Dst, 8, 8, int16_t, 16); \    DECLARE_ALIGNED_MATRIX(Dst, 8, 8, int16_t, 16); \
756    DECLARE_ALIGNED_MATRIX(Dst2,8, 8, int16_t, 16); \    DECLARE_ALIGNED_MATRIX(Dst2,8, 8, int16_t, 16); \
# Line 690  Line 782 
782    
783  void test_quant()  void test_quant()
784  {  {
785          const int nb_tests = 1*speed_ref;          const int32_t nb_tests = 1*speed_ref;
786          const int max_Q = 31;          const int32_t max_Q = 31;
787          DECLARE_ALIGNED_MATRIX(mpeg_quant_matrices, 8, 64, uint16_t, 16);          DECLARE_ALIGNED_MATRIX(mpeg_quant_matrices, 8, 64, uint16_t, 16);
788    
789          int i, qm;          int32_t i, qm;
790          CPU *cpu;          CPU *cpu;
791          DECLARE_ALIGNED_MATRIX(Src, 8, 8, int16_t, 16);          DECLARE_ALIGNED_MATRIX(Src, 8, 8, int16_t, 16);
792          DECLARE_ALIGNED_MATRIX(Dst, 8, 8, int16_t, 16);          DECLARE_ALIGNED_MATRIX(Dst, 8, 8, int16_t, 16);
# Line 713  Line 805 
805          for(cpu = cpu_list; cpu->name!=0; ++cpu)          for(cpu = cpu_list; cpu->name!=0; ++cpu)
806          {          {
807                  double t, overhead;                  double t, overhead;
808                  int tst, q;                  int32_t tst, q;
809                  uint32_t s;                  uint32_t s;
810    
811                  if (!init_cpu(cpu))                  if (!init_cpu(cpu))
# Line 737  Line 829 
829                  TEST_QUANT2(quant_mpeg_intra, Dst, Src);                  TEST_QUANT2(quant_mpeg_intra, Dst, Src);
830                  printf("%s -   quant_mpeg_intra %.3f usec       crc32=0x%08x %s\n",                  printf("%s -   quant_mpeg_intra %.3f usec       crc32=0x%08x %s\n",
831                             cpu->name, t, s,                             cpu->name, t, s,
832                             (s!=0xfd6a21a4)? "| ERROR": "");                             (s!=0x3b999af6)? "| ERROR": "");
833    
834                  TEST_QUANT(quant_mpeg_inter, Dst, Src);                  TEST_QUANT(quant_mpeg_inter, Dst, Src);
835                  printf("%s -   quant_mpeg_inter %.3f usec       crc32=0x%08x %s\n",                  printf("%s -   quant_mpeg_inter %.3f usec       crc32=0x%08x %s\n",
# Line 779  Line 871 
871  }  }
872    
873  /*********************************************************************  /*********************************************************************
874     * test distortion operators
875     *********************************************************************/
876    
877    static void ieee_reseed(long s);
878    static long ieee_rand(int Min, int Max);
879    
880    #define TEST_SSE(FUNCTION, SRC1, SRC2, STRIDE) \
881      do { \
882        t = gettime_usec(); \
883        tst = nb_tests; \
884        while((tst--)>0) sse = (FUNCTION)((SRC1), (SRC2), (STRIDE)); \
885        emms(); \
886        t = (gettime_usec() - t)/(double)nb_tests;  \
887      } while(0)
888    
889    
890    void test_sse()
891    {
892            const int nb_tests = 100000*speed_ref;
893            int i;
894            CPU *cpu;
895            DECLARE_ALIGNED_MATRIX(Src1, 8, 8, int16_t, 16);
896            DECLARE_ALIGNED_MATRIX(Src2, 8, 8, int16_t, 16);
897            DECLARE_ALIGNED_MATRIX(Src3, 8, 8, int16_t, 16);
898            DECLARE_ALIGNED_MATRIX(Src4, 8, 8, int16_t, 16);
899    
900            printf( "\n =====  test sse =====\n" );
901    
902            ieee_reseed(1);
903            for(i=0; i<64; ++i) {
904                    Src1[i] = ieee_rand(-2048, 2047);
905                    Src2[i] = ieee_rand(-2048, 2047);
906                    Src3[i] = ieee_rand(-2048, 2047);
907                    Src4[i] = ieee_rand(-2048, 2047);
908            }
909    
910            for(cpu = cpu_list; cpu->name!=0; ++cpu)
911            {
912                    double t;
913                    int tst, sse;
914    
915                    if (!init_cpu(cpu))
916                            continue;
917    
918                    /* 16 bit element blocks */
919                    TEST_SSE(sse8_16bit, Src1, Src2, 16);
920                    printf("%s -   sse8_16bit#1 %.3f usec       sse=%d %s\n",
921                               cpu->name, t, sse, (sse!=182013834)?"| ERROR": "");
922                    TEST_SSE(sse8_16bit, Src1, Src3, 16);
923                    printf("%s -   sse8_16bit#2 %.3f usec       sse=%d %s\n",
924                               cpu->name, t, sse, (sse!=142545203)?"| ERROR": "");
925                    TEST_SSE(sse8_16bit, Src1, Src4, 16);
926                    printf("%s -   sse8_16bit#3 %.3f usec       sse=%d %s\n",
927                               cpu->name, t, sse, (sse!=146340935)?"| ERROR": "");
928                    TEST_SSE(sse8_16bit, Src2, Src3, 16);
929                    printf("%s -   sse8_16bit#4 %.3f usec       sse=%d %s\n",
930                               cpu->name, t, sse, (sse!=130136661)?"| ERROR": "");
931                    TEST_SSE(sse8_16bit, Src2, Src4, 16);
932                    printf("%s -   sse8_16bit#5 %.3f usec       sse=%d %s\n",
933                               cpu->name, t, sse, (sse!=136870353)?"| ERROR": "");
934                    TEST_SSE(sse8_16bit, Src3, Src4, 16);
935                    printf("%s -   sse8_16bit#6 %.3f usec       sse=%d %s\n",
936                               cpu->name, t, sse, (sse!=164107772)?"| ERROR": "");
937    
938                    /* 8 bit element blocks */
939                    TEST_SSE(sse8_8bit, (int8_t*)Src1, (int8_t*)Src2, 8);
940                    printf("%s -    sse8_8bit#1 %.3f usec       sse=%d %s\n",
941                               cpu->name, t, sse, (sse!=1356423)?"| ERROR": "");
942                    TEST_SSE(sse8_8bit, (int8_t*)Src1, (int8_t*)Src3, 8);
943                    printf("%s -    sse8_8bit#2 %.3f usec       sse=%d %s\n",
944                               cpu->name, t, sse, (sse!=1173074)?"| ERROR": "");
945                    TEST_SSE(sse8_8bit, (int8_t*)Src1, (int8_t*)Src4, 8);
946                    printf("%s -    sse8_8bit#3 %.3f usec       sse=%d %s\n",
947                               cpu->name, t, sse, (sse!=1092357)?"| ERROR": "");
948                    TEST_SSE(sse8_8bit, (int8_t*)Src2, (int8_t*)Src3, 8);
949                    printf("%s -    sse8_8bit#4 %.3f usec       sse=%d %s\n",
950                               cpu->name, t, sse, (sse!=1360239)?"| ERROR": "");
951                    TEST_SSE(sse8_8bit, (int8_t*)Src2, (int8_t*)Src4, 8);
952                    printf("%s -    sse8_8bit#5 %.3f usec       sse=%d %s\n",
953                               cpu->name, t, sse, (sse!=1208414)?"| ERROR": "");
954                    TEST_SSE(sse8_8bit, (int8_t*)Src3, (int8_t*)Src4, 8);
955                    printf("%s -    sse8_8bit#6 %.3f usec       sse=%d %s\n",
956                               cpu->name, t, sse, (sse!=1099285)?"| ERROR": "");
957    
958                    printf(" ---\n");
959            }
960    }
961    
962    /*********************************************************************
963   * test non-zero AC counting   * test non-zero AC counting
964   *********************************************************************/   *********************************************************************/
965    
966  #define TEST_CBP(FUNC, SRC)               \  #define TEST_CBP(FUNC, SRC, NB)           \
967  t = gettime_usec();                       \  t = gettime_usec();                       \
968  emms();                                   \  emms();                                   \
969  for(tst=0; tst<nb_tests; ++tst) {         \  for(tst=0; tst<NB; ++tst) {         \
970    cbp = (FUNC)((SRC));                    \    cbp = (FUNC)((SRC));                    \
971  }                                         \  }                                         \
972  emms();                                   \  emms();                                   \
# Line 794  Line 975 
975  void test_cbp()  void test_cbp()
976  {  {
977          const int nb_tests = 10000*speed_ref;          const int nb_tests = 10000*speed_ref;
978          int i;          int i, n, m;
979          CPU *cpu;          CPU *cpu;
980          DECLARE_ALIGNED_MATRIX(Src1, 6, 64, int16_t, 16);          DECLARE_ALIGNED_MATRIX(Src1, 6, 64, int16_t, 16);
981          DECLARE_ALIGNED_MATRIX(Src2, 6, 64, int16_t, 16);          DECLARE_ALIGNED_MATRIX(Src2, 6, 64, int16_t, 16);
982          DECLARE_ALIGNED_MATRIX(Src3, 6, 64, int16_t, 16);          DECLARE_ALIGNED_MATRIX(Src3, 6, 64, int16_t, 16);
983          DECLARE_ALIGNED_MATRIX(Src4, 6, 64, int16_t, 16);          DECLARE_ALIGNED_MATRIX(Src4, 6, 64, int16_t, 16);
984      DECLARE_ALIGNED_MATRIX(Src5, 6, 64, int16_t, 16);
985    
986          printf( "\n =====  test cbp =====\n" );          printf( "\n =====  test cbp =====\n" );
987    
# Line 808  Line 990 
990                  Src2[i] = (i<3*64);               /* half-full */                  Src2[i] = (i<3*64);               /* half-full */
991                  Src3[i] = ((i+32)>3*64);                  Src3[i] = ((i+32)>3*64);
992                  Src4[i] = (i==(3*64+2) || i==(5*64+9));                  Src4[i] = (i==(3*64+2) || i==(5*64+9));
993        Src5[i] = ieee_rand(0,1) ? -1 : 1;  /* +/- test */
994          }          }
995    
996          for(cpu = cpu_list; cpu->name!=0; ++cpu)          for(cpu = cpu_list; cpu->name!=0; ++cpu)
# Line 818  Line 1001 
1001                  if (!init_cpu(cpu))                  if (!init_cpu(cpu))
1002                          continue;                          continue;
1003    
1004                  TEST_CBP(calc_cbp, Src1);                  TEST_CBP(calc_cbp, Src1, nb_tests);
1005                  printf("%s -   calc_cbp#1 %.3f usec       cbp=0x%02x\n",                  printf("%s -   calc_cbp#1 %.3f usec       cbp=0x%02x %s\n",
1006                             cpu->name, t, cbp, (cbp!=0x15)?"| ERROR": "");                             cpu->name, t, cbp, (cbp!=0x15)?"| ERROR": "");
1007                  TEST_CBP(calc_cbp, Src2);                  TEST_CBP(calc_cbp, Src2, nb_tests);
1008                  printf("%s -   calc_cbp#2 %.3f usec       cbp=0x%02x\n",                  printf("%s -   calc_cbp#2 %.3f usec       cbp=0x%02x %s\n",
1009                             cpu->name, t, cbp, (cbp!=0x38)?"| ERROR": "");                             cpu->name, t, cbp, (cbp!=0x38)?"| ERROR": "");
1010                  TEST_CBP(calc_cbp, Src3);                  TEST_CBP(calc_cbp, Src3, nb_tests);
1011                  printf("%s -   calc_cbp#3 %.3f usec       cbp=0x%02x\n",                  printf("%s -   calc_cbp#3 %.3f usec       cbp=0x%02x %s\n",
1012                             cpu->name, t, cbp, (cbp!=0x0f)?"| ERROR": "" );                             cpu->name, t, cbp, (cbp!=0x0f)?"| ERROR": "" );
1013                  TEST_CBP(calc_cbp, Src4);                  TEST_CBP(calc_cbp, Src4, nb_tests);
1014                  printf("%s -   calc_cbp#4 %.3f usec       cbp=0x%02x\n",                  printf("%s -   calc_cbp#4 %.3f usec       cbp=0x%02x %s\n",
1015                             cpu->name, t, cbp, (cbp!=0x05)?"| ERROR": "" );                             cpu->name, t, cbp, (cbp!=0x05)?"| ERROR": "" );
1016                    TEST_CBP(calc_cbp, Src5, nb_tests);
1017                    printf("%s -   calc_cbp#4 %.3f usec       cbp=0x%02x %s\n",
1018                               cpu->name, t, cbp, (cbp!=0x3f)?"| ERROR": "" );
1019                  printf( " --- \n" );                  printf( " --- \n" );
1020          }          }
1021    
1022            for(cpu = cpu_list; cpu->name!=0; ++cpu)  /* bench suggested by Carlo (carlo dot bramix at libero dot it) */
1023            {
1024                    double t;
1025                    int tst, cbp, err;
1026    
1027                    if (!init_cpu(cpu))
1028                            continue;
1029    
1030        err = 0;
1031        for(n=0; n<6; ++n)
1032        {
1033          for(m=0; m<64; ++m)
1034          {
1035            for(i=0; i<6*64; ++i)
1036              Src1[i] = (i== (m + n*64));
1037    
1038            TEST_CBP(calc_cbp, Src1, 1);
1039            if (cbp!= (((m!=0)<<(5-n))))
1040            {
1041              printf( "%s -   calc_cbp#5: ERROR at pos %d / %d!\n", cpu->name, n, m);
1042              err = 1;
1043              break;
1044            }
1045          }
1046        }
1047        if (!err)
1048          printf( " %s -    calc_cbp#5 : OK\n", cpu->name );
1049    
1050            }
1051  }  }
1052    
1053  /*********************************************************************  /*********************************************************************
# Line 1225  Line 1441 
1441   * measure raw decoding speed   * measure raw decoding speed
1442   *********************************************************************/   *********************************************************************/
1443    
1444  void test_dec(const char *name, int width, int height, int with_chksum)  void test_dec(const char *name, int width, int height, int ref_chksum)
1445  {  {
1446          FILE *f = 0;          FILE *f = 0;
1447          void *dechandle = 0;          void *dechandle = 0;
# Line 1236  Line 1452 
1452          double t = 0.;          double t = 0.;
1453          int nb = 0;          int nb = 0;
1454          uint8_t *buf = 0;          uint8_t *buf = 0;
1455          uint8_t *rgb_out = 0;          uint8_t *yuv_out = 0;
1456          int buf_size, pos;          int buf_size, pos;
1457          uint32_t chksum = 0;          uint32_t chksum = 0;
1458            int bps = (width+31) & ~31;
1459    
1460          memset(&xinit, 0, sizeof(xinit));          memset(&xinit, 0, sizeof(xinit));
1461          xinit.cpu_flags = XVID_CPU_MMX | XVID_CPU_FORCE;          xinit.cpu_flags = cpu_mask;
1462          xinit.version = XVID_VERSION;          xinit.version = XVID_VERSION;
1463          xvid_global(NULL, 0, &xinit, NULL);          xvid_global(NULL, 0, &xinit, NULL);
1464    
# Line 1251  Line 1468 
1468          xparam.version = XVID_VERSION;          xparam.version = XVID_VERSION;
1469          xerr = xvid_decore(NULL, XVID_DEC_CREATE, &xparam, NULL);          xerr = xvid_decore(NULL, XVID_DEC_CREATE, &xparam, NULL);
1470          if (xerr==XVID_ERR_FAIL) {          if (xerr==XVID_ERR_FAIL) {
1471                  printf("can't init decoder (err=%d)\n", xerr);                  printf("ERROR: can't init decoder (err=%d)\n", xerr);
1472                  return;                  return;
1473          }          }
1474          dechandle = xparam.handle;          dechandle = xparam.handle;
# Line 1259  Line 1476 
1476    
1477          f = fopen(name, "rb");          f = fopen(name, "rb");
1478          if (f==0) {          if (f==0) {
1479                  printf( "can't open file '%s'\n", name);                  printf( "ERROR: can't open file '%s'\n", name);
1480                  return;                  return;
1481          }          }
1482          fseek(f, 0, SEEK_END);          fseek(f, 0, SEEK_END);
1483          buf_size = ftell(f);          buf_size = ftell(f);
1484          fseek(f, 0, SEEK_SET);          fseek(f, 0, SEEK_SET);
1485          if (buf_size<=0) {          if (buf_size<=0) {
1486                  printf("error while stating file\n");                  printf("ERROR: error while stating file\n");
1487                  goto End;                  goto End;
1488          }          }
         else printf( "Input size: %d\n", buf_size);  
1489    
1490          buf = malloc(buf_size); /* should be enuf' */          buf = malloc(buf_size);
1491          rgb_out = calloc(4, width*height);  /* <-room for _RGB24 */          yuv_out = calloc(1, bps*height*3/2 + 15);
1492          if (buf==0 || rgb_out==0) {          if (buf==0 || yuv_out==0) {
1493                  printf( "malloc failed!\n" );                  printf( "ERROR: malloc failed!\n" );
1494                  goto End;                  goto End;
1495          }          }
1496    
1497          if (fread(buf, buf_size, 1, f)!=1) {          if (fread(buf, buf_size, 1, f)!=1) {
1498                  printf( "file-read failed\n" );                  printf( "ERROR: file-read failed\n" );
1499                  goto End;                  goto End;
1500          }          }
1501    
# Line 1287  Line 1503 
1503          pos = 0;          pos = 0;
1504          t = -gettime_usec();          t = -gettime_usec();
1505          while(1) {          while(1) {
1506              int y;
1507    
1508                  memset(&xframe, 0, sizeof(xframe));                  memset(&xframe, 0, sizeof(xframe));
1509                  xframe.version = XVID_VERSION;                  xframe.version = XVID_VERSION;
1510                  xframe.bitstream = buf + pos;                  xframe.bitstream = buf + pos;
1511                  xframe.length = buf_size - pos;                  xframe.length = buf_size - pos;
1512                  xframe.output.plane[0] = rgb_out;                  xframe.output.plane[0] = (uint8_t*)(((size_t)yuv_out + 15) & ~15);
1513                  xframe.output.stride[0] = width;                  xframe.output.plane[1] = (uint8_t*)xframe.output.plane[0] + bps*height;
1514                  xframe.output.csp = XVID_CSP_BGR;                  xframe.output.plane[2] = (uint8_t*)xframe.output.plane[1] + bps/2;
1515                    xframe.output.stride[0] = bps;
1516                    xframe.output.stride[1] = bps;
1517                    xframe.output.stride[2] = bps;
1518                    xframe.output.csp = XVID_CSP_I420;
1519                  xerr = xvid_decore(dechandle, XVID_DEC_DECODE, &xframe, 0);                  xerr = xvid_decore(dechandle, XVID_DEC_DECODE, &xframe, 0);
1520                    if (xerr<0) {
1521                            printf("ERROR: decoding failed for frame #%d (err=%d)!\n", nb, xerr);
1522                            break;
1523                    }
1524                    else if (xerr==0)
1525                      break;
1526        else if (verbose>0) printf("#%d %d\n", nb, xerr );
1527    
1528                    pos += xerr;
1529                  nb++;                  nb++;
1530                  pos += xframe.length;  
1531                  if (with_chksum) {      for(y=0; y<height/2; ++y) {
1532                          int k = width*height;                    chksum = calc_crc((uint8_t*)xframe.output.plane[0] + (2*y+0)*bps, width, chksum);
1533                          uint32_t *ptr = (uint32_t *)rgb_out;                          chksum = calc_crc((uint8_t*)xframe.output.plane[0] + (2*y+1)*bps, width, chksum);
1534                          while(k-->0) chksum += *ptr++;                          chksum = calc_crc((uint8_t*)xframe.output.plane[1] + y*bps, width/2, chksum);
1535                            chksum = calc_crc((uint8_t*)xframe.output.plane[2] + y*bps, width/2, chksum);
1536                  }                  }
1537                  if (pos==buf_size)                  if (pos==buf_size)
1538                          break;                          break;
                 if (xerr==XVID_ERR_FAIL) {  
                         printf("decoding failed for frame #%d (err=%d)!\n", nb, xerr);  
                         break;  
                 }  
1539          }          }
1540          t += gettime_usec();          t += gettime_usec();
1541            if (ref_chksum==0) {
1542          if (t>0.)          if (t>0.)
1543                  printf( "%d frames decoded in %.3f s -> %.1f FPS\n", nb, t*1.e-6f, (float)(nb*1.e6f/t) );                    printf( "%d frames decoded in %.3f s -> %.1f FPS   Checksum:0x%.8x\n", nb, t*1.e-6f, (float)(nb*1.e6f/t), chksum );
1544          if (with_chksum)    }
1545                  printf("checksum: 0x%.8x\n", chksum);    else {
1546                    printf("FPS:%.1f Checksum: 0x%.8x Expected:0x%.8x | %s\n",
1547                      t>0. ? (float)(nb*1.e6f/t) : 0.f, chksum, ref_chksum, (chksum==ref_chksum) ? "OK" : "ERROR");
1548      }
1549    
1550   End:   End:
1551          if (rgb_out!=0) free(rgb_out);          if (yuv_out!=0) free(yuv_out);
1552          if (buf!=0) free(buf);          if (buf!=0) free(buf);
1553          if (dechandle!=0) {          if (dechandle!=0) {
1554                  xerr= xvid_decore(dechandle, XVID_DEC_DESTROY, NULL, NULL);                  xerr= xvid_decore(dechandle, XVID_DEC_DESTROY, NULL, NULL);
1555                  if (xerr==XVID_ERR_FAIL)                  if (xerr==XVID_ERR_FAIL)
1556                          printf("destroy-decoder failed (err=%d)!\n", xerr);                          printf("ERROR: destroy-decoder failed (err=%d)!\n", xerr);
1557          }          }
1558          if (f!=0) fclose(f);          if (f!=0) fclose(f);
1559  }  }
# Line 1485  Line 1717 
1717  }  }
1718    
1719  /*********************************************************************  /*********************************************************************
1720     * test some YUV func
1721     *********************************************************************/
1722    
1723    #define ENTER \
1724    for(i=0; i<(int)sizeof(Dst0); ++i) Dst0[0][i] = 0;   \
1725    t = gettime_usec();                   \
1726    emms();
1727    
1728    #define LEAVE \
1729    emms();                             \
1730    t = (gettime_usec() - t) / nb_tests;  \
1731            iCrc = calc_crc((uint8_t*)Dst0, sizeof(Dst0), CRC32_INITIAL)
1732    
1733    #define TEST_YUYV(FUNC, S, FLIP)                \
1734    ENTER                               \
1735    for(tst=0; tst<nb_tests; ++tst) (FUNC)(Dst0[0], S*WIDTH, Src0[0], Src0[1], Src0[2], WIDTH, WIDTH/2, WIDTH, HEIGHT, (FLIP)); \
1736    LEAVE
1737    
1738    static const int yuv_CRCs[6][2] = {
1739            {0x0f4fb96b,0x780b6a68}
1740    ,       {0xa986b289,0x65e49b76}
1741    ,       {0x7f19c152,0xd539b86e}
1742    ,       {0x0f4fb96b,0x780b6a68}
1743    ,       {0xa986b289,0x65e49b76}
1744    ,       {0x36ab8b57,0x1cd92fee}
1745    };
1746    
1747    #define WIDTH 128
1748    #define HEIGHT 32
1749    void test_yuv()
1750    {
1751            const int nb_tests = 200*speed_ref;
1752            CPU *cpu;
1753            uint8_t Src0[3][WIDTH*HEIGHT];
1754            uint8_t Dst0[4][WIDTH*HEIGHT];
1755            int i, j, with_flip;
1756            double t;
1757            int tst, iCrc;
1758    
1759            colorspace_init();
1760            ieee_reseed(1);
1761            for(i=0; i<(int)sizeof(Src0); ++i) Src0[0][i] = ieee_rand(0,255);
1762            for(i=0; i<(int)sizeof(Dst0); ++i) Dst0[0][i] = 0x5a;
1763    
1764            printf( "\n ===  test YUV ===\n" );
1765    
1766            for(with_flip=0; with_flip<=1; ++with_flip) {
1767    
1768                    init_cpu(&cpu_list[0]);
1769                    TEST_YUYV(yv12_to_yuyv_c, 4, with_flip);
1770                    printf(" yv12_to_yuyv_c %.3f usec       crc32=0x%08x %s\n",
1771                               t, iCrc, (iCrc!=yuv_CRCs[0][with_flip])?"| ERROR": "" );
1772                    TEST_YUYV(yv12_to_uyvy_c, 4, with_flip);
1773                    printf(" yv12_to_uyvy_c %.3f usec       crc32=0x%08x %s\n",
1774                            t, iCrc, (iCrc!=yuv_CRCs[1][with_flip])?"| ERROR": "" );
1775    
1776                    TEST_YUYV(yv12_to_bgra_c, 4, with_flip);
1777                    printf(" yv12_to_bgra_c %.3f usec       crc32=0x%08x %s\n",
1778                            t, iCrc, (iCrc!=yuv_CRCs[2][with_flip])?"| ERROR": "" );
1779    
1780    #if defined(ARCH_IS_IA32) || defined(ARCH_IS_X86_64)
1781                    init_cpu(&cpu_list[1]);
1782                    TEST_YUYV(yv12_to_yuyv_mmx, 4, with_flip);
1783                    printf(" yv12_to_yuyv_mmx %.3f usec       crc32=0x%08x %s\n",
1784                            t, iCrc, (iCrc!=yuv_CRCs[3][with_flip])?"| ERROR": "" );
1785    
1786                    TEST_YUYV(yv12_to_uyvy_mmx, 4, with_flip);
1787                    printf(" yv12_to_uyvy_mmx %.3f usec       crc32=0x%08x %s\n",
1788                            t, iCrc, (iCrc!=yuv_CRCs[4][with_flip])?"| ERROR": "" );
1789    
1790                    TEST_YUYV(yv12_to_bgra_mmx, 4, with_flip);
1791                    printf(" yv12_to_bgra_mmx %.3f usec       crc32=0x%08x %s\n",
1792                            t, iCrc, (iCrc!=yuv_CRCs[5][with_flip])?"| ERROR": "" );
1793    
1794    #endif
1795    
1796    #ifdef ARCH_IS_PPC
1797                    init_cpu(&cpu_list[1]);
1798                    TEST_YUYV(yv12_to_yuyv_altivec_c, 4, with_flip);
1799                    printf(" yv12_to_yuyv_altivec_c %.3f usec       crc32=0x%08x %s\n",
1800                            t, iCrc, (iCrc!=yuv_CRCs[3][with_flip])?"| ERROR": "" );
1801    
1802                    TEST_YUYV(yv12_to_uyvy_altivec_c, 4, with_flip);
1803                    printf(" yv12_to_uyvy_altivec_c %.3f usec       crc32=0x%08x %s\n",
1804                            t, iCrc, (iCrc!=yuv_CRCs[4][with_flip])?"| ERROR": "" );
1805    
1806                    TEST_YUYV(yv12_to_bgra_altivec_c, 4, with_flip);
1807                    printf(" yv12_to_bgra_altivec_c %.3f usec       crc32=0x%08x %s\n",
1808                            t, iCrc, (iCrc!=yuv_CRCs[5][with_flip])?"| ERROR": "" );
1809    #endif
1810            }
1811            printf( " --- \n" );
1812    }
1813    
1814    #define TEST_YV2(FUNC, WITH_UV, WITH_FLIP)        \
1815    ENTER                               \
1816    for(tst=0; tst<nb_tests; ++tst) (FUNC)(Dst0[0], Dst0[1], Dst0[2], WIDTH, WIDTH, \
1817            Src0[0], (WITH_UV) ? Src0[1] : 0, (WITH_UV) ? Src0[2] : 0,  WIDTH, WIDTH, \
1818            WIDTH-2, HEIGHT-2, WITH_FLIP); \
1819    LEAVE
1820    
1821    #define PRINT_NxN(DATA,W,H,STR)   {   \
1822            int i,j; \
1823            for(j=0; j<(H); ++j) { \
1824                    for(i=0; i<(W); ++i) printf( "0x%.2x ", (DATA)[i+j*(STR)] );\
1825                    printf("\n"); \
1826            } \
1827            printf("---\n"); \
1828    }
1829    
1830    static const int yv12_CRCs[2][2] = {
1831            {0x5cab7cf0,0xdab46541}
1832    ,       {0xe8bae865,0x1faf77b7}
1833    };
1834    
1835    void test_yuv2()
1836    {
1837            const int nb_tests = 800*speed_ref;
1838            CPU *cpu;
1839            uint8_t Src0[3][WIDTH*HEIGHT];
1840            uint8_t Dst0[3][WIDTH*HEIGHT];
1841            int with_uv, with_flip;
1842            int i, j;
1843            double t;
1844            int tst, iCrc;
1845    
1846            colorspace_init();
1847            ieee_reseed(1);
1848            for(i=0; i<(int)sizeof(Src0); ++i) Src0[0][i] = ieee_rand(0,255);
1849    
1850            printf( "\n ===  test YV2 ===\n" );
1851            for(with_flip=0; with_flip<=1; ++with_flip) {
1852                    for(with_uv=0; with_uv<=1; ++with_uv) {
1853                            init_cpu(&cpu_list[0]);
1854                            TEST_YV2(yv12_to_yv12_c, with_uv, with_flip);
1855                            printf(" yv12_to_yv12_c   %.3f usec      \tcrc32=0x%08x %s\n",
1856                                    t, iCrc, (iCrc!=yv12_CRCs[with_flip][with_uv])?"| ERROR": "" );
1857                            /* if (!with_uv) PRINT_NxN(Dst0[1], WIDTH/2, HEIGHT/2, WIDTH ); */
1858    
1859    #if defined(ARCH_IS_IA32) || defined(ARCH_IS_X86_64)
1860                            init_cpu(&cpu_list[1]);
1861                            TEST_YV2(yv12_to_yv12_mmx, with_uv, with_flip);
1862                            printf(" yv12_to_yv12_mmx %.3f usec     \tcrc32=0x%08x %s\n",
1863                                    t, iCrc, (iCrc!=yv12_CRCs[with_flip][with_uv])?"| ERROR": "" );
1864                            /* if (!with_uv) PRINT_NxN(Dst0[1], WIDTH/2, HEIGHT/2, WIDTH ); */
1865    
1866                            TEST_YV2(yv12_to_yv12_xmm, with_uv, with_flip);
1867                            printf(" yv12_to_yv12_xmm %.3f usec     \tcrc32=0x%08x %s\n",
1868                                    t, iCrc, (iCrc!=yv12_CRCs[with_flip][with_uv])?"| ERROR": "" );
1869    #endif
1870                    }
1871    
1872                    printf( " --- \n" );
1873            }
1874            printf( " ===== \n" );
1875    }
1876    
1877    #undef WIDTH
1878    #undef HEIGHT
1879    #undef ENTER
1880    #undef LEAVE
1881    
1882    /*********************************************************************/
1883    
1884    static uint32_t __inline log2bin_v1(uint32_t value)
1885    {
1886      int n = 0;
1887      while (value) {
1888        value >>= 1;
1889        n++;
1890      }
1891      return n;
1892    }
1893    
1894    static const uint8_t log2_tab_16[16] =  { 0, 1, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4 };
1895    
1896    static uint32_t __inline log2bin_v2(uint32_t value)
1897    {
1898      int n = 0;
1899      if (value & 0xffff0000) {
1900        value >>= 16;
1901        n += 16;
1902      }
1903      if (value & 0xff00) {
1904        value >>= 8;
1905        n += 8;
1906      }
1907      if (value & 0xf0) {
1908        value >>= 4;
1909        n += 4;
1910      }
1911     return n + log2_tab_16[value];
1912    }
1913    
1914    void test_log2bin()
1915    {
1916            const int nb_tests = 3000*speed_ref;
1917      int n, crc1=0, crc2=0;
1918      uint32_t s, s0;
1919      double t1, t2;
1920    
1921      t1 = gettime_usec();
1922      s0 = (int)(t1*31.241);
1923      for(s=s0, n=0; n<nb_tests; ++n, s=(s*12363+31)&0x7fffffff)
1924        crc1 += log2bin_v1(s);
1925      t1 = (gettime_usec()-t1) / nb_tests;
1926    
1927      t2 = gettime_usec();
1928      for(s=s0, n=0; n<nb_tests; ++n, s=(s*12363+31)&0x7fffffff)
1929        crc2 += log2bin_v2(s);
1930      t2 = (gettime_usec() - t2) / nb_tests;
1931    
1932      printf( "log2bin_v1: %.3f sec  crc=%d\n", t1, crc1 );
1933      printf( "log2bin_v2: %.3f sec  crc=%d\n", t2, crc2 );
1934      if (crc1!=crc2) printf( " CRC ERROR !\n" );
1935    }
1936    
1937    /*********************************************************************/
1938    
1939    static void __inline old_gcd(int *num, int *den)
1940    {
1941     int i = *num;
1942      while (i > 1) {
1943        if (*num % i == 0 && *den % i == 0) {
1944          *num /= i;
1945          *den /= i;
1946          i = *num;
1947          continue;
1948        }
1949        i--;
1950      }
1951    }
1952    
1953    static uint32_t gcd(int num, int den)
1954    {
1955      int tmp;
1956      while( (tmp=num%den) ) { num = den; den = tmp; }
1957      return den;
1958    }
1959    static void __inline new_gcd(int *num, int *den)
1960    {
1961      const int div = gcd(*num, *den);
1962      if (num) {
1963        *num /= div;
1964        *den /= div;
1965      }
1966    }
1967    
1968    void test_gcd()
1969    {
1970      const int nb_tests = 10*speed_ref;
1971      int i;
1972      uint32_t crc1=0, crc2=0;
1973      uint32_t n0, n, d0, d;
1974      double t1, t2;
1975    
1976      t1 = gettime_usec();
1977      n0 = 0xfffff & (int)(t1*31.241);
1978      d0 = 0xfffff & (int)( ((n0*4123)%17) | 1 );
1979      for(n=n0, d=d0, i=0; i<nb_tests; ++i) {
1980        old_gcd(&n, &d);
1981        crc1 = (((crc1>>4)^d) + ((crc1<<2)^n) ) & 0xffffff;
1982        n = d;
1983        d = (d*12363+31) & 0xffff;
1984        d |= !d;
1985      }
1986      t1 = (gettime_usec()-t1) / nb_tests;
1987    
1988      t2 = gettime_usec();
1989      for(n=n0, d=d0, i=0; i<nb_tests; ++i) {
1990        new_gcd(&n, &d);
1991        crc2 = (((crc2>>4)^d) + ((crc2<<2)^n) ) & 0xffffff;
1992        n = d;
1993        d = (d*12363+31) & 0xffff;
1994        d |= !d;
1995      }
1996      t2 = (gettime_usec() - t2) / nb_tests;
1997    
1998      printf( "old_gcd: %.3f sec  crc=%d\n", t1, crc1 );
1999      printf( "new_gcd: %.3f sec  crc=%d\n", t2, crc2 );
2000      if (crc1!=crc2) printf( " CRC ERROR !\n" );
2001    }
2002    
2003    /*********************************************************************
2004     * test compiler
2005     *********************************************************************/
2006    
2007    void test_compiler() {
2008      int nb_err = 0;
2009      int32_t v;
2010      if (sizeof(uint16_t)<2) {
2011        printf( "ERROR: sizeof(uint16_t)<2 !!\n" );
2012        nb_err++;
2013      }
2014      if (sizeof(int16_t)<2) {
2015        printf( "ERROR: sizeof(int16_t)<2 !!\n" );
2016        nb_err++;
2017      }
2018      if (sizeof(uint8_t)!=1) {
2019        printf( "ERROR: sizeof(uint8_t)!=1 !!\n" );
2020        nb_err++;
2021      }
2022      if (sizeof(int8_t)!=1) {
2023        printf( "ERROR: sizeof(int8_t)!=1 !!\n" );
2024        nb_err++;
2025      }
2026      if (sizeof(uint32_t)<4) {
2027        printf( "ERROR: sizeof(uint32_t)<4 !!\n" );
2028        nb_err++;
2029      }
2030      if (sizeof(int32_t)<4) {
2031        printf( "ERROR: sizeof(int32_t)<4 !!\n" );
2032        nb_err++;
2033      }
2034             /* yes, i know, this test is silly. But better be safe than sorry. :) */
2035      for(v=1000; v>=0; v--) {
2036        if ( (v>>2) != v/4)
2037          nb_err++;
2038      }
2039      for(v=-1000; v!=-1; v++) {
2040        if ( (v>>2) != (v/4)-!!(v%4))
2041          nb_err++;
2042      }
2043      if (nb_err!=0) {
2044        printf( "ERROR! please post your platform/compiler specs to xvid-devel@xvid.org !\n" );
2045      }
2046    }
2047    
2048    /*********************************************************************
2049     * test SSIM functions
2050     *********************************************************************/
2051    
2052    typedef int (*lumfunc)(uint8_t* ptr, int stride);
2053    typedef void (*csfunc)(uint8_t* ptro, uint8_t* ptrc, int stride, int lumo, int lumc, int* pdevo, int* pdevc, int* pcorr);
2054    
2055    extern int lum_8x8_c(uint8_t* ptr, int stride);
2056    extern int lum_8x8_mmx(uint8_t* ptr, int stride);
2057    extern int lum_2x8_c(uint8_t* ptr, int stride);
2058    extern void consim_c(uint8_t* ptro, uint8_t* ptrc, int stride, int lumo, int lumc, int* pdevo, int* pdevc, int* pcorr);
2059    extern void consim_mmx(uint8_t* ptro, uint8_t* ptrc, int stride, int lumo, int lumc, int* pdevo, int* pdevc, int* pcorr);
2060    extern void consim_sse2(uint8_t* ptro, uint8_t* ptrc, int stride, int lumo, int lumc, int* pdevo, int* pdevc, int* pcorr);
2061    
2062    void test_SSIM()
2063    {
2064            const int nb_tests = 3000*speed_ref;
2065            int tst;
2066            CPU *cpu;
2067            int i;
2068            int devs[3];
2069            long lumo, lumc;
2070            DECLARE_ALIGNED_MATRIX(Ref1, 16, 16, uint8_t, 16);
2071            DECLARE_ALIGNED_MATRIX(Ref2, 16, 16, uint8_t, 16);
2072            lumfunc lum8x8;
2073            lumfunc lum2x8;
2074            csfunc  csim;
2075    
2076            ieee_reseed(1);
2077            printf( "\n ======  test SSIM ======\n" );
2078            for(i=0; i<16*16;++i) {
2079                    long v1, v2;
2080                    v1 = ieee_rand(-256, 511);
2081                    v2 = ieee_rand(-256, 511);
2082                    Ref1[i] = (v1<0) ? 0 : (v1>255) ? 255 : v1;
2083                    Ref2[i] = (v2<0) ? 0 : (v2>255) ? 255 : v2;
2084            }
2085            lumc = ieee_rand(0, 255);
2086            lumo = ieee_rand(0, 255);
2087    
2088            for(cpu = cpu_list; cpu->name!=0; ++cpu)
2089            {
2090                    double t;
2091                    int m;
2092                    if (!init_cpu(cpu))
2093                            continue;
2094                    lum8x8 = lum_8x8_c;
2095                    lum2x8 = lum_2x8_c;
2096                    csim   = consim_c;
2097    #if defined(ARCH_IS_IA32) || defined(ARCH_IS_X86_64)
2098                    if (cpu->cpu & XVID_CPU_MMX){
2099                            lum8x8 = lum_8x8_mmx;
2100                            csim = consim_mmx;
2101                    }
2102                    if (cpu->cpu & XVID_CPU_MMX){
2103                            csim = consim_sse2;
2104                    }
2105    #endif
2106                    t = gettime_usec();
2107                    emms();
2108                    for(tst=0; tst<nb_tests; ++tst) m = lum8x8(Ref1, 16);
2109                    emms();
2110                    t = (gettime_usec() - t) / nb_tests;
2111                    printf("%s - ssim-lum8x8    %.3f usec       m=%d %s\n",
2112                               cpu->name, t, m,
2113                               (m!=8230)?"| ERROR": "" );
2114    
2115                    t = gettime_usec();
2116                    emms();
2117                    for(tst=0; tst<nb_tests; ++tst) m = lum2x8(Ref1+8, 16);
2118                    emms();
2119                    t = (gettime_usec() - t) / nb_tests;
2120                    printf("%s - ssim-lum2x8    %.3f usec       m=%d %s\n",
2121                               cpu->name, t, m,
2122                               (m!=681)?"| ERROR": "" );
2123    
2124                    t = gettime_usec();
2125                    emms();
2126                    for(tst=0; tst<nb_tests; ++tst) csim(Ref1, Ref2, 16, lumo, lumc, devs+0, devs+1, devs+2);
2127                    emms();
2128                    t = (gettime_usec() - t) / nb_tests;
2129                    printf("%s - ssim-consim    %.3f usec       devs=[0x%x 0x%x 0x%x] %s\n",
2130                               cpu->name, t, devs[0], devs[1], devs[2],
2131                               (devs[0]!=0x1bdf0f || devs[1]!=0x137258 ||  devs[2]!=0xcdb13)?"| ERROR": "" );
2132                    printf( " --- \n" );
2133            }
2134    }
2135    
2136    /*********************************************************************
2137     * test bitstream functions
2138     *********************************************************************/
2139    
2140    #define BIT_BUF_SIZE 2000
2141    
2142    static void test_bits()
2143    {
2144      const int nb_tests = 50*speed_ref;
2145      int tst;
2146      uint32_t Crc;
2147      uint8_t Buf[BIT_BUF_SIZE];
2148      uint32_t Extracted[BIT_BUF_SIZE*8]; /* worst case: bits read 1 by 1 */
2149      int Lens[BIT_BUF_SIZE*8];
2150      double t1;
2151    
2152    
2153      printf( "\n ===  test bitstream ===\n" );
2154      ieee_reseed(1);
2155      Crc = 0;
2156    
2157      t1 = gettime_usec();
2158      for(tst=0; tst<nb_tests; ++tst) {
2159            Bitstream bs;
2160            int m, m2, l, l2;
2161    
2162            for(l=0; l<BIT_BUF_SIZE; ++l)
2163                    Buf[l] = (uint8_t)ieee_rand(0,255);
2164    
2165            l = BIT_BUF_SIZE - ieee_rand(1,BIT_BUF_SIZE/10);
2166            BitstreamInit(&bs, (void*)(Buf+BIT_BUF_SIZE-l), l);
2167    
2168    
2169            BitstreamReset(&bs);
2170            for(l2=l*8, m=0; l2>0; m++) {
2171                    const int b = ieee_rand(1,32);
2172                    Lens[m] = b;
2173                    l2 -= b;
2174                    if (l2<0) break;
2175                    Extracted[m] = BitstreamShowBits(&bs, b);
2176                    BitstreamSkip(&bs, b);
2177    //              printf( "<= %d: %d 0x%x\n", m, b, Extracted[m]);
2178            }
2179    
2180            BitstreamReset(&bs);
2181            for(m2=0; m2<m; ++m2) {
2182                    const int b = Lens[m2];
2183                    const uint32_t v = BitstreamGetBits(&bs, b);
2184                    Crc |= (v!=Extracted[m2]);
2185    //              printf( "=> %d: %d 0x%x %c\n", m2, b, v, " *"[Crc]);
2186            }
2187      }
2188      t1 = (gettime_usec() - t1) / nb_tests;
2189      printf(" test_bits   %.3f usec   %s\n", t1, (Crc!=0)?"| ERROR": "" );
2190    }
2191    
2192    /*********************************************************************
2193   * main   * main
2194   *********************************************************************/   *********************************************************************/
2195    
2196  int main(int argc, char *argv[])  static void arg_missing(const char *opt)
2197    {
2198      printf( "missing argument after option '%s'\n", opt);
2199      exit(-1);
2200    }
2201    
2202    int main(int argc, const char *argv[])
2203    {
2204            int c, what = 0;
2205            int width, height;
2206            uint32_t chksum = 0;
2207            const char * test_bitstream = 0;
2208    
2209            cpu_mask = 0;  // default => will use autodectect
2210            for(c=1; c<argc; ++c)
2211  {  {
2212          int what = 0;            if (!strcmp(argv[c], "-v")) verbose++;
2213          if (argc>1) what = atoi(argv[1]);            else if (!strcmp(argv[c], "-c"))      cpu_mask = 0 /* PLAIN_C */ | XVID_CPU_FORCE;
2214              else if (!strcmp(argv[c], "-mmx"))    cpu_mask = XVID_CPU_MMX    | XVID_CPU_FORCE;
2215              else if (!strcmp(argv[c], "-mmxext")) cpu_mask = XVID_CPU_MMXEXT | XVID_CPU_MMX | XVID_CPU_FORCE;
2216              else if (!strcmp(argv[c], "-sse2"))   cpu_mask = XVID_CPU_SSE2   | XVID_CPU_MMXEXT | XVID_CPU_MMX | XVID_CPU_FORCE;
2217              else if (!strcmp(argv[c], "-sse3"))   cpu_mask = XVID_CPU_SSE3   | XVID_CPU_SSE2 | XVID_CPU_MMXEXT | XVID_CPU_MMX | XVID_CPU_FORCE;
2218              else if (!strcmp(argv[c], "-sse4"))   cpu_mask = XVID_CPU_SSE41  | XVID_CPU_SSE3 | XVID_CPU_SSE2 | XVID_CPU_MMXEXT | XVID_CPU_MMX | XVID_CPU_FORCE;
2219          else if (!strcmp(argv[c], "-3dnow"))  cpu_mask = XVID_CPU_3DNOW  | XVID_CPU_FORCE;
2220              else if (!strcmp(argv[c], "-3dnowe")) cpu_mask = XVID_CPU_3DNOW  | XVID_CPU_3DNOWEXT | XVID_CPU_FORCE;
2221              else if (!strcmp(argv[c], "-altivec")) cpu_mask = XVID_CPU_ALTIVEC | XVID_CPU_FORCE;
2222              else if (!strcmp(argv[c], "-spd")) {
2223          if (++c==argc) arg_missing( argv[argc-1] );
2224          speed_ref = atoi(argv[c]);
2225        }
2226              else if (argv[c][0]!='-') {
2227                what = atoi(argv[c]);
2228                if (what==9) {
2229                  if (c+4>argc) {
2230                    printf("usage: %s %d bitstream width height (checksum)\n", argv[0], what);
2231                    exit(-1);
2232            }
2233            test_bitstream = argv[++c];
2234                  width  = atoi(argv[++c]);
2235                  height = atoi(argv[++c]);
2236                  if (c+1<argc && argv[c+1][0]!='-') {
2237                    if (sscanf(argv[c+1], "0x%x", &chksum)!=1) {
2238                      printf( "can't read checksum value.\n" );
2239                      exit(-1);
2240              }
2241              else c++;
2242            }
2243    //        printf( "[%s] %dx%d (0x%.8x)\n", test_bitstream, width, height, chksum);
2244          }
2245        }
2246        else {
2247          printf( "unrecognized option '%s'\n", argv[c]);
2248          exit(-1);
2249        }
2250      }
2251    
2252    
2253          if (what==0 || what==1) test_dct();          if (what==0 || what==1) test_dct();
2254          if (what==0 || what==2) test_mb();          if (what==0 || what==2) test_mb();
2255          if (what==0 || what==3) test_sad();          if (what==0 || what==3) test_sad();
2256          if (what==0 || what==4) test_transfer();          if (what==0 || what==4) test_transfer();
2257          if (what==0 || what==5) test_quant();          if (what==0 || what==5) test_quant();
2258          if (what==0 || what==6) test_cbp();          if (what==0 || what==6) test_cbp();
2259            if (what==0 || what==10) test_sse();
2260            if (what==0 || what==11) test_log2bin();
2261            if (what==0 || what==12) test_gcd();
2262            if (what==0 || what==13) test_compiler();
2263            if (what==0 || what==14) test_yuv();
2264            if (what==0 || what==15) test_SSIM();
2265            if (what==0 || what==16) test_yuv2();
2266            if (what==0 || what==17) test_bits();
2267    
2268          if (what==7) {          if (what==7) {
2269                  test_IEEE1180_compliance(-256, 255, 1);                  test_IEEE1180_compliance(-256, 255, 1);
# Line 1509  Line 2275 
2275          }          }
2276          if (what==8) test_dct_saturation(-256, 255);          if (what==8) test_dct_saturation(-256, 255);
2277    
2278          if (what==9) {          if (test_bitstream)
2279                  int width, height;            test_dec(test_bitstream, width, height, chksum);
                 if (argc<5) {  
                         printf("usage: %s %d [bitstream] [width] [height]\n", argv[0], what);  
                         return 1;  
                 }  
                 width = atoi(argv[3]);  
                 height = atoi(argv[4]);  
                 test_dec(argv[2], width, height, (argc>5));  
         }  
   
2280          if (what==-1) {          if (what==-1) {
2281                  test_dct_precision_diffs();                  test_dct_precision_diffs();
2282                  test_bugs1();                  test_bugs1();
# Line 1527  Line 2284 
2284          if (what==-2)          if (what==-2)
2285                  test_quant_bug();                  test_quant_bug();
2286    
2287          if (what >= 0 && what <= 6) {          if ((what >= 0 && what <= 6) || what == 10) {
2288                  printf("\n\n"                  printf("\n\n"
2289                             "NB: If a function isn't optimised for a specific set of intructions,\n"                             "NB: If a function isn't optimised for a specific set of intructions,\n"
2290                             "    a C function is used instead. So don't panic if some functions\n"                             "    a C function is used instead. So don't panic if some functions\n"
2291                             "    may appear to be slow.\n");                             "    may appear to be slow.\n");
2292          }          }
2293    
2294  #ifdef ARCH_IS_IA32  #if defined(ARCH_IS_IA32) || defined(ARCH_IS_X86_64)
2295          if (what == 0 || what == 5) {          if (what == 0 || what == 5) {
2296                  printf("\n"                  printf("\n"
2297                             "NB: MMX mpeg4 quantization is known to have very small errors (+/-1 magnitude)\n"                             "NB: MMX mpeg4 quantization is known to have very small errors (+/-1 magnitude)\n"
# Line 1547  Line 2304 
2304          return 0;          return 0;
2305  }  }
2306    
2307  /*********************************************************************  /*********************************************************************/
  * 'Reference' output (except for timing) on an Athlon XP 2200+  
  *********************************************************************/  
   
 /* as of 2002-01-07, there's a problem with MMX mpeg4-quantization */  
 /* as of 2003-11-30, the problem is still here */  
   
 /*********************************************************************  
   
   
  ===== test fdct/idct =====  
 PLAINC -  2.867 usec       PSNR=13.291  MSE=3.000  
 MMX    -  -0.211 usec       PSNR=9.611  MSE=7.000  
 MMXEXT -  -0.256 usec       PSNR=9.611  MSE=7.000  
 3DNOW  -  2.855 usec       PSNR=13.291  MSE=3.000  
 3DNOWE -  1.429 usec       PSNR=13.291  MSE=3.000  
   
  ===  test block motion ===  
 PLAINC - interp- h-round0 0.538 usec       crc32=0x115381ba  
 PLAINC -           round1 0.527 usec       crc32=0x2b1f528f  
 PLAINC - interp- v-round0 0.554 usec       crc32=0x423cdcc7  
 PLAINC -           round1 0.551 usec       crc32=0x42202efe  
 PLAINC - interp-hv-round0 1.041 usec       crc32=0xd198d387  
 PLAINC -           round1 1.038 usec       crc32=0x9ecfd921  
  ---  
 MMX    - interp- h-round0 0.051 usec       crc32=0x115381ba  
 MMX    -           round1 0.053 usec       crc32=0x2b1f528f  
 MMX    - interp- v-round0 0.048 usec       crc32=0x423cdcc7  
 MMX    -           round1 0.048 usec       crc32=0x42202efe  
 MMX    - interp-hv-round0 0.074 usec       crc32=0xd198d387  
 MMX    -           round1 0.073 usec       crc32=0x9ecfd921  
  ---  
 MMXEXT - interp- h-round0 0.020 usec       crc32=0x115381ba  
 MMXEXT -           round1 0.025 usec       crc32=0x2b1f528f  
 MMXEXT - interp- v-round0 0.016 usec       crc32=0x423cdcc7  
 MMXEXT -           round1 0.024 usec       crc32=0x42202efe  
 MMXEXT - interp-hv-round0 0.037 usec       crc32=0xd198d387  
 MMXEXT -           round1 0.037 usec       crc32=0x9ecfd921  
  ---  
 3DNOW  - interp- h-round0 0.020 usec       crc32=0x115381ba  
 3DNOW  -           round1 0.029 usec       crc32=0x2b1f528f  
 3DNOW  - interp- v-round0 0.016 usec       crc32=0x423cdcc7  
 3DNOW  -           round1 0.024 usec       crc32=0x42202efe  
 3DNOW  - interp-hv-round0 0.038 usec       crc32=0xd198d387  
 3DNOW  -           round1 0.039 usec       crc32=0x9ecfd921  
  ---  
 3DNOWE - interp- h-round0 0.020 usec       crc32=0x115381ba  
 3DNOWE -           round1 0.024 usec       crc32=0x2b1f528f  
 3DNOWE - interp- v-round0 0.016 usec       crc32=0x423cdcc7  
 3DNOWE -           round1 0.021 usec       crc32=0x42202efe  
 3DNOWE - interp-hv-round0 0.037 usec       crc32=0xd198d387  
 3DNOWE -           round1 0.036 usec       crc32=0x9ecfd921  
  ---  
   
  ======  test SAD ======  
 PLAINC - sad8    0.505 usec       sad=3776  
 PLAINC - sad16   1.941 usec       sad=27214  
 PLAINC - sad16bi 4.925 usec       sad=26274  
 PLAINC - dev16   4.254 usec       sad=3344  
  ---  
 MMX    - sad8    0.036 usec       sad=3776  
 MMX    - sad16   0.107 usec       sad=27214  
 MMX    - sad16bi 0.259 usec       sad=26274  
 MMX    - dev16   0.187 usec       sad=3344  
  ---  
 MMXEXT - sad8    0.016 usec       sad=3776  
 MMXEXT - sad16   0.050 usec       sad=27214  
 MMXEXT - sad16bi 0.060 usec       sad=26274  
 MMXEXT - dev16   0.086 usec       sad=3344  
  ---  
 3DNOW  - sad8    0.506 usec       sad=3776  
 3DNOW  - sad16   1.954 usec       sad=27214  
 3DNOW  - sad16bi 0.119 usec       sad=26274  
 3DNOW  - dev16   4.252 usec       sad=3344  
  ---  
 3DNOWE - sad8    0.017 usec       sad=3776  
 3DNOWE - sad16   0.038 usec       sad=27214  
 3DNOWE - sad16bi 0.052 usec       sad=26274  
 3DNOWE - dev16   0.067 usec       sad=3344  
  ---  
   
  ===  test transfer ===  
 PLAINC - 8to16     0.603 usec       crc32=0x115814bb  
 PLAINC - 16to8     1.077 usec       crc32=0xee7ccbb4  
 PLAINC - 8to8      0.679 usec       crc32=0xd37b3295  
 PLAINC - 16to8add  1.341 usec       crc32=0xdd817bf4  
 PLAINC - 8to16sub  1.566 usec       crc32(1)=0xa1e07163 crc32(2)=0xd86c5d23  
 PLAINC - 8to16sub2 2.206 usec       crc32=0x99b6c4c7  
  ---  
 MMX    - 8to16     -0.025 usec       crc32=0x115814bb  
 MMX    - 16to8     -0.049 usec       crc32=0xee7ccbb4  
 MMX    - 8to8      0.014 usec       crc32=0xd37b3295  
 MMX    - 16to8add  0.011 usec       crc32=0xdd817bf4  
 MMX    - 8to16sub  0.108 usec       crc32(1)=0xa1e07163 crc32(2)=0xd86c5d23  
 MMX    - 8to16sub2 0.164 usec       crc32=0x99b6c4c7  
  ---  
 MMXEXT - 8to16     -0.054 usec       crc32=0x115814bb  
 MMXEXT - 16to8     0.010 usec       crc32=0xee7ccbb4  
 MMXEXT - 8to8      0.015 usec       crc32=0xd37b3295  
 MMXEXT - 16to8add  0.008 usec       crc32=0xdd817bf4  
 MMXEXT - 8to16sub  0.263 usec       crc32(1)=0xa1e07163 crc32(2)=0xd86c5d23  
 MMXEXT - 8to16sub2 0.178 usec       crc32=0x99b6c4c7  
  ---  
 3DNOW  - 8to16     0.666 usec       crc32=0x115814bb  
 3DNOW  - 16to8     1.078 usec       crc32=0xee7ccbb4  
 3DNOW  - 8to8      0.665 usec       crc32=0xd37b3295  
 3DNOW  - 16to8add  1.365 usec       crc32=0xdd817bf4  
 3DNOW  - 8to16sub  1.356 usec       crc32(1)=0xa1e07163 crc32(2)=0xd86c5d23  
 3DNOW  - 8to16sub2 2.098 usec       crc32=0x99b6c4c7  
  ---  
 3DNOWE - 8to16     -0.024 usec       crc32=0x115814bb  
 3DNOWE - 16to8     0.010 usec       crc32=0xee7ccbb4  
 3DNOWE - 8to8      0.014 usec       crc32=0xd37b3295  
 3DNOWE - 16to8add  0.016 usec       crc32=0xdd817bf4  
 3DNOWE - 8to16sub  -0.000 usec       crc32(1)=0xa1e07163 crc32(2)=0xd86c5d23  
 3DNOWE - 8to16sub2 -0.031 usec       crc32=0x99b6c4c7  
  ---  
   
  =====  test quant =====  
 PLAINC -   quant_mpeg_intra 98.631 usec       crc32=0xfd6a21a4  
 PLAINC -   quant_mpeg_inter 104.876 usec       crc32=0xf6de7757  
 PLAINC - dequant_mpeg_intra 50.285 usec       crc32=0x2def7bc7  
 PLAINC - dequant_mpeg_inter 58.316 usec       crc32=0xd878c722  
 PLAINC -   quant_h263_intra 33.803 usec       crc32=0x2eba9d43  
 PLAINC -   quant_h263_inter 45.411 usec       crc32=0xbd315a7e  
 PLAINC - dequant_h263_intra 39.302 usec       crc32=0x9841212a  
 PLAINC - dequant_h263_inter 44.124 usec       crc32=0xe7df8fba  
  ---  
 MMX    -   quant_mpeg_intra 4.273 usec       crc32=0xdacabdb6 | ERROR  
 MMX    -   quant_mpeg_inter 3.576 usec       crc32=0x72883ab6 | ERROR  
 MMX    - dequant_mpeg_intra 3.793 usec       crc32=0x2def7bc7  
 MMX    - dequant_mpeg_inter 4.808 usec       crc32=0xd878c722  
 MMX    -   quant_h263_intra 2.881 usec       crc32=0x2eba9d43  
 MMX    -   quant_h263_inter 2.550 usec       crc32=0xbd315a7e  
 MMX    - dequant_h263_intra 2.974 usec       crc32=0x9841212a  
 MMX    - dequant_h263_inter 2.906 usec       crc32=0xe7df8fba  
  ---  
 MMXEXT -   quant_mpeg_intra 4.221 usec       crc32=0xfd6a21a4  
 MMXEXT -   quant_mpeg_inter 4.339 usec       crc32=0xf6de7757  
 MMXEXT - dequant_mpeg_intra 3.802 usec       crc32=0x2def7bc7  
 MMXEXT - dequant_mpeg_inter 4.821 usec       crc32=0xd878c722  
 MMXEXT -   quant_h263_intra 2.884 usec       crc32=0x2eba9d43  
 MMXEXT -   quant_h263_inter 2.554 usec       crc32=0xbd315a7e  
 MMXEXT - dequant_h263_intra 2.728 usec       crc32=0x9841212a  
 MMXEXT - dequant_h263_inter 2.611 usec       crc32=0xe7df8fba  
  ---  
 3DNOW  -   quant_mpeg_intra 98.512 usec       crc32=0xfd6a21a4  
 3DNOW  -   quant_mpeg_inter 104.873 usec       crc32=0xf6de7757  
 3DNOW  - dequant_mpeg_intra 50.219 usec       crc32=0x2def7bc7  
 3DNOW  - dequant_mpeg_inter 58.254 usec       crc32=0xd878c722  
 3DNOW  -   quant_h263_intra 33.778 usec       crc32=0x2eba9d43  
 3DNOW  -   quant_h263_inter 41.998 usec       crc32=0xbd315a7e  
 3DNOW  - dequant_h263_intra 39.344 usec       crc32=0x9841212a  
 3DNOW  - dequant_h263_inter 43.607 usec       crc32=0xe7df8fba  
  ---  
 3DNOWE -   quant_mpeg_intra 98.490 usec       crc32=0xfd6a21a4  
 3DNOWE -   quant_mpeg_inter 104.889 usec       crc32=0xf6de7757  
 3DNOWE - dequant_mpeg_intra 3.277 usec       crc32=0x2def7bc7  
 3DNOWE - dequant_mpeg_inter 4.485 usec       crc32=0xd878c722  
 3DNOWE -   quant_h263_intra 1.882 usec       crc32=0x2eba9d43  
 3DNOWE -   quant_h263_inter 2.246 usec       crc32=0xbd315a7e  
 3DNOWE - dequant_h263_intra 3.457 usec       crc32=0x9841212a  
 3DNOWE - dequant_h263_inter 3.275 usec       crc32=0xe7df8fba  
  ---  
   
  =====  test cbp =====  
 PLAINC -   calc_cbp#1 0.168 usec       cbp=0x15  
 PLAINC -   calc_cbp#2 0.168 usec       cbp=0x38  
 PLAINC -   calc_cbp#3 0.157 usec       cbp=0x0f  
 PLAINC -   calc_cbp#4 0.235 usec       cbp=0x05  
  ---  
 MMX    -   calc_cbp#1 0.070 usec       cbp=0x15  
 MMX    -   calc_cbp#2 0.062 usec       cbp=0x38  
 MMX    -   calc_cbp#3 0.062 usec       cbp=0x0f  
 MMX    -   calc_cbp#4 0.061 usec       cbp=0x05  
  ---  
 MMXEXT -   calc_cbp#1 0.062 usec       cbp=0x15  
 MMXEXT -   calc_cbp#2 0.061 usec       cbp=0x38  
 MMXEXT -   calc_cbp#3 0.061 usec       cbp=0x0f  
 MMXEXT -   calc_cbp#4 0.061 usec       cbp=0x05  
  ---  
 3DNOW  -   calc_cbp#1 0.168 usec       cbp=0x15  
 3DNOW  -   calc_cbp#2 0.168 usec       cbp=0x38  
 3DNOW  -   calc_cbp#3 0.157 usec       cbp=0x0f  
 3DNOW  -   calc_cbp#4 0.238 usec       cbp=0x05  
  ---  
 3DNOWE -   calc_cbp#1 0.049 usec       cbp=0x15  
 3DNOWE -   calc_cbp#2 0.049 usec       cbp=0x38  
 3DNOWE -   calc_cbp#3 0.049 usec       cbp=0x0f  
 3DNOWE -   calc_cbp#4 0.049 usec       cbp=0x05  
  ---  
   
   
 NB: If a function isn't optimised for a specific set of intructions,  
     a C function is used instead. So don't panic if some functions  
     may appear to be slow.  
   
 NB: MMX mpeg4 quantization is known to have very small errors (+/-1 magnitude)  
     for 1 or 2 coefficients a block. This is mainly caused by the fact the unit  
     test goes far behind the usual limits of real encoding. Please do not report  
     this error to the developers  
   
 *********************************************************************/  

Legend:
Removed from v.1398  
changed lines
  Added in v.1804

No admin address has been configured
ViewVC Help
Powered by ViewVC 1.0.4