[svn] / trunk / xvidcore / examples / xvid_bench.c Repository:
ViewVC logotype

Annotation of /trunk/xvidcore/examples/xvid_bench.c

Parent Directory Parent Directory | Revision Log Revision Log


Revision 1412 - (view) (download)

1 : edgomez 1382 /*****************************************************************************
2 : Isibaar 225 *
3 : edgomez 1382 * XVID MPEG-4 VIDEO CODEC
4 :     * - Unit tests and benches -
5 : Isibaar 225 *
6 : edgomez 1382 * Copyright(C) 2002 Pascal Massimino <skal@planet-d.net>
7 : Isibaar 225 *
8 : edgomez 1382 * This program is free software; you can redistribute it and/or modify
9 :     * it under the terms of the GNU General Public License as published by
10 :     * the Free Software Foundation; either version 2 of the License, or
11 :     * (at your option) any later version.
12 : Isibaar 225 *
13 : edgomez 1382 * This program is distributed in the hope that it will be useful,
14 :     * but WITHOUT ANY WARRANTY; without even the implied warranty of
15 :     * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
16 :     * GNU General Public License for more details.
17 : Isibaar 225 *
18 : edgomez 1382 * You should have received a copy of the GNU General Public License
19 :     * along with this program; if not, write to the Free Software
20 :     * Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA 02111-1307 USA
21 :     *
22 : edgomez 1412 * $Id: xvid_bench.c,v 1.13 2004-04-05 20:36:36 edgomez Exp $
23 : edgomez 1382 *
24 :     ****************************************************************************/
25 : Isibaar 225
26 : edgomez 1382 /*****************************************************************************
27 : Isibaar 225 *
28 :     * 'Reference' output is at the end of file.
29 :     * Don't take the checksums and crc too seriouly, they aren't
30 : Isibaar 262 * bullet-proof (should plug some .md5 here)...
31 : Isibaar 225 *
32 : edgomez 1382 * compiles with something like:
33 :     * gcc -o xvid_bench xvid_bench.c -I../src/ -lxvidcore -lm
34 : Isibaar 225 *
35 : edgomez 1382 ****************************************************************************/
36 : Isibaar 225
37 :     #include <stdio.h>
38 :     #include <stdlib.h>
39 : edgomez 1382 #include <string.h> /* for memset */
40 : Isibaar 225 #include <assert.h>
41 :    
42 : suxen_drol 860 #ifndef WIN32
43 : edgomez 1382 #include <sys/time.h> /* for gettimeofday */
44 : suxen_drol 860 #else
45 :     #include <time.h>
46 :     #endif
47 :    
48 :    
49 : Isibaar 225 #include "xvid.h"
50 :    
51 : edgomez 851 // inner guts
52 : Isibaar 225 #include "dct/idct.h"
53 :     #include "dct/fdct.h"
54 :     #include "image/colorspace.h"
55 :     #include "image/interpolate8x8.h"
56 :     #include "utils/mem_transfer.h"
57 : edgomez 1382 #include "quant/quant.h"
58 : Isibaar 225 #include "motion/sad.h"
59 :     #include "utils/emms.h"
60 :     #include "utils/timer.h"
61 :     #include "quant/quant_matrix.c"
62 :     #include "bitstream/cbp.h"
63 :    
64 : Isibaar 262 #include <math.h>
65 : suxen_drol 860
66 :     #ifndef M_PI
67 :     #define M_PI 3.14159265358979323846
68 :     #endif
69 :    
70 : edgomez 1382 const int speed_ref = 100; /* on slow machines, decrease this value */
71 : Isibaar 225
72 :     /*********************************************************************
73 :     * misc
74 :     *********************************************************************/
75 :    
76 : edgomez 1382 /* returns time in micro-s*/
77 : Isibaar 225 double gettime_usec()
78 :     {
79 : suxen_drol 860 #ifndef WIN32
80 : edgomez 1382 struct timeval tv;
81 :     gettimeofday(&tv, 0);
82 :     return tv.tv_sec*1.0e6 + tv.tv_usec;
83 : suxen_drol 860 #else
84 :     clock_t clk;
85 :     clk = clock();
86 :     return clk * 1000000 / CLOCKS_PER_SEC;
87 :     #endif
88 : Isibaar 225 }
89 :    
90 : edgomez 1382 /* returns squared deviates (mean(v*v)-mean(v)^2) of a 8x8 block */
91 : Isibaar 225 double sqr_dev(uint8_t v[8*8])
92 :     {
93 : edgomez 1382 double sum=0.;
94 :     double sum2=0.;
95 :     int n;
96 :     for (n=0;n<8*8;n++)
97 :     {
98 :     sum += v[n];
99 :     sum2 += v[n]*v[n];
100 :     }
101 :     sum2 /= n;
102 :     sum /= n;
103 :     return sum2-sum*sum;
104 : Isibaar 225 }
105 :    
106 :     /*********************************************************************
107 :     * cpu init
108 :     *********************************************************************/
109 :    
110 :     typedef struct {
111 : edgomez 1382 const char *name;
112 :     unsigned int cpu;
113 : Isibaar 225 } CPU;
114 :    
115 :     CPU cpu_list[] =
116 :     { { "PLAINC", 0 }
117 : edgomez 1382 #ifdef ARCH_IS_IA32
118 :     , { "MMX ", XVID_CPU_MMX }
119 :     , { "MMXEXT", XVID_CPU_MMXEXT | XVID_CPU_MMX }
120 :     , { "SSE2 ", XVID_CPU_SSE2 | XVID_CPU_MMX }
121 :     , { "3DNOW ", XVID_CPU_3DNOW }
122 :     , { "3DNOWE", XVID_CPU_3DNOW | XVID_CPU_3DNOWEXT }
123 :     #endif
124 : edgomez 1412 #ifdef ARCH_IS_PPC
125 :     , { "ALTIVEC", XVID_CPU_ALTIVEC }
126 :     #endif
127 : edgomez 1382 //, { "IA64 ", XVID_CPU_IA64 }
128 : edgomez 851 //, { "TSC ", XVID_CPU_TSC }
129 : edgomez 1382 , { 0, 0 } };
130 : Isibaar 225
131 : edgomez 1382 CPU cpu_short_list[] =
132 : Isibaar 225 { { "PLAINC", 0 }
133 : edgomez 1382 #ifdef ARCH_IS_IA32
134 :     , { "MMX ", XVID_CPU_MMX }
135 : edgomez 851 //, { "MMXEXT", XVID_CPU_MMXEXT | XVID_CPU_MMX }
136 : edgomez 1382 #endif
137 :     //, { "IA64 ", XVID_CPU_IA64 }
138 :     , { 0, 0 } };
139 : Isibaar 225
140 : edgomez 1382 CPU cpu_short_list2[] =
141 : Isibaar 225 { { "PLAINC", 0 }
142 : edgomez 1382 #ifdef ARCH_IS_IA32
143 :     , { "MMX ", XVID_CPU_MMX }
144 :     , { "SSE2 ", XVID_CPU_SSE2 | XVID_CPU_MMX }
145 :     #endif
146 :     , { 0, 0 } };
147 : Isibaar 225
148 :    
149 :     int init_cpu(CPU *cpu)
150 :     {
151 : edgomez 1382 xvid_gbl_info_t xinfo;
152 : Isibaar 225
153 : edgomez 1382 /* Get the available CPU flags */
154 :     memset(&xinfo, 0, sizeof(xinfo));
155 :     xinfo.version = XVID_VERSION;
156 :     xvid_global(NULL, XVID_GBL_INFO, &xinfo, NULL);
157 :    
158 :     /* Are we trying to test a subset of the host CPU features */
159 :     if ((xinfo.cpu_flags & cpu->cpu) == cpu->cpu) {
160 :     int xerr;
161 :     xvid_gbl_init_t xinit;
162 :     memset(&xinit, 0, sizeof(xinit));
163 :     xinit.cpu_flags = cpu->cpu | XVID_CPU_FORCE;
164 :     xinit.version = XVID_VERSION;
165 :     xerr = xvid_global(NULL, XVID_GBL_INIT, &xinit, NULL);
166 :     if (xerr==XVID_ERR_FAIL) {
167 :     /* libxvidcore failed to init */
168 :     return 0;
169 :     }
170 :     } else {
171 :     /* The host CPU doesn't support some required feature for this test */
172 :     return(0);
173 :     }
174 :     return 1;
175 : Isibaar 225 }
176 :    
177 : edgomez 1382 #define CRC32_REMAINDER 0xCBF43926
178 :     #define CRC32_INITIAL 0xffffffff
179 :    
180 :     #define DO1(c, crc) ((crc) = crc32tab[((unsigned int)((crc)>>24) ^ (*c++)) & 0xff] ^ ((crc) << 8))
181 :     #define DO2(c, crc) DO1(c, crc); DO1(c, crc);
182 :     #define DO4(c, crc) DO2(c, crc); DO2(c, crc);
183 :     #define DO8(c, crc) DO4(c, crc); DO4(c, crc);
184 :    
185 :     /******************************************************************************
186 :     * Precomputed AAL5 CRC32 lookup table
187 :     ******************************************************************************/
188 :    
189 :     static unsigned long crc32tab[256] = {
190 :    
191 :     0x00000000L, 0x04C11DB7L, 0x09823B6EL, 0x0D4326D9L,
192 :     0x130476DCL, 0x17C56B6BL, 0x1A864DB2L, 0x1E475005L,
193 :     0x2608EDB8L, 0x22C9F00FL, 0x2F8AD6D6L, 0x2B4BCB61L,
194 :     0x350C9B64L, 0x31CD86D3L, 0x3C8EA00AL, 0x384FBDBDL,
195 :     0x4C11DB70L, 0x48D0C6C7L, 0x4593E01EL, 0x4152FDA9L,
196 :     0x5F15ADACL, 0x5BD4B01BL, 0x569796C2L, 0x52568B75L,
197 :     0x6A1936C8L, 0x6ED82B7FL, 0x639B0DA6L, 0x675A1011L,
198 :     0x791D4014L, 0x7DDC5DA3L, 0x709F7B7AL, 0x745E66CDL,
199 :     0x9823B6E0L, 0x9CE2AB57L, 0x91A18D8EL, 0x95609039L,
200 :     0x8B27C03CL, 0x8FE6DD8BL, 0x82A5FB52L, 0x8664E6E5L,
201 :     0xBE2B5B58L, 0xBAEA46EFL, 0xB7A96036L, 0xB3687D81L,
202 :     0xAD2F2D84L, 0xA9EE3033L, 0xA4AD16EAL, 0xA06C0B5DL,
203 :     0xD4326D90L, 0xD0F37027L, 0xDDB056FEL, 0xD9714B49L,
204 :     0xC7361B4CL, 0xC3F706FBL, 0xCEB42022L, 0xCA753D95L,
205 :     0xF23A8028L, 0xF6FB9D9FL, 0xFBB8BB46L, 0xFF79A6F1L,
206 :     0xE13EF6F4L, 0xE5FFEB43L, 0xE8BCCD9AL, 0xEC7DD02DL,
207 :     0x34867077L, 0x30476DC0L, 0x3D044B19L, 0x39C556AEL,
208 :     0x278206ABL, 0x23431B1CL, 0x2E003DC5L, 0x2AC12072L,
209 :     0x128E9DCFL, 0x164F8078L, 0x1B0CA6A1L, 0x1FCDBB16L,
210 :     0x018AEB13L, 0x054BF6A4L, 0x0808D07DL, 0x0CC9CDCAL,
211 :     0x7897AB07L, 0x7C56B6B0L, 0x71159069L, 0x75D48DDEL,
212 :     0x6B93DDDBL, 0x6F52C06CL, 0x6211E6B5L, 0x66D0FB02L,
213 :     0x5E9F46BFL, 0x5A5E5B08L, 0x571D7DD1L, 0x53DC6066L,
214 :     0x4D9B3063L, 0x495A2DD4L, 0x44190B0DL, 0x40D816BAL,
215 :     0xACA5C697L, 0xA864DB20L, 0xA527FDF9L, 0xA1E6E04EL,
216 :     0xBFA1B04BL, 0xBB60ADFCL, 0xB6238B25L, 0xB2E29692L,
217 :     0x8AAD2B2FL, 0x8E6C3698L, 0x832F1041L, 0x87EE0DF6L,
218 :     0x99A95DF3L, 0x9D684044L, 0x902B669DL, 0x94EA7B2AL,
219 :     0xE0B41DE7L, 0xE4750050L, 0xE9362689L, 0xEDF73B3EL,
220 :     0xF3B06B3BL, 0xF771768CL, 0xFA325055L, 0xFEF34DE2L,
221 :     0xC6BCF05FL, 0xC27DEDE8L, 0xCF3ECB31L, 0xCBFFD686L,
222 :     0xD5B88683L, 0xD1799B34L, 0xDC3ABDEDL, 0xD8FBA05AL,
223 :     0x690CE0EEL, 0x6DCDFD59L, 0x608EDB80L, 0x644FC637L,
224 :     0x7A089632L, 0x7EC98B85L, 0x738AAD5CL, 0x774BB0EBL,
225 :     0x4F040D56L, 0x4BC510E1L, 0x46863638L, 0x42472B8FL,
226 :     0x5C007B8AL, 0x58C1663DL, 0x558240E4L, 0x51435D53L,
227 :     0x251D3B9EL, 0x21DC2629L, 0x2C9F00F0L, 0x285E1D47L,
228 :     0x36194D42L, 0x32D850F5L, 0x3F9B762CL, 0x3B5A6B9BL,
229 :     0x0315D626L, 0x07D4CB91L, 0x0A97ED48L, 0x0E56F0FFL,
230 :     0x1011A0FAL, 0x14D0BD4DL, 0x19939B94L, 0x1D528623L,
231 :     0xF12F560EL, 0xF5EE4BB9L, 0xF8AD6D60L, 0xFC6C70D7L,
232 :     0xE22B20D2L, 0xE6EA3D65L, 0xEBA91BBCL, 0xEF68060BL,
233 :     0xD727BBB6L, 0xD3E6A601L, 0xDEA580D8L, 0xDA649D6FL,
234 :     0xC423CD6AL, 0xC0E2D0DDL, 0xCDA1F604L, 0xC960EBB3L,
235 :     0xBD3E8D7EL, 0xB9FF90C9L, 0xB4BCB610L, 0xB07DABA7L,
236 :     0xAE3AFBA2L, 0xAAFBE615L, 0xA7B8C0CCL, 0xA379DD7BL,
237 :     0x9B3660C6L, 0x9FF77D71L, 0x92B45BA8L, 0x9675461FL,
238 :     0x8832161AL, 0x8CF30BADL, 0x81B02D74L, 0x857130C3L,
239 :     0x5D8A9099L, 0x594B8D2EL, 0x5408ABF7L, 0x50C9B640L,
240 :     0x4E8EE645L, 0x4A4FFBF2L, 0x470CDD2BL, 0x43CDC09CL,
241 :     0x7B827D21L, 0x7F436096L, 0x7200464FL, 0x76C15BF8L,
242 :     0x68860BFDL, 0x6C47164AL, 0x61043093L, 0x65C52D24L,
243 :     0x119B4BE9L, 0x155A565EL, 0x18197087L, 0x1CD86D30L,
244 :     0x029F3D35L, 0x065E2082L, 0x0B1D065BL, 0x0FDC1BECL,
245 :     0x3793A651L, 0x3352BBE6L, 0x3E119D3FL, 0x3AD08088L,
246 :     0x2497D08DL, 0x2056CD3AL, 0x2D15EBE3L, 0x29D4F654L,
247 :     0xC5A92679L, 0xC1683BCEL, 0xCC2B1D17L, 0xC8EA00A0L,
248 :     0xD6AD50A5L, 0xD26C4D12L, 0xDF2F6BCBL, 0xDBEE767CL,
249 :     0xE3A1CBC1L, 0xE760D676L, 0xEA23F0AFL, 0xEEE2ED18L,
250 :     0xF0A5BD1DL, 0xF464A0AAL, 0xF9278673L, 0xFDE69BC4L,
251 :     0x89B8FD09L, 0x8D79E0BEL, 0x803AC667L, 0x84FBDBD0L,
252 :     0x9ABC8BD5L, 0x9E7D9662L, 0x933EB0BBL, 0x97FFAD0CL,
253 :     0xAFB010B1L, 0xAB710D06L, 0xA6322BDFL, 0xA2F33668L,
254 :     0xBCB4666DL, 0xB8757BDAL, 0xB5365D03L, 0xB1F740B4L
255 :    
256 :     };
257 :    
258 :     uint32_t
259 :     calc_crc(uint8_t *mem, int len, uint32_t initial)
260 :     {
261 :    
262 :     register unsigned int crc;
263 :    
264 :     crc = initial;
265 :    
266 :     while( len >= 8) {
267 :     DO8(mem, crc);
268 :     len -= 8;
269 :     }
270 :    
271 :     while( len ) {
272 :     DO1(mem, crc);
273 :     len--;
274 :     }
275 :    
276 :     return(crc);
277 :    
278 :     }
279 :    
280 : Isibaar 225 /*********************************************************************
281 :     * test DCT
282 :     *********************************************************************/
283 :    
284 :     #define ABS(X) ((X)<0 ? -(X) : (X))
285 :    
286 :     void test_dct()
287 :     {
288 : edgomez 1382 const int nb_tests = 300*speed_ref;
289 :     int tst;
290 :     CPU *cpu;
291 :     int i;
292 :     DECLARE_ALIGNED_MATRIX(iDst0, 8, 8, short, 16);
293 :     DECLARE_ALIGNED_MATRIX(iDst, 8, 8, short, 16);
294 :     DECLARE_ALIGNED_MATRIX(fDst, 8, 8, short, 16);
295 :     double overhead;
296 : Isibaar 225
297 : edgomez 1382 printf( "\n ===== test fdct/idct =====\n" );
298 : Isibaar 225
299 : edgomez 1382 for(i=0; i<8*8; ++i) iDst0[i] = (i*7-i*i) & 0x7f;
300 :     overhead = gettime_usec();
301 :     for(tst=0; tst<nb_tests; ++tst)
302 :     {
303 :     for(i=0; i<8*8; ++i) fDst[i] = iDst0[i];
304 :     for(i=0; i<8*8; ++i) iDst[i] = fDst[i];
305 :     }
306 :     overhead = gettime_usec() - overhead;
307 : Isibaar 225
308 : edgomez 1382 for(cpu = cpu_list; cpu->name!=0; ++cpu)
309 :     {
310 :     double t, PSNR, MSE;
311 : Isibaar 225
312 : edgomez 1382 if (!init_cpu(cpu))
313 :     continue;
314 : Isibaar 225
315 : edgomez 1382 t = gettime_usec();
316 :     emms();
317 :     for(tst=0; tst<nb_tests; ++tst)
318 :     {
319 :     for(i=0; i<8*8; ++i) fDst[i] = iDst0[i];
320 :     fdct(fDst);
321 :     for(i=0; i<8*8; ++i) iDst[i] = fDst[i];
322 :     idct(iDst);
323 :     }
324 :     emms();
325 :     t = (gettime_usec() - t - overhead) / nb_tests;
326 :     MSE = 0.;
327 :     for(i=0; i<8*8; ++i) {
328 :     double delta = 1.0*(iDst[i] - iDst0[i]);
329 :     MSE += delta*delta;
330 :     }
331 :     PSNR = (MSE==0.) ? 1.e6 : -4.3429448*log( MSE/64. );
332 :     printf( "%s - %.3f usec PSNR=%.3f MSE=%.3f %s\n",
333 :     cpu->name, t, PSNR, MSE,
334 :     (ABS(MSE)>=64)? "| ERROR" :"");
335 :     }
336 : Isibaar 225 }
337 :    
338 :     /*********************************************************************
339 :     * test SAD
340 :     *********************************************************************/
341 :    
342 :     void test_sad()
343 :     {
344 : edgomez 1382 const int nb_tests = 2000*speed_ref;
345 :     int tst;
346 :     CPU *cpu;
347 :     int i;
348 :     DECLARE_ALIGNED_MATRIX(Cur, 16, 16, uint8_t, 16);
349 :     DECLARE_ALIGNED_MATRIX(Ref1, 16, 16, uint8_t, 16);
350 :     DECLARE_ALIGNED_MATRIX(Ref2, 16, 16, uint8_t, 16);
351 : Isibaar 225
352 : edgomez 1382 printf( "\n ====== test SAD ======\n" );
353 :     for(i=0; i<16*16;++i) {
354 :     Cur[i] = (i/5) ^ 0x05;
355 :     Ref1[i] = (i + 0x0b) & 0xff;
356 :     Ref2[i] = i ^ 0x76;
357 :     }
358 : Isibaar 225
359 : edgomez 1382 for(cpu = cpu_list; cpu->name!=0; ++cpu)
360 :     {
361 :     double t;
362 :     uint32_t s;
363 :     if (!init_cpu(cpu))
364 :     continue;
365 : Isibaar 225
366 : edgomez 1382 t = gettime_usec();
367 :     emms();
368 :     for(tst=0; tst<nb_tests; ++tst) s = sad8(Cur, Ref1, 16);
369 :     emms();
370 :     t = (gettime_usec() - t) / nb_tests;
371 :     printf("%s - sad8 %.3f usec sad=%d %s\n",
372 :     cpu->name, t, s,
373 :     (s!=3776)?"| ERROR": "" );
374 : Isibaar 225
375 : edgomez 1382 t = gettime_usec();
376 :     emms();
377 :     for(tst=0; tst<nb_tests; ++tst) s = sad16(Cur, Ref1, 16, -1);
378 :     emms();
379 :     t = (gettime_usec() - t) / nb_tests;
380 :     printf("%s - sad16 %.3f usec sad=%d %s\n",
381 :     cpu->name, t, s,
382 :     (s!=27214)?"| ERROR": "" );
383 : Isibaar 225
384 : edgomez 1382 t = gettime_usec();
385 :     emms();
386 :     for(tst=0; tst<nb_tests; ++tst) s = sad16bi(Cur, Ref1, Ref2, 16);
387 :     emms();
388 :     t = (gettime_usec() - t) / nb_tests;
389 :     printf( "%s - sad16bi %.3f usec sad=%d %s\n",
390 :     cpu->name, t, s,
391 :     (s!=26274)?"| ERROR": "" );
392 : chl 898
393 : edgomez 1382 t = gettime_usec();
394 :     emms();
395 :     for(tst=0; tst<nb_tests; ++tst) s = dev16(Cur, 16);
396 :     emms();
397 :     t = (gettime_usec() - t) / nb_tests;
398 :     printf( "%s - dev16 %.3f usec sad=%d %s\n",
399 :     cpu->name, t, s,
400 :     (s!=3344)?"| ERROR": "" );
401 : Isibaar 225
402 : edgomez 1382 printf( " --- \n" );
403 :     }
404 : Isibaar 225 }
405 :    
406 :     /*********************************************************************
407 :     * test interpolation
408 :     *********************************************************************/
409 :    
410 :     #define ENTER \
411 : edgomez 1382 for(i=0; i<16*8; ++i) Dst[i] = 0; \
412 :     t = gettime_usec(); \
413 :     emms();
414 : Isibaar 225
415 :     #define LEAVE \
416 : edgomez 1382 emms(); \
417 :     t = (gettime_usec() - t) / nb_tests; \
418 :     iCrc = calc_crc((uint8_t*)Dst, sizeof(Dst), CRC32_INITIAL)
419 : Isibaar 225
420 :     #define TEST_MB(FUNC, R) \
421 : edgomez 1382 ENTER \
422 :     for(tst=0; tst<nb_tests; ++tst) (FUNC)(Dst, Src0, 16, (R)); \
423 :     LEAVE
424 : Isibaar 225
425 :     #define TEST_MB2(FUNC) \
426 : edgomez 1382 ENTER \
427 :     for(tst=0; tst<nb_tests; ++tst) (FUNC)(Dst, Src0, 16); \
428 :     LEAVE
429 : Isibaar 225
430 :    
431 :     void test_mb()
432 :     {
433 : edgomez 1382 const int nb_tests = 2000*speed_ref;
434 :     CPU *cpu;
435 :     const uint8_t Src0[16*9] = {
436 :     /* try to have every possible combinaison of rounding... */
437 :     0, 0, 1, 0, 2, 0, 3, 0, 4 ,0,0,0, 0,0,0,0,
438 :     0, 1, 1, 1, 2, 1, 3, 1, 3 ,0,0,0, 0,0,0,0,
439 :     0, 2, 1, 2, 2, 2, 3, 2, 2 ,0,0,0, 0,0,0,0,
440 :     0, 3, 1, 3, 2, 3, 3, 3, 1 ,0,0,0, 0,0,0,0,
441 :     1, 3, 0, 2, 1, 0, 2, 3, 4 ,0,0,0, 0,0,0,0,
442 :     2, 2, 1, 2, 0, 1, 3, 5, 3 ,0,0,0, 0,0,0,0,
443 :     3, 1, 2, 3, 1, 2, 2, 6, 2 ,0,0,0, 0,0,0,0,
444 :     1, 0, 1, 3, 0, 3, 1, 6, 1 ,0,0,0, 0,0,0,0,
445 :     4, 3, 2, 1, 2, 3, 4, 0, 3 ,0,0,0, 0,0,0,0
446 :     };
447 :     uint8_t Dst[16*8] = {0};
448 : Isibaar 225
449 : edgomez 1382 printf( "\n === test block motion ===\n" );
450 : Isibaar 225
451 : edgomez 1382 for(cpu = cpu_list; cpu->name!=0; ++cpu)
452 :     {
453 :     double t;
454 :     int tst, i, iCrc;
455 : Isibaar 225
456 : edgomez 1382 if (!init_cpu(cpu))
457 :     continue;
458 : Isibaar 225
459 : edgomez 1382 TEST_MB(interpolate8x8_halfpel_h, 0);
460 :     printf("%s - interp- h-round0 %.3f usec crc32=0x%08x %s\n",
461 :     cpu->name, t, iCrc,
462 :     (iCrc!=0x115381ba)?"| ERROR": "" );
463 : Isibaar 225
464 : edgomez 1382 TEST_MB(interpolate8x8_halfpel_h, 1);
465 :     printf("%s - round1 %.3f usec crc32=0x%08x %s\n",
466 :     cpu->name, t, iCrc,
467 :     (iCrc!=0x2b1f528f)?"| ERROR": "" );
468 : Isibaar 225
469 :    
470 : edgomez 1382 TEST_MB(interpolate8x8_halfpel_v, 0);
471 :     printf("%s - interp- v-round0 %.3f usec crc32=0x%08x %s\n",
472 :     cpu->name, t, iCrc,
473 :     (iCrc!=0x423cdcc7)?"| ERROR": "" );
474 : Isibaar 225
475 : edgomez 1382 TEST_MB(interpolate8x8_halfpel_v, 1);
476 :     printf("%s - round1 %.3f usec crc32=0x%08x %s\n",
477 :     cpu->name, t, iCrc,
478 :     (iCrc!=0x42202efe)?"| ERROR": "" );
479 : Isibaar 225
480 :    
481 : edgomez 1382 TEST_MB(interpolate8x8_halfpel_hv, 0);
482 :     printf("%s - interp-hv-round0 %.3f usec crc32=0x%08x %s\n",
483 :     cpu->name, t, iCrc,
484 :     (iCrc!=0xd198d387)?"| ERROR": "" );
485 : Isibaar 225
486 : edgomez 1382 TEST_MB(interpolate8x8_halfpel_hv, 1);
487 :     printf("%s - round1 %.3f usec crc32=0x%08x %s\n",
488 :     cpu->name, t, iCrc,
489 :     (iCrc!=0x9ecfd921)?"| ERROR": "" );
490 : Isibaar 225
491 : Isibaar 262
492 : edgomez 1382 /* this is a new function, as of 06.06.2002 */
493 : Isibaar 262 #if 0
494 : edgomez 1382 TEST_MB2(interpolate8x8_avrg);
495 :     printf("%s - interpolate8x8_c %.3f usec crc32=0x%08x %s\n",
496 :     cpu->name, t, iCrc,
497 :     (iCrc!=8107)?"| ERROR": "" );
498 : Isibaar 262 #endif
499 :    
500 : edgomez 1382 printf( " --- \n" );
501 :     }
502 : Isibaar 225 }
503 :    
504 :     /*********************************************************************
505 :     * test transfer
506 :     *********************************************************************/
507 :    
508 :     #define INIT_TRANSFER \
509 : edgomez 1382 for(i=0; i<8*32; ++i) { \
510 :     Src8[i] = i; Src16[i] = i; \
511 :     Dst8[i] = 0; Dst16[i] = 0; \
512 :     Ref1[i] = i^0x27; \
513 :     Ref2[i] = i^0x51; \
514 :     }
515 : Isibaar 225
516 :     #define TEST_TRANSFER_BEGIN(DST) \
517 : edgomez 1382 INIT_TRANSFER \
518 :     overhead = -gettime_usec(); \
519 :     for(tst=0; tst<nb_tests; ++tst) { \
520 :     for(i=0; i<8*32; ++i) (DST)[i] = i^0x6a;\
521 :     } \
522 :     overhead += gettime_usec(); \
523 :     t = gettime_usec(); \
524 :     emms(); \
525 :     for(tst=0; tst<nb_tests; ++tst) { \
526 :     for(i=0; i<8*32; ++i) (DST)[i] = i^0x6a;
527 : Isibaar 225
528 :    
529 :     #define TEST_TRANSFER_END(DST) \
530 : edgomez 1382 } \
531 :     emms(); \
532 :     t = (gettime_usec()-t -overhead) / nb_tests;\
533 :     s = calc_crc((uint8_t*)(DST), sizeof((DST)), CRC32_INITIAL)
534 : Isibaar 225
535 :     #define TEST_TRANSFER(FUNC, DST, SRC) \
536 : edgomez 1382 TEST_TRANSFER_BEGIN(DST); \
537 :     (FUNC)((DST), (SRC), 32); \
538 :     TEST_TRANSFER_END(DST)
539 : Isibaar 225
540 :    
541 :     #define TEST_TRANSFER2_BEGIN(DST, SRC) \
542 : edgomez 1382 INIT_TRANSFER \
543 :     overhead = -gettime_usec(); \
544 :     for(tst=0; tst<nb_tests; ++tst) { \
545 :     for(i=0; i<8*32; ++i) (DST)[i] = i^0x6a;\
546 :     for(i=0; i<8*32; ++i) (SRC)[i] = i^0x3e;\
547 :     } \
548 :     overhead += gettime_usec(); \
549 :     t = gettime_usec(); \
550 :     emms(); \
551 :     for(tst=0; tst<nb_tests; ++tst) { \
552 :     for(i=0; i<8*32; ++i) (DST)[i] = i^0x6a;\
553 :     for(i=0; i<8*32; ++i) (SRC)[i] = i^0x3e;
554 : Isibaar 225
555 :     #define TEST_TRANSFER2_END(DST) \
556 : edgomez 1382 } \
557 :     emms(); \
558 :     t = (gettime_usec()-t -overhead) / nb_tests;\
559 :     s = calc_crc((uint8_t*)(DST), sizeof((DST)), CRC32_INITIAL)
560 : Isibaar 225
561 :     #define TEST_TRANSFER2(FUNC, DST, SRC, R1) \
562 : edgomez 1382 TEST_TRANSFER2_BEGIN(DST,SRC); \
563 :     (FUNC)((DST), (SRC), (R1), 32); \
564 :     TEST_TRANSFER2_END(DST)
565 : Isibaar 225
566 :     #define TEST_TRANSFER3(FUNC, DST, SRC, R1, R2)\
567 : edgomez 1382 TEST_TRANSFER_BEGIN(DST); \
568 :     (FUNC)((DST), (SRC), (R1), (R2), 32); \
569 :     TEST_TRANSFER_END(DST)
570 : Isibaar 225
571 :     void test_transfer()
572 :     {
573 : edgomez 1382 const int nb_tests = 4000*speed_ref;
574 :     int i;
575 :     CPU *cpu;
576 :     uint8_t Src8[8*32], Dst8[8*32], Ref1[8*32], Ref2[8*32];
577 :     int16_t Src16[8*32], Dst16[8*32];
578 : Isibaar 225
579 : edgomez 1382 printf( "\n === test transfer ===\n" );
580 : Isibaar 225
581 : edgomez 1382 for(cpu = cpu_list; cpu->name!=0; ++cpu)
582 :     {
583 :     double t, overhead;
584 :     int tst, s;
585 : Isibaar 225
586 : edgomez 1382 if (!init_cpu(cpu))
587 :     continue;
588 : Isibaar 225
589 : edgomez 1382 TEST_TRANSFER(transfer_8to16copy, Dst16, Src8);
590 :     printf("%s - 8to16 %.3f usec crc32=0x%08x %s\n",
591 :     cpu->name, t, s,
592 :     (s!=0x115814bb)?"| ERROR": "");
593 : Isibaar 225
594 : edgomez 1382 TEST_TRANSFER(transfer_16to8copy, Dst8, Src16);
595 :     printf( "%s - 16to8 %.3f usec crc32=0x%08x %s\n",
596 :     cpu->name, t, s,
597 :     (s!=0xee7ccbb4)?"| ERROR": "");
598 : Isibaar 225
599 : edgomez 1382 TEST_TRANSFER(transfer8x8_copy, Dst8, Src8);
600 :     printf("%s - 8to8 %.3f usec crc32=0x%08x %s\n",
601 :     cpu->name, t, s,
602 :     (s!=0xd37b3295)?"| ERROR": "");
603 : Isibaar 225
604 : edgomez 1382 TEST_TRANSFER(transfer_16to8add, Dst8, Src16);
605 :     printf("%s - 16to8add %.3f usec crc32=0x%08x %s\n",
606 :     cpu->name, t, s,
607 :     (s!=0xdd817bf4)?"| ERROR": "" );
608 : Isibaar 225
609 : edgomez 1382 TEST_TRANSFER2(transfer_8to16sub, Dst16, Src8, Ref1);
610 :     {
611 :     int s1, s2;
612 :     s1 = calc_crc((uint8_t*)Dst16, sizeof(Dst16), CRC32_INITIAL);
613 :     s2 = calc_crc((uint8_t*)Src8, sizeof(Src8), CRC32_INITIAL);
614 :     printf("%s - 8to16sub %.3f usec crc32(1)=0x%08x crc32(2)=0x%08x %s %s\n",
615 :     cpu->name, t, s1, s2,
616 :     (s1!=0xa1e07163)?"| ERROR1": "",
617 :     (s2!=0xd86c5d23)?"| ERROR2": "" );
618 :     }
619 :    
620 :     TEST_TRANSFER3(transfer_8to16sub2, Dst16, Src8, Ref1, Ref2);
621 :     printf("%s - 8to16sub2 %.3f usec crc32=0x%08x %s\n",
622 :     cpu->name, t, s,
623 :     (s!=0x99b6c4c7)?"| ERROR": "" );
624 :    
625 :     printf( " --- \n" );
626 :     }
627 : Isibaar 225 }
628 :    
629 :     /*********************************************************************
630 :     * test quantization
631 :     *********************************************************************/
632 :    
633 : Isibaar 262 #define TEST_QUANT(FUNC, DST, SRC) \
634 : edgomez 1382 t = gettime_usec(); \
635 :     for(s=CRC32_INITIAL,qm=1; qm<=255; ++qm) { \
636 :     for(i=0; i<8*8; ++i) Quant[i] = qm; \
637 :     set_inter_matrix( mpeg_quant_matrices, Quant ); \
638 :     emms(); \
639 :     for(q=1; q<=max_Q; ++q) { \
640 :     for(tst=0; tst<nb_tests; ++tst) \
641 :     (FUNC)((DST), (SRC), q, mpeg_quant_matrices); \
642 :     s = calc_crc((uint8_t*)(DST), 64*sizeof(int16_t), s); \
643 :     } \
644 :     emms(); \
645 :     } \
646 :     t = (gettime_usec()-t-overhead)/nb_tests/qm
647 : Isibaar 225
648 : Isibaar 262 #define TEST_QUANT2(FUNC, DST, SRC) \
649 : edgomez 1382 t = gettime_usec(); \
650 :     for(s=CRC32_INITIAL,qm=1; qm<=255; ++qm) { \
651 :     for(i=0; i<8*8; ++i) Quant[i] = qm; \
652 :     set_intra_matrix( mpeg_quant_matrices, Quant ); \
653 :     emms(); \
654 :     for(q=1; q<=max_Q; ++q) { \
655 :     for(tst=0; tst<nb_tests; ++tst) \
656 :     (FUNC)((DST), (SRC), q, q, mpeg_quant_matrices); \
657 :     s = calc_crc((uint8_t*)(DST), 64*sizeof(int16_t), s); \
658 :     } \
659 :     emms(); \
660 :     } \
661 :     t = (gettime_usec()-t-overhead)/nb_tests/qm
662 : Isibaar 225
663 : edgomez 1398 #define TEST_INTRA(REFFUNC, NEWFUNC, RANGE) \
664 :     { int i,q,s;\
665 :     DECLARE_ALIGNED_MATRIX(Src, 8, 8, int16_t, 16); \
666 :     DECLARE_ALIGNED_MATRIX(Dst, 8, 8, int16_t, 16); \
667 :     DECLARE_ALIGNED_MATRIX(Dst2,8, 8, int16_t, 16); \
668 :     for(q=1;q<=max_Q;q++) \
669 :     for(s=-RANGE;s<RANGE;s++) { \
670 :     for(i=0;i<64;i++) Src[i]=s; \
671 :     (REFFUNC)((Dst),(Src),q,q,mpeg_quant_matrices); \
672 :     (NEWFUNC)((Dst2),(Src),q,q,mpeg_quant_matrices); \
673 :     for(i=0;i<64;i++) \
674 :     if(Dst[i]!=Dst2[i]) printf("ERROR : " #NEWFUNC " i%d quant:%d input:%d C_result:%d ASM_result:%d\n",i,q,s,Dst[i],Dst2[i]); \
675 :     } \
676 :     }
677 :    
678 :     #define TEST_INTER(REFFUNC, NEWFUNC, RANGE) \
679 :     { int i,q,s; \
680 :     DECLARE_ALIGNED_MATRIX(Src, 8, 8, int16_t, 16); \
681 :     DECLARE_ALIGNED_MATRIX(Dst, 8, 8, int16_t, 16); \
682 :     DECLARE_ALIGNED_MATRIX(Dst2,8, 8, int16_t, 16); \
683 :     for(q=1;q<=max_Q;q++) \
684 :     for(s=-RANGE;s<RANGE;s++) { \
685 :     for(i=0;i<64;i++) Src[i]=s; \
686 :     (REFFUNC)((Dst),(Src),q,mpeg_quant_matrices); \
687 :     (NEWFUNC)((Dst2),(Src),q,mpeg_quant_matrices); \
688 :     emms(); \
689 :     for(i=0;i<64;i++) \
690 :     if(Dst[i]!=Dst2[i]) printf("ERROR : " #NEWFUNC " i%d quant:%d input:%d C_result:%d ASM_result:%d\n",i,q,s,Dst[i],Dst2[i]); \
691 :     } \
692 :     }
693 :    
694 : Isibaar 225 void test_quant()
695 :     {
696 : edgomez 1382 const int nb_tests = 1*speed_ref;
697 :     const int max_Q = 31;
698 :     DECLARE_ALIGNED_MATRIX(mpeg_quant_matrices, 8, 64, uint16_t, 16);
699 : Isibaar 225
700 : edgomez 1382 int i, qm;
701 :     CPU *cpu;
702 :     DECLARE_ALIGNED_MATRIX(Src, 8, 8, int16_t, 16);
703 :     DECLARE_ALIGNED_MATRIX(Dst, 8, 8, int16_t, 16);
704 : edgomez 1398 DECLARE_ALIGNED_MATRIX(Dst2,8, 8, int16_t, 16);
705 : edgomez 1382 uint8_t Quant[8*8];
706 : Isibaar 225
707 : edgomez 1382 printf( "\n ===== test quant =====\n" );
708 : Isibaar 225
709 : edgomez 1382 /* we deliberately enfringe the norm's specified range [-127,127], */
710 :     /* to test the robustness of the iquant module */
711 :     for(i=0; i<64; ++i) {
712 :     Src[i] = 1 + (i-32) * (i&6);
713 :     Dst[i] = 0;
714 :     }
715 : Isibaar 225
716 : edgomez 1382 for(cpu = cpu_list; cpu->name!=0; ++cpu)
717 :     {
718 :     double t, overhead;
719 :     int tst, q;
720 :     uint32_t s;
721 : Isibaar 225
722 : edgomez 1382 if (!init_cpu(cpu))
723 : edgomez 1398 continue;
724 : Isibaar 225
725 : edgomez 1398 // exhaustive tests to compare against the (ref) C-version
726 :     TEST_INTRA(quant_h263_intra_c, quant_h263_intra, 2048);
727 :     TEST_INTRA(dequant_h263_intra_c, dequant_h263_intra , 512 );
728 :     TEST_INTER(quant_h263_inter_c, quant_h263_inter , 2048);
729 :     TEST_INTER(dequant_h263_inter_c, dequant_h263_inter , 512 );
730 :    
731 : edgomez 1382 overhead = -gettime_usec();
732 :     for(s=0,qm=1; qm<=255; ++qm) {
733 :     for(i=0; i<8*8; ++i) Quant[i] = qm;
734 :     set_inter_matrix(mpeg_quant_matrices, Quant );
735 :     for(q=1; q<=max_Q; ++q)
736 :     for(i=0; i<64; ++i) s+=Dst[i]^i^qm;
737 :     }
738 :     overhead += gettime_usec();
739 : Isibaar 225
740 : edgomez 1382 TEST_QUANT2(quant_mpeg_intra, Dst, Src);
741 :     printf("%s - quant_mpeg_intra %.3f usec crc32=0x%08x %s\n",
742 :     cpu->name, t, s,
743 :     (s!=0xfd6a21a4)? "| ERROR": "");
744 : Isibaar 225
745 : edgomez 1382 TEST_QUANT(quant_mpeg_inter, Dst, Src);
746 :     printf("%s - quant_mpeg_inter %.3f usec crc32=0x%08x %s\n",
747 :     cpu->name, t, s,
748 :     (s!=0xf6de7757)?"| ERROR": "");
749 : Isibaar 225
750 : edgomez 1382 TEST_QUANT2(dequant_mpeg_intra, Dst, Src);
751 :     printf("%s - dequant_mpeg_intra %.3f usec crc32=0x%08x %s\n",
752 :     cpu->name, t, s,
753 :     (s!=0x2def7bc7)?"| ERROR": "");
754 : Isibaar 225
755 : edgomez 1382 TEST_QUANT(dequant_mpeg_inter, Dst, Src);
756 :     printf("%s - dequant_mpeg_inter %.3f usec crc32=0x%08x %s\n",
757 :     cpu->name, t, s,
758 :     (s!=0xd878c722)?"| ERROR": "");
759 :    
760 :     TEST_QUANT2(quant_h263_intra, Dst, Src);
761 :     printf("%s - quant_h263_intra %.3f usec crc32=0x%08x %s\n",
762 :     cpu->name, t, s,
763 :     (s!=0x2eba9d43)?"| ERROR": "");
764 :    
765 :     TEST_QUANT(quant_h263_inter, Dst, Src);
766 :     printf("%s - quant_h263_inter %.3f usec crc32=0x%08x %s\n",
767 :     cpu->name, t, s,
768 :     (s!=0xbd315a7e)?"| ERROR": "");
769 :    
770 :     TEST_QUANT2(dequant_h263_intra, Dst, Src);
771 :     printf("%s - dequant_h263_intra %.3f usec crc32=0x%08x %s\n",
772 :     cpu->name, t, s,
773 :     (s!=0x9841212a)?"| ERROR": "");
774 :    
775 :     TEST_QUANT(dequant_h263_inter, Dst, Src);
776 :     printf("%s - dequant_h263_inter %.3f usec crc32=0x%08x %s\n",
777 :     cpu->name, t, s,
778 :     (s!=0xe7df8fba)?"| ERROR": "");
779 :    
780 :     printf( " --- \n" );
781 :     }
782 : Isibaar 225 }
783 :    
784 :     /*********************************************************************
785 :     * test non-zero AC counting
786 :     *********************************************************************/
787 :    
788 : edgomez 1398 #define TEST_CBP(FUNC, SRC) \
789 : edgomez 1382 t = gettime_usec(); \
790 :     emms(); \
791 :     for(tst=0; tst<nb_tests; ++tst) { \
792 :     cbp = (FUNC)((SRC)); \
793 :     } \
794 :     emms(); \
795 :     t = (gettime_usec()-t ) / nb_tests;
796 : Isibaar 225
797 :     void test_cbp()
798 :     {
799 : edgomez 1382 const int nb_tests = 10000*speed_ref;
800 :     int i;
801 :     CPU *cpu;
802 :     DECLARE_ALIGNED_MATRIX(Src1, 6, 64, int16_t, 16);
803 :     DECLARE_ALIGNED_MATRIX(Src2, 6, 64, int16_t, 16);
804 :     DECLARE_ALIGNED_MATRIX(Src3, 6, 64, int16_t, 16);
805 :     DECLARE_ALIGNED_MATRIX(Src4, 6, 64, int16_t, 16);
806 : Isibaar 225
807 : edgomez 1382 printf( "\n ===== test cbp =====\n" );
808 : Isibaar 225
809 : edgomez 1382 for(i=0; i<6*64; ++i) {
810 :     Src1[i] = (i*i*3/8192)&(i/64)&1; /* 'random' */
811 :     Src2[i] = (i<3*64); /* half-full */
812 :     Src3[i] = ((i+32)>3*64);
813 :     Src4[i] = (i==(3*64+2) || i==(5*64+9));
814 :     }
815 : Isibaar 225
816 : edgomez 1382 for(cpu = cpu_list; cpu->name!=0; ++cpu)
817 :     {
818 :     double t;
819 :     int tst, cbp;
820 : Isibaar 225
821 : edgomez 1382 if (!init_cpu(cpu))
822 :     continue;
823 :    
824 :     TEST_CBP(calc_cbp, Src1);
825 :     printf("%s - calc_cbp#1 %.3f usec cbp=0x%02x\n",
826 :     cpu->name, t, cbp, (cbp!=0x15)?"| ERROR": "");
827 :     TEST_CBP(calc_cbp, Src2);
828 :     printf("%s - calc_cbp#2 %.3f usec cbp=0x%02x\n",
829 :     cpu->name, t, cbp, (cbp!=0x38)?"| ERROR": "");
830 :     TEST_CBP(calc_cbp, Src3);
831 :     printf("%s - calc_cbp#3 %.3f usec cbp=0x%02x\n",
832 :     cpu->name, t, cbp, (cbp!=0x0f)?"| ERROR": "" );
833 :     TEST_CBP(calc_cbp, Src4);
834 :     printf("%s - calc_cbp#4 %.3f usec cbp=0x%02x\n",
835 :     cpu->name, t, cbp, (cbp!=0x05)?"| ERROR": "" );
836 :     printf( " --- \n" );
837 :     }
838 : Isibaar 225 }
839 :    
840 :     /*********************************************************************
841 : Isibaar 262 * fdct/idct IEEE1180 compliance
842 :     *********************************************************************/
843 :    
844 :     typedef struct {
845 : edgomez 1382 long Errors[64];
846 :     long Sqr_Errors[64];
847 :     long Max_Errors[64];
848 :     long Nb;
849 : Isibaar 262 } STATS_8x8;
850 :    
851 :     void init_stats(STATS_8x8 *S)
852 :     {
853 : edgomez 1382 int i;
854 :     for(i=0; i<64; ++i) {
855 :     S->Errors[i] = 0;
856 :     S->Sqr_Errors[i] = 0;
857 :     S->Max_Errors[i] = 0;
858 :     }
859 :     S->Nb = 0;
860 : Isibaar 262 }
861 :    
862 :     void store_stats(STATS_8x8 *S, short Blk[64], short Ref[64])
863 :     {
864 : edgomez 1382 int i;
865 :     for(i=0; i<64; ++i)
866 :     {
867 :     short Err = Blk[i] - Ref[i];
868 :     S->Errors[i] += Err;
869 :     S->Sqr_Errors[i] += Err * Err;
870 :     if (Err<0) Err = -Err;
871 :     if (S->Max_Errors[i]<Err)
872 :     S->Max_Errors[i] = Err;
873 :     }
874 :     S->Nb++;
875 : Isibaar 262 }
876 :    
877 :     void print_stats(STATS_8x8 *S)
878 :     {
879 : edgomez 1382 int i;
880 :     double Norm;
881 : Isibaar 262
882 : edgomez 1382 assert(S->Nb>0);
883 :     Norm = 1. / (double)S->Nb;
884 :     printf("\n== Max absolute values of errors ==\n");
885 :     for(i=0; i<64; i++) {
886 :     printf(" %4ld", S->Max_Errors[i]);
887 :     if ((i&7)==7) printf("\n");
888 :     }
889 : Isibaar 262
890 : edgomez 1382 printf("\n== Mean square errors ==\n");
891 :     for(i=0; i<64; i++)
892 :     {
893 :     double Err = Norm * (double)S->Sqr_Errors[i];
894 :     printf(" %.3f", Err);
895 :     if ((i&7)==7) printf("\n");
896 :     }
897 : Isibaar 262
898 : edgomez 1382 printf("\n== Mean errors ==\n");
899 :     for(i=0; i<64; i++)
900 :     {
901 :     double Err = Norm * (double)S->Errors[i];
902 :     printf(" %.3f", Err);
903 :     if ((i&7)==7) printf("\n");
904 :     }
905 :     printf("\n");
906 : Isibaar 262 }
907 :    
908 :     static const char *CHECK(double v, double l) {
909 : edgomez 1382 if (fabs(v)<=l) return "ok";
910 :     else return "FAIL!";
911 : Isibaar 262 }
912 :    
913 :     void report_stats(STATS_8x8 *S, const double *Limits)
914 :     {
915 : edgomez 1382 int i;
916 :     double Norm, PE, PMSE, OMSE, PME, OME;
917 : Isibaar 262
918 : edgomez 1382 assert(S->Nb>0);
919 :     Norm = 1. / (double)S->Nb;
920 :     PE = 0.;
921 :     for(i=0; i<64; i++) {
922 :     if (PE<S->Max_Errors[i])
923 :     PE = S->Max_Errors[i];
924 :     }
925 : Isibaar 262
926 : edgomez 1382 PMSE = 0.;
927 :     OMSE = 0.;
928 :     for(i=0; i<64; i++)
929 :     {
930 :     double Err = Norm * (double)S->Sqr_Errors[i];
931 :     OMSE += Err;
932 :     if (PMSE < Err) PMSE = Err;
933 :     }
934 :     OMSE /= 64.;
935 : Isibaar 262
936 : edgomez 1382 PME = 0.;
937 :     OME = 0.;
938 :     for(i=0; i<64; i++)
939 :     {
940 :     double Err = Norm * (double)S->Errors[i];
941 :     OME += Err;
942 :     Err = fabs(Err);
943 :     if (PME < Err) PME = Err;
944 :     }
945 :     OME /= 64.;
946 : Isibaar 262
947 : edgomez 1382 printf( "Peak error: %4.4f\n", PE );
948 :     printf( "Peak MSE: %4.4f\n", PMSE );
949 :     printf( "Overall MSE: %4.4f\n", OMSE );
950 :     printf( "Peak ME: %4.4f\n", PME );
951 :     printf( "Overall ME: %4.4f\n", OME );
952 :    
953 :     if (Limits!=0)
954 :     {
955 :     printf( "[PE<=%.4f %s] ", Limits[0], CHECK(PE, Limits[0]) );
956 :     printf( "\n" );
957 :     printf( "[PMSE<=%.4f %s]", Limits[1], CHECK(PMSE, Limits[1]) );
958 :     printf( "[OMSE<=%.4f %s]", Limits[2], CHECK(OMSE, Limits[2]) );
959 :     printf( "\n" );
960 :     printf( "[PME<=%.4f %s] ", Limits[3], CHECK(PME , Limits[3]) );
961 :     printf( "[OME<=%.4f %s] ", Limits[4], CHECK(OME , Limits[4]) );
962 :     printf( "\n" );
963 :     }
964 : Isibaar 262 }
965 :    
966 : edgomez 1382 ///* ////////////////////////////////////////////////////// */
967 : Isibaar 262 /* Pseudo-random generator specified by IEEE 1180 */
968 :    
969 :     static long ieee_seed = 1;
970 :     static void ieee_reseed(long s) {
971 : edgomez 1382 ieee_seed = s;
972 : Isibaar 262 }
973 :     static long ieee_rand(int Min, int Max)
974 :     {
975 : edgomez 1382 static double z = (double) 0x7fffffff;
976 : Isibaar 262
977 : edgomez 1382 long i,j;
978 :     double x;
979 : Isibaar 262
980 : edgomez 1382 ieee_seed = (ieee_seed * 1103515245) + 12345;
981 :     i = ieee_seed & 0x7ffffffe;
982 :     x = ((double) i) / z;
983 :     x *= (Max-Min+1);
984 :     j = (long)x;
985 :     j = j + Min;
986 :     assert(j>=Min && j<=Max);
987 :     return (short)j;
988 : Isibaar 262 }
989 :    
990 :     #define CLAMP(x, M) (x) = ((x)<-(M)) ? (-(M)) : ((x)>=(M) ? ((M)-1) : (x))
991 :    
992 :     static double Cos[8][8];
993 :     static void init_ref_dct()
994 :     {
995 : edgomez 1382 int i, j;
996 :     for(i=0; i<8; i++)
997 :     {
998 :     double scale = (i == 0) ? sqrt(0.125) : 0.5;
999 :     for (j=0; j<8; j++)
1000 :     Cos[i][j] = scale*cos( (M_PI/8.0)*i*(j + 0.5) );
1001 :     }
1002 : Isibaar 262 }
1003 :    
1004 :     void ref_idct(short *M)
1005 :     {
1006 : edgomez 1382 int i, j, k;
1007 :     double Tmp[8][8];
1008 : Isibaar 262
1009 : edgomez 1382 for(i=0; i<8; i++) {
1010 :     for(j=0; j<8; j++)
1011 :     {
1012 :     double Sum = 0.0;
1013 :     for (k=0; k<8; k++) Sum += Cos[k][j]*M[8*i+k];
1014 :     Tmp[i][j] = Sum;
1015 :     }
1016 :     }
1017 :     for(i=0; i<8; i++) {
1018 :     for(j=0; j<8; j++) {
1019 :     double Sum = 0.0;
1020 :     for (k=0; k<8; k++) Sum += Cos[k][i]*Tmp[k][j];
1021 :     M[8*i+j] = (short)floor(Sum + .5);
1022 :     }
1023 :     }
1024 : Isibaar 262 }
1025 :    
1026 :     void ref_fdct(short *M)
1027 :     {
1028 : edgomez 1382 int i, j, k;
1029 :     double Tmp[8][8];
1030 : Isibaar 262
1031 : edgomez 1382 for(i=0; i<8; i++) {
1032 :     for(j=0; j<8; j++)
1033 :     {
1034 :     double Sum = 0.0;
1035 :     for (k=0; k<8; k++) Sum += Cos[j][k]*M[8*i+k];
1036 :     Tmp[i][j] = Sum;
1037 :     }
1038 :     }
1039 :     for(i=0; i<8; i++) {
1040 :     for(j=0; j<8; j++) {
1041 :     double Sum = 0.0;
1042 :     for (k=0; k<8; k++) Sum += Cos[i][k]*Tmp[k][j];
1043 :     M[8*i+j] = (short)floor(Sum + 0.5);
1044 :     }
1045 :     }
1046 : Isibaar 262 }
1047 :    
1048 :     void test_IEEE1180_compliance(int Min, int Max, int Sign)
1049 :     {
1050 : edgomez 1382 static const double ILimits[5] = { 1., 0.06, 0.02, 0.015, 0.0015 };
1051 :     int Loops = 10000;
1052 :     int i, m, n;
1053 :     DECLARE_ALIGNED_MATRIX(Blk0, 8, 8, short, 16); /* reference */
1054 :     DECLARE_ALIGNED_MATRIX(Blk, 8, 8, short, 16);
1055 :     DECLARE_ALIGNED_MATRIX(iBlk, 8, 8, short, 16);
1056 :     DECLARE_ALIGNED_MATRIX(Ref_FDCT, 8, 8, short, 16);
1057 :     DECLARE_ALIGNED_MATRIX(Ref_IDCT, 8, 8, short, 16);
1058 : Isibaar 262
1059 : edgomez 1382 STATS_8x8 FStats; /* forward dct stats */
1060 :     STATS_8x8 IStats; /* inverse dct stats */
1061 : Isibaar 262
1062 : edgomez 1382 CPU *cpu;
1063 : Isibaar 262
1064 : edgomez 1382 init_ref_dct();
1065 : Isibaar 262
1066 : edgomez 1382 for(cpu = cpu_list; cpu->name!=0; ++cpu)
1067 :     {
1068 :     if (!init_cpu(cpu))
1069 :     continue;
1070 : Isibaar 262
1071 : edgomez 1382 printf( "\n===== IEEE test for %s ==== (Min=%d Max=%d Sign=%d Loops=%d)\n",
1072 :     cpu->name, Min, Max, Sign, Loops);
1073 : Isibaar 262
1074 : edgomez 1382 init_stats(&IStats);
1075 :     init_stats(&FStats);
1076 : Isibaar 262
1077 : edgomez 1382 ieee_reseed(1);
1078 :     for(n=0; n<Loops; ++n)
1079 :     {
1080 :     for(i=0; i<64; ++i)
1081 :     Blk0[i] = (short)ieee_rand(Min,Max) * Sign;
1082 : Isibaar 262
1083 : edgomez 1382 /* hmm, I'm not quite sure this is exactly */
1084 :     /* the tests described in the norm. check... */
1085 : Isibaar 262
1086 : edgomez 1382 memcpy(Ref_FDCT, Blk0, 64*sizeof(short));
1087 :     ref_fdct(Ref_FDCT);
1088 :     for(i=0; i<64; i++) CLAMP( Ref_FDCT[i], 2048 );
1089 : Isibaar 262
1090 : edgomez 1382 memcpy(Blk, Blk0, 64*sizeof(short));
1091 :     emms(); fdct(Blk); emms();
1092 :     for(i=0; i<64; i++) CLAMP( Blk[i], 2048 );
1093 : Isibaar 262
1094 : edgomez 1382 store_stats(&FStats, Blk, Ref_FDCT);
1095 : Isibaar 262
1096 :    
1097 : edgomez 1382 memcpy(Ref_IDCT, Ref_FDCT, 64*sizeof(short));
1098 :     ref_idct(Ref_IDCT);
1099 :     for (i=0; i<64; i++) CLAMP( Ref_IDCT[i], 256 );
1100 : Isibaar 262
1101 : edgomez 1382 memcpy(iBlk, Ref_FDCT, 64*sizeof(short));
1102 :     emms(); idct(iBlk); emms();
1103 :     for(i=0; i<64; i++) CLAMP( iBlk[i], 256 );
1104 : Isibaar 262
1105 : edgomez 1382 store_stats(&IStats, iBlk, Ref_IDCT);
1106 :     }
1107 : Isibaar 262
1108 :    
1109 : edgomez 1382 printf( "\n -- FDCT report --\n" );
1110 : edgomez 851 // print_stats(&FStats);
1111 : edgomez 1382 report_stats(&FStats, 0); /* so far I know, IEEE1180 says nothing for fdct */
1112 : Isibaar 262
1113 : edgomez 1382 for(i=0; i<64; i++) Blk[i] = 0;
1114 :     emms(); fdct(Blk); emms();
1115 :     for(m=i=0; i<64; i++) if (Blk[i]!=0) m++;
1116 :     printf( "FDCT(0) == 0 ? %s\n", (m!=0) ? "NOPE!" : "yup." );
1117 : Isibaar 262
1118 : edgomez 1382 printf( "\n -- IDCT report --\n" );
1119 : edgomez 851 // print_stats(&IStats);
1120 : edgomez 1382 report_stats(&IStats, ILimits);
1121 : Isibaar 262
1122 :    
1123 : edgomez 1382 for(i=0; i<64; i++) Blk[i] = 0;
1124 :     emms(); idct(Blk); emms();
1125 :     for(m=i=0; i<64; i++) if (Blk[i]!=0) m++;
1126 :     printf( "IDCT(0) == 0 ? %s\n", (m!=0) ? "NOPE!" : "yup." );
1127 :     }
1128 : Isibaar 262 }
1129 :    
1130 :    
1131 :     void test_dct_saturation(int Min, int Max)
1132 :     {
1133 : edgomez 1382 /* test behaviour on input range fringe */
1134 : Isibaar 262
1135 : edgomez 1382 int i, n, p;
1136 :     CPU *cpu;
1137 :     // const short IDCT_MAX = 2047; /* 12bits input */
1138 : edgomez 851 // const short IDCT_MIN = -2048;
1139 : edgomez 1382 // const short IDCT_OUT = 256; /* 9bits ouput */
1140 :     const int Partitions = 4;
1141 :     const int Loops = 10000 / Partitions;
1142 : Isibaar 262
1143 : edgomez 1382 init_ref_dct();
1144 : Isibaar 262
1145 : edgomez 1382 for(cpu = cpu_list; cpu->name!=0; ++cpu)
1146 :     {
1147 :     short Blk0[64], Blk[64];
1148 :     STATS_8x8 Stats;
1149 : Isibaar 262
1150 : edgomez 1382 if (!init_cpu(cpu))
1151 :     continue;
1152 : Isibaar 262
1153 : edgomez 1382 printf( "\n===== IEEE test for %s Min=%d Max=%d =====\n",
1154 :     cpu->name, Min, Max );
1155 : Isibaar 262
1156 : edgomez 1382 /* FDCT tests // */
1157 : Isibaar 262
1158 : edgomez 1382 init_stats(&Stats);
1159 : Isibaar 262
1160 : edgomez 1382 /* test each computation channels separately */
1161 :     for(i=0; i<64; i++) Blk[i] = Blk0[i] = ((i/8)==(i%8)) ? Max : 0;
1162 :     ref_fdct(Blk0);
1163 :     emms(); fdct(Blk); emms();
1164 :     store_stats(&Stats, Blk, Blk0);
1165 : Isibaar 262
1166 : edgomez 1382 for(i=0; i<64; i++) Blk[i] = Blk0[i] = ((i/8)==(i%8)) ? Min : 0;
1167 :     ref_fdct(Blk0);
1168 :     emms(); fdct(Blk); emms();
1169 :     store_stats(&Stats, Blk, Blk0);
1170 : Isibaar 262
1171 : edgomez 1382 /* randomly saturated inputs */
1172 :     for(p=0; p<Partitions; ++p)
1173 :     {
1174 :     for(n=0; n<Loops; ++n)
1175 :     {
1176 :     for(i=0; i<64; ++i)
1177 :     Blk0[i] = Blk[i] = (ieee_rand(0,Partitions)>=p)? Max : Min;
1178 :     ref_fdct(Blk0);
1179 :     emms(); fdct(Blk); emms();
1180 :     store_stats(&Stats, Blk, Blk0);
1181 :     }
1182 :     }
1183 :     printf( "\n -- FDCT saturation report --\n" );
1184 :     report_stats(&Stats, 0);
1185 : Isibaar 262
1186 :    
1187 : edgomez 1382 /* IDCT tests // */
1188 : Isibaar 262 #if 0
1189 : edgomez 1382 /* no finished yet */
1190 : Isibaar 262
1191 : edgomez 1382 init_stats(&Stats);
1192 : Isibaar 262
1193 : edgomez 1382 /* test each computation channel separately */
1194 :     for(i=0; i<64; i++) Blk[i] = Blk0[i] = ((i/8)==(i%8)) ? IDCT_MAX : 0;
1195 :     ref_idct(Blk0);
1196 :     emms(); idct(Blk); emms();
1197 :     for(i=0; i<64; i++) { CLAMP(Blk0[i], IDCT_OUT); CLAMP(Blk[i], IDCT_OUT); }
1198 :     store_stats(&Stats, Blk, Blk0);
1199 : Isibaar 262
1200 : edgomez 1382 for(i=0; i<64; i++) Blk[i] = Blk0[i] = ((i/8)==(i%8)) ? IDCT_MIN : 0;
1201 :     ref_idct(Blk0);
1202 :     emms(); idct(Blk); emms();
1203 :     for(i=0; i<64; i++) { CLAMP(Blk0[i], IDCT_OUT); CLAMP(Blk[i], IDCT_OUT); }
1204 :     store_stats(&Stats, Blk, Blk0);
1205 : Isibaar 262
1206 : edgomez 1382 /* randomly saturated inputs */
1207 :     for(p=0; p<Partitions; ++p)
1208 :     {
1209 :     for(n=0; n<Loops; ++n)
1210 :     {
1211 :     for(i=0; i<64; ++i)
1212 :     Blk0[i] = Blk[i] = (ieee_rand(0,Partitions)>=p)? IDCT_MAX : IDCT_MIN;
1213 :     ref_idct(Blk0);
1214 :     emms(); idct(Blk); emms();
1215 :     for(i=0; i<64; i++) { CLAMP(Blk0[i],IDCT_OUT); CLAMP(Blk[i],IDCT_OUT); }
1216 :     store_stats(&Stats, Blk, Blk0);
1217 :     }
1218 :     }
1219 : Isibaar 262
1220 : edgomez 1382 printf( "\n -- IDCT saturation report --\n" );
1221 :     print_stats(&Stats);
1222 :     report_stats(&Stats, 0);
1223 : Isibaar 262 #endif
1224 : edgomez 1382 }
1225 : Isibaar 262 }
1226 :    
1227 :     /*********************************************************************
1228 : Isibaar 225 * measure raw decoding speed
1229 :     *********************************************************************/
1230 :    
1231 :     void test_dec(const char *name, int width, int height, int with_chksum)
1232 :     {
1233 : edgomez 1382 FILE *f = 0;
1234 :     void *dechandle = 0;
1235 :     int xerr;
1236 :     xvid_gbl_init_t xinit;
1237 :     xvid_dec_create_t xparam;
1238 :     xvid_dec_frame_t xframe;
1239 : Isibaar 225 double t = 0.;
1240 :     int nb = 0;
1241 : edgomez 1382 uint8_t *buf = 0;
1242 :     uint8_t *rgb_out = 0;
1243 :     int buf_size, pos;
1244 :     uint32_t chksum = 0;
1245 : Isibaar 225
1246 : edgomez 1382 memset(&xinit, 0, sizeof(xinit));
1247 : Isibaar 262 xinit.cpu_flags = XVID_CPU_MMX | XVID_CPU_FORCE;
1248 : edgomez 1382 xinit.version = XVID_VERSION;
1249 :     xvid_global(NULL, 0, &xinit, NULL);
1250 : Isibaar 225
1251 : edgomez 1382 memset(&xparam, 0, sizeof(xparam));
1252 : Isibaar 225 xparam.width = width;
1253 :     xparam.height = height;
1254 : edgomez 1382 xparam.version = XVID_VERSION;
1255 : Isibaar 225 xerr = xvid_decore(NULL, XVID_DEC_CREATE, &xparam, NULL);
1256 : edgomez 1382 if (xerr==XVID_ERR_FAIL) {
1257 :     printf("can't init decoder (err=%d)\n", xerr);
1258 :     return;
1259 : Isibaar 225 }
1260 :     dechandle = xparam.handle;
1261 :    
1262 :    
1263 :     f = fopen(name, "rb");
1264 : edgomez 1382 if (f==0) {
1265 :     printf( "can't open file '%s'\n", name);
1266 :     return;
1267 :     }
1268 :     fseek(f, 0, SEEK_END);
1269 :     buf_size = ftell(f);
1270 :     fseek(f, 0, SEEK_SET);
1271 :     if (buf_size<=0) {
1272 :     printf("error while stating file\n");
1273 :     goto End;
1274 :     }
1275 :     else printf( "Input size: %d\n", buf_size);
1276 : Isibaar 225
1277 : edgomez 1382 buf = malloc(buf_size); /* should be enuf' */
1278 :     rgb_out = calloc(4, width*height); /* <-room for _RGB24 */
1279 :     if (buf==0 || rgb_out==0) {
1280 :     printf( "malloc failed!\n" );
1281 :     goto End;
1282 :     }
1283 : Isibaar 225
1284 : edgomez 1382 if (fread(buf, buf_size, 1, f)!=1) {
1285 :     printf( "file-read failed\n" );
1286 :     goto End;
1287 :     }
1288 : Isibaar 225
1289 : edgomez 1382 nb = 0;
1290 :     pos = 0;
1291 :     t = -gettime_usec();
1292 :     while(1) {
1293 :     memset(&xframe, 0, sizeof(xframe));
1294 :     xframe.version = XVID_VERSION;
1295 :     xframe.bitstream = buf + pos;
1296 :     xframe.length = buf_size - pos;
1297 :     xframe.output.plane[0] = rgb_out;
1298 :     xframe.output.stride[0] = width;
1299 :     xframe.output.csp = XVID_CSP_BGR;
1300 :     xerr = xvid_decore(dechandle, XVID_DEC_DECODE, &xframe, 0);
1301 :     nb++;
1302 :     pos += xframe.length;
1303 :     if (with_chksum) {
1304 :     int k = width*height;
1305 :     uint32_t *ptr = (uint32_t *)rgb_out;
1306 :     while(k-->0) chksum += *ptr++;
1307 :     }
1308 :     if (pos==buf_size)
1309 :     break;
1310 :     if (xerr==XVID_ERR_FAIL) {
1311 :     printf("decoding failed for frame #%d (err=%d)!\n", nb, xerr);
1312 :     break;
1313 :     }
1314 :     }
1315 :     t += gettime_usec();
1316 :     if (t>0.)
1317 :     printf( "%d frames decoded in %.3f s -> %.1f FPS\n", nb, t*1.e-6f, (float)(nb*1.e6f/t) );
1318 :     if (with_chksum)
1319 :     printf("checksum: 0x%.8x\n", chksum);
1320 : Isibaar 225
1321 : edgomez 1382 End:
1322 :     if (rgb_out!=0) free(rgb_out);
1323 :     if (buf!=0) free(buf);
1324 :     if (dechandle!=0) {
1325 :     xerr= xvid_decore(dechandle, XVID_DEC_DESTROY, NULL, NULL);
1326 :     if (xerr==XVID_ERR_FAIL)
1327 :     printf("destroy-decoder failed (err=%d)!\n", xerr);
1328 :     }
1329 :     if (f!=0) fclose(f);
1330 : Isibaar 225 }
1331 :    
1332 :     /*********************************************************************
1333 :     * non-regression tests
1334 :     *********************************************************************/
1335 :    
1336 :     void test_bugs1()
1337 :     {
1338 : edgomez 1382 CPU *cpu;
1339 :     uint16_t mpeg_quant_matrices[64*8];
1340 : Isibaar 225
1341 : edgomez 1382 printf( "\n ===== (de)quant4_intra saturation bug? =====\n" );
1342 : Isibaar 225
1343 : edgomez 1382 for(cpu = cpu_list; cpu->name!=0; ++cpu)
1344 :     {
1345 :     int i;
1346 :     int16_t Src[8*8], Dst[8*8];
1347 : Isibaar 225
1348 : edgomez 1382 if (!init_cpu(cpu))
1349 :     continue;
1350 : Isibaar 225
1351 : edgomez 1382 for(i=0; i<64; ++i) Src[i] = i-32;
1352 :     set_intra_matrix( mpeg_quant_matrices, get_default_intra_matrix() );
1353 :     dequant_mpeg_intra(Dst, Src, 31, 5, mpeg_quant_matrices);
1354 :     printf( "dequant_mpeg_intra with CPU=%s: ", cpu->name);
1355 :     printf( " Out[]= " );
1356 :     for(i=0; i<64; ++i) printf( "[%d]", Dst[i]);
1357 :     printf( "\n" );
1358 :     }
1359 : Isibaar 225
1360 : edgomez 1382 printf( "\n ===== (de)quant4_inter saturation bug? =====\n" );
1361 : Isibaar 225
1362 : edgomez 1382 for(cpu = cpu_list; cpu->name!=0; ++cpu)
1363 :     {
1364 :     int i;
1365 :     int16_t Src[8*8], Dst[8*8];
1366 : Isibaar 225
1367 : edgomez 1382 if (!init_cpu(cpu))
1368 :     continue;
1369 : Isibaar 225
1370 : edgomez 1382 for(i=0; i<64; ++i) Src[i] = i-32;
1371 :     set_inter_matrix( mpeg_quant_matrices, get_default_inter_matrix() );
1372 :     dequant_mpeg_inter(Dst, Src, 31, mpeg_quant_matrices);
1373 :     printf( "dequant_mpeg_inter with CPU=%s: ", cpu->name);
1374 :     printf( " Out[]= " );
1375 :     for(i=0; i<64; ++i) printf( "[%d]", Dst[i]);
1376 :     printf( "\n" );
1377 :     }
1378 : Isibaar 225 }
1379 :    
1380 :     void test_dct_precision_diffs()
1381 :     {
1382 : edgomez 1382 CPU *cpu;
1383 :     DECLARE_ALIGNED_MATRIX(Blk, 8, 8, int16_t, 16);
1384 :     DECLARE_ALIGNED_MATRIX(Blk0, 8, 8, int16_t, 16);
1385 : Isibaar 225
1386 : edgomez 1382 printf( "\n ===== fdct/idct precision diffs =====\n" );
1387 : Isibaar 225
1388 : edgomez 1382 for(cpu = cpu_list; cpu->name!=0; ++cpu)
1389 :     {
1390 :     int i;
1391 : Isibaar 225
1392 : edgomez 1382 if (!init_cpu(cpu))
1393 :     continue;
1394 : Isibaar 225
1395 : edgomez 1382 for(i=0; i<8*8; ++i) {
1396 :     Blk0[i] = (i*7-i*i) & 0x7f;
1397 :     Blk[i] = Blk0[i];
1398 :     }
1399 : Isibaar 225
1400 : edgomez 1382 fdct(Blk);
1401 :     idct(Blk);
1402 :     printf( " fdct+idct diffs with CPU=%s: \n", cpu->name );
1403 :     for(i=0; i<8; ++i) {
1404 :     int j;
1405 :     for(j=0; j<8; ++j) printf( " %d ", Blk[i*8+j]-Blk0[i*8+j]);
1406 :     printf("\n");
1407 :     }
1408 :     printf("\n");
1409 :     }
1410 : Isibaar 225 }
1411 :    
1412 : Isibaar 262 void test_quant_bug()
1413 :     {
1414 : edgomez 1382 const int max_Q = 31;
1415 :     int i, n, qm, q;
1416 :     CPU *cpu;
1417 :     DECLARE_ALIGNED_MATRIX(Src, 8, 8, int16_t, 16);
1418 :     DECLARE_ALIGNED_MATRIX(Dst, 8, 8, int16_t, 16);
1419 :     uint8_t Quant[8*8];
1420 :     CPU cpu_bug_list[] = { { "PLAINC", 0 }, { "MMX ", XVID_CPU_MMX }, {0,0} };
1421 :     uint16_t Crcs_Inter[2][32];
1422 :     uint16_t Crcs_Intra[2][32];
1423 :     DECLARE_ALIGNED_MATRIX(mpeg_quant_matrices, 8, 64, uint16_t, 16);
1424 : Isibaar 225
1425 : edgomez 1382 printf( "\n ===== test MPEG4-quantize bug =====\n" );
1426 : Isibaar 262
1427 : edgomez 1382 for(i=0; i<64; ++i) Src[i] = 2048*(i-32)/32;
1428 :    
1429 : Isibaar 262 #if 1
1430 : edgomez 1382 for(qm=1; qm<=255; ++qm)
1431 :     {
1432 :     for(i=0; i<8*8; ++i) Quant[i] = qm;
1433 :     set_inter_matrix( mpeg_quant_matrices, Quant );
1434 : Isibaar 262
1435 : edgomez 1382 for(n=0, cpu = cpu_bug_list; cpu->name!=0; ++cpu, ++n)
1436 :     {
1437 :     uint16_t s;
1438 : Isibaar 262
1439 : edgomez 1382 if (!init_cpu(cpu))
1440 :     continue;
1441 : Isibaar 262
1442 : edgomez 1382 for(q=1; q<=max_Q; ++q) {
1443 :     emms();
1444 :     quant_mpeg_inter( Dst, Src, q, mpeg_quant_matrices );
1445 :     emms();
1446 :     for(s=0, i=0; i<64; ++i) s+=((uint16_t)Dst[i])^i;
1447 :     Crcs_Inter[n][q] = s;
1448 :     }
1449 :     }
1450 : Isibaar 262
1451 : edgomez 1382 for(q=1; q<=max_Q; ++q)
1452 :     for(i=0; i<n-1; ++i)
1453 :     if (Crcs_Inter[i][q]!=Crcs_Inter[i+1][q])
1454 :     printf( "Discrepancy Inter: qm=%d, q=%d -> %d/%d !\n",
1455 :     qm, q, Crcs_Inter[i][q], Crcs_Inter[i+1][q]);
1456 :     }
1457 : Isibaar 262 #endif
1458 :    
1459 :     #if 1
1460 : edgomez 1382 for(qm=1; qm<=255; ++qm)
1461 :     {
1462 :     for(i=0; i<8*8; ++i) Quant[i] = qm;
1463 :     set_intra_matrix( mpeg_quant_matrices, Quant );
1464 : Isibaar 262
1465 : edgomez 1382 for(n=0, cpu = cpu_bug_list; cpu->name!=0; ++cpu, ++n)
1466 :     {
1467 :     uint16_t s;
1468 : Isibaar 262
1469 : edgomez 1382 if (!init_cpu(cpu))
1470 :     continue;
1471 : Isibaar 262
1472 : edgomez 1382 for(q=1; q<=max_Q; ++q) {
1473 :     emms();
1474 :     quant_mpeg_intra( Dst, Src, q, q, mpeg_quant_matrices);
1475 :     emms();
1476 :     for(s=0, i=0; i<64; ++i) s+=((uint16_t)Dst[i])^i;
1477 :     Crcs_Intra[n][q] = s;
1478 :     }
1479 :     }
1480 : Isibaar 262
1481 : edgomez 1382 for(q=1; q<=max_Q; ++q)
1482 :     for(i=0; i<n-1; ++i)
1483 :     if (Crcs_Intra[i][q]!=Crcs_Intra[i+1][q])
1484 :     printf( "Discrepancy Intra: qm=%d, q=%d -> %d/%d!\n",
1485 :     qm, q, Crcs_Inter[i][q], Crcs_Inter[i+1][q]);
1486 :     }
1487 : Isibaar 262 #endif
1488 :     }
1489 :    
1490 : Isibaar 225 /*********************************************************************
1491 :     * main
1492 :     *********************************************************************/
1493 :    
1494 :     int main(int argc, char *argv[])
1495 :     {
1496 : edgomez 1382 int what = 0;
1497 :     if (argc>1) what = atoi(argv[1]);
1498 :     if (what==0 || what==1) test_dct();
1499 :     if (what==0 || what==2) test_mb();
1500 :     if (what==0 || what==3) test_sad();
1501 :     if (what==0 || what==4) test_transfer();
1502 :     if (what==0 || what==5) test_quant();
1503 :     if (what==0 || what==6) test_cbp();
1504 : Isibaar 225
1505 : edgomez 1382 if (what==7) {
1506 :     test_IEEE1180_compliance(-256, 255, 1);
1507 :     test_IEEE1180_compliance(-256, 255,-1);
1508 :     test_IEEE1180_compliance( -5, 5, 1);
1509 :     test_IEEE1180_compliance( -5, 5,-1);
1510 :     test_IEEE1180_compliance(-300, 300, 1);
1511 :     test_IEEE1180_compliance(-300, 300,-1);
1512 :     }
1513 :     if (what==8) test_dct_saturation(-256, 255);
1514 : Isibaar 262
1515 : edgomez 1382 if (what==9) {
1516 :     int width, height;
1517 :     if (argc<5) {
1518 :     printf("usage: %s %d [bitstream] [width] [height]\n", argv[0], what);
1519 :     return 1;
1520 :     }
1521 :     width = atoi(argv[3]);
1522 :     height = atoi(argv[4]);
1523 :     test_dec(argv[2], width, height, (argc>5));
1524 :     }
1525 : Isibaar 225
1526 : edgomez 1382 if (what==-1) {
1527 :     test_dct_precision_diffs();
1528 :     test_bugs1();
1529 :     }
1530 :     if (what==-2)
1531 :     test_quant_bug();
1532 : Isibaar 262
1533 : edgomez 1382 if (what >= 0 && what <= 6) {
1534 :     printf("\n\n"
1535 :     "NB: If a function isn't optimised for a specific set of intructions,\n"
1536 :     " a C function is used instead. So don't panic if some functions\n"
1537 :     " may appear to be slow.\n");
1538 :     }
1539 :    
1540 :     #ifdef ARCH_IS_IA32
1541 :     if (what == 0 || what == 5) {
1542 :     printf("\n"
1543 :     "NB: MMX mpeg4 quantization is known to have very small errors (+/-1 magnitude)\n"
1544 :     " for 1 or 2 coefficients a block. This is mainly caused by the fact the unit\n"
1545 :     " test goes far behind the usual limits of real encoding. Please do not report\n"
1546 :     " this error to the developers.\n");
1547 :     }
1548 :     #endif
1549 :    
1550 :     return 0;
1551 : Isibaar 225 }
1552 :    
1553 :     /*********************************************************************
1554 : edgomez 1382 * 'Reference' output (except for timing) on an Athlon XP 2200+
1555 : Isibaar 225 *********************************************************************/
1556 : Isibaar 262
1557 : edgomez 1382 /* as of 2002-01-07, there's a problem with MMX mpeg4-quantization */
1558 :     /* as of 2003-11-30, the problem is still here */
1559 : Isibaar 225
1560 : edgomez 1382 /*********************************************************************
1561 :    
1562 :    
1563 : Isibaar 225 ===== test fdct/idct =====
1564 : edgomez 1382 PLAINC - 2.867 usec PSNR=13.291 MSE=3.000
1565 :     MMX - -0.211 usec PSNR=9.611 MSE=7.000
1566 :     MMXEXT - -0.256 usec PSNR=9.611 MSE=7.000
1567 :     3DNOW - 2.855 usec PSNR=13.291 MSE=3.000
1568 :     3DNOWE - 1.429 usec PSNR=13.291 MSE=3.000
1569 : Isibaar 225
1570 :     === test block motion ===
1571 : edgomez 1382 PLAINC - interp- h-round0 0.538 usec crc32=0x115381ba
1572 :     PLAINC - round1 0.527 usec crc32=0x2b1f528f
1573 :     PLAINC - interp- v-round0 0.554 usec crc32=0x423cdcc7
1574 :     PLAINC - round1 0.551 usec crc32=0x42202efe
1575 :     PLAINC - interp-hv-round0 1.041 usec crc32=0xd198d387
1576 :     PLAINC - round1 1.038 usec crc32=0x9ecfd921
1577 : Isibaar 225 ---
1578 : edgomez 1382 MMX - interp- h-round0 0.051 usec crc32=0x115381ba
1579 :     MMX - round1 0.053 usec crc32=0x2b1f528f
1580 :     MMX - interp- v-round0 0.048 usec crc32=0x423cdcc7
1581 :     MMX - round1 0.048 usec crc32=0x42202efe
1582 :     MMX - interp-hv-round0 0.074 usec crc32=0xd198d387
1583 :     MMX - round1 0.073 usec crc32=0x9ecfd921
1584 : Isibaar 225 ---
1585 : edgomez 1382 MMXEXT - interp- h-round0 0.020 usec crc32=0x115381ba
1586 :     MMXEXT - round1 0.025 usec crc32=0x2b1f528f
1587 :     MMXEXT - interp- v-round0 0.016 usec crc32=0x423cdcc7
1588 :     MMXEXT - round1 0.024 usec crc32=0x42202efe
1589 :     MMXEXT - interp-hv-round0 0.037 usec crc32=0xd198d387
1590 :     MMXEXT - round1 0.037 usec crc32=0x9ecfd921
1591 : Isibaar 225 ---
1592 : edgomez 1382 3DNOW - interp- h-round0 0.020 usec crc32=0x115381ba
1593 :     3DNOW - round1 0.029 usec crc32=0x2b1f528f
1594 :     3DNOW - interp- v-round0 0.016 usec crc32=0x423cdcc7
1595 :     3DNOW - round1 0.024 usec crc32=0x42202efe
1596 :     3DNOW - interp-hv-round0 0.038 usec crc32=0xd198d387
1597 :     3DNOW - round1 0.039 usec crc32=0x9ecfd921
1598 : Isibaar 225 ---
1599 : edgomez 1382 3DNOWE - interp- h-round0 0.020 usec crc32=0x115381ba
1600 :     3DNOWE - round1 0.024 usec crc32=0x2b1f528f
1601 :     3DNOWE - interp- v-round0 0.016 usec crc32=0x423cdcc7
1602 :     3DNOWE - round1 0.021 usec crc32=0x42202efe
1603 :     3DNOWE - interp-hv-round0 0.037 usec crc32=0xd198d387
1604 :     3DNOWE - round1 0.036 usec crc32=0x9ecfd921
1605 :     ---
1606 : Isibaar 225
1607 :     ====== test SAD ======
1608 : edgomez 1382 PLAINC - sad8 0.505 usec sad=3776
1609 :     PLAINC - sad16 1.941 usec sad=27214
1610 :     PLAINC - sad16bi 4.925 usec sad=26274
1611 :     PLAINC - dev16 4.254 usec sad=3344
1612 : Isibaar 225 ---
1613 : edgomez 1382 MMX - sad8 0.036 usec sad=3776
1614 :     MMX - sad16 0.107 usec sad=27214
1615 :     MMX - sad16bi 0.259 usec sad=26274
1616 :     MMX - dev16 0.187 usec sad=3344
1617 : Isibaar 225 ---
1618 : edgomez 1382 MMXEXT - sad8 0.016 usec sad=3776
1619 :     MMXEXT - sad16 0.050 usec sad=27214
1620 :     MMXEXT - sad16bi 0.060 usec sad=26274
1621 :     MMXEXT - dev16 0.086 usec sad=3344
1622 : Isibaar 225 ---
1623 : edgomez 1382 3DNOW - sad8 0.506 usec sad=3776
1624 :     3DNOW - sad16 1.954 usec sad=27214
1625 :     3DNOW - sad16bi 0.119 usec sad=26274
1626 :     3DNOW - dev16 4.252 usec sad=3344
1627 : Isibaar 225 ---
1628 : edgomez 1382 3DNOWE - sad8 0.017 usec sad=3776
1629 :     3DNOWE - sad16 0.038 usec sad=27214
1630 :     3DNOWE - sad16bi 0.052 usec sad=26274
1631 :     3DNOWE - dev16 0.067 usec sad=3344
1632 :     ---
1633 : Isibaar 225
1634 :     === test transfer ===
1635 : edgomez 1382 PLAINC - 8to16 0.603 usec crc32=0x115814bb
1636 :     PLAINC - 16to8 1.077 usec crc32=0xee7ccbb4
1637 :     PLAINC - 8to8 0.679 usec crc32=0xd37b3295
1638 :     PLAINC - 16to8add 1.341 usec crc32=0xdd817bf4
1639 :     PLAINC - 8to16sub 1.566 usec crc32(1)=0xa1e07163 crc32(2)=0xd86c5d23
1640 :     PLAINC - 8to16sub2 2.206 usec crc32=0x99b6c4c7
1641 : Isibaar 225 ---
1642 : edgomez 1382 MMX - 8to16 -0.025 usec crc32=0x115814bb
1643 :     MMX - 16to8 -0.049 usec crc32=0xee7ccbb4
1644 :     MMX - 8to8 0.014 usec crc32=0xd37b3295
1645 :     MMX - 16to8add 0.011 usec crc32=0xdd817bf4
1646 :     MMX - 8to16sub 0.108 usec crc32(1)=0xa1e07163 crc32(2)=0xd86c5d23
1647 :     MMX - 8to16sub2 0.164 usec crc32=0x99b6c4c7
1648 : Isibaar 225 ---
1649 : edgomez 1382 MMXEXT - 8to16 -0.054 usec crc32=0x115814bb
1650 :     MMXEXT - 16to8 0.010 usec crc32=0xee7ccbb4
1651 :     MMXEXT - 8to8 0.015 usec crc32=0xd37b3295
1652 :     MMXEXT - 16to8add 0.008 usec crc32=0xdd817bf4
1653 :     MMXEXT - 8to16sub 0.263 usec crc32(1)=0xa1e07163 crc32(2)=0xd86c5d23
1654 :     MMXEXT - 8to16sub2 0.178 usec crc32=0x99b6c4c7
1655 :     ---
1656 :     3DNOW - 8to16 0.666 usec crc32=0x115814bb
1657 :     3DNOW - 16to8 1.078 usec crc32=0xee7ccbb4
1658 :     3DNOW - 8to8 0.665 usec crc32=0xd37b3295
1659 :     3DNOW - 16to8add 1.365 usec crc32=0xdd817bf4
1660 :     3DNOW - 8to16sub 1.356 usec crc32(1)=0xa1e07163 crc32(2)=0xd86c5d23
1661 :     3DNOW - 8to16sub2 2.098 usec crc32=0x99b6c4c7
1662 :     ---
1663 :     3DNOWE - 8to16 -0.024 usec crc32=0x115814bb
1664 :     3DNOWE - 16to8 0.010 usec crc32=0xee7ccbb4
1665 :     3DNOWE - 8to8 0.014 usec crc32=0xd37b3295
1666 :     3DNOWE - 16to8add 0.016 usec crc32=0xdd817bf4
1667 :     3DNOWE - 8to16sub -0.000 usec crc32(1)=0xa1e07163 crc32(2)=0xd86c5d23
1668 :     3DNOWE - 8to16sub2 -0.031 usec crc32=0x99b6c4c7
1669 :     ---
1670 : Isibaar 225
1671 :     ===== test quant =====
1672 : edgomez 1382 PLAINC - quant_mpeg_intra 98.631 usec crc32=0xfd6a21a4
1673 :     PLAINC - quant_mpeg_inter 104.876 usec crc32=0xf6de7757
1674 :     PLAINC - dequant_mpeg_intra 50.285 usec crc32=0x2def7bc7
1675 :     PLAINC - dequant_mpeg_inter 58.316 usec crc32=0xd878c722
1676 :     PLAINC - quant_h263_intra 33.803 usec crc32=0x2eba9d43
1677 :     PLAINC - quant_h263_inter 45.411 usec crc32=0xbd315a7e
1678 :     PLAINC - dequant_h263_intra 39.302 usec crc32=0x9841212a
1679 :     PLAINC - dequant_h263_inter 44.124 usec crc32=0xe7df8fba
1680 : Isibaar 225 ---
1681 : edgomez 1382 MMX - quant_mpeg_intra 4.273 usec crc32=0xdacabdb6 | ERROR
1682 :     MMX - quant_mpeg_inter 3.576 usec crc32=0x72883ab6 | ERROR
1683 :     MMX - dequant_mpeg_intra 3.793 usec crc32=0x2def7bc7
1684 :     MMX - dequant_mpeg_inter 4.808 usec crc32=0xd878c722
1685 :     MMX - quant_h263_intra 2.881 usec crc32=0x2eba9d43
1686 :     MMX - quant_h263_inter 2.550 usec crc32=0xbd315a7e
1687 :     MMX - dequant_h263_intra 2.974 usec crc32=0x9841212a
1688 :     MMX - dequant_h263_inter 2.906 usec crc32=0xe7df8fba
1689 : Isibaar 225 ---
1690 : edgomez 1382 MMXEXT - quant_mpeg_intra 4.221 usec crc32=0xfd6a21a4
1691 :     MMXEXT - quant_mpeg_inter 4.339 usec crc32=0xf6de7757
1692 :     MMXEXT - dequant_mpeg_intra 3.802 usec crc32=0x2def7bc7
1693 :     MMXEXT - dequant_mpeg_inter 4.821 usec crc32=0xd878c722
1694 :     MMXEXT - quant_h263_intra 2.884 usec crc32=0x2eba9d43
1695 :     MMXEXT - quant_h263_inter 2.554 usec crc32=0xbd315a7e
1696 :     MMXEXT - dequant_h263_intra 2.728 usec crc32=0x9841212a
1697 :     MMXEXT - dequant_h263_inter 2.611 usec crc32=0xe7df8fba
1698 :     ---
1699 :     3DNOW - quant_mpeg_intra 98.512 usec crc32=0xfd6a21a4
1700 :     3DNOW - quant_mpeg_inter 104.873 usec crc32=0xf6de7757
1701 :     3DNOW - dequant_mpeg_intra 50.219 usec crc32=0x2def7bc7
1702 :     3DNOW - dequant_mpeg_inter 58.254 usec crc32=0xd878c722
1703 :     3DNOW - quant_h263_intra 33.778 usec crc32=0x2eba9d43
1704 :     3DNOW - quant_h263_inter 41.998 usec crc32=0xbd315a7e
1705 :     3DNOW - dequant_h263_intra 39.344 usec crc32=0x9841212a
1706 :     3DNOW - dequant_h263_inter 43.607 usec crc32=0xe7df8fba
1707 :     ---
1708 :     3DNOWE - quant_mpeg_intra 98.490 usec crc32=0xfd6a21a4
1709 :     3DNOWE - quant_mpeg_inter 104.889 usec crc32=0xf6de7757
1710 :     3DNOWE - dequant_mpeg_intra 3.277 usec crc32=0x2def7bc7
1711 :     3DNOWE - dequant_mpeg_inter 4.485 usec crc32=0xd878c722
1712 :     3DNOWE - quant_h263_intra 1.882 usec crc32=0x2eba9d43
1713 :     3DNOWE - quant_h263_inter 2.246 usec crc32=0xbd315a7e
1714 :     3DNOWE - dequant_h263_intra 3.457 usec crc32=0x9841212a
1715 :     3DNOWE - dequant_h263_inter 3.275 usec crc32=0xe7df8fba
1716 :     ---
1717 : Isibaar 225
1718 :     ===== test cbp =====
1719 : edgomez 1382 PLAINC - calc_cbp#1 0.168 usec cbp=0x15
1720 :     PLAINC - calc_cbp#2 0.168 usec cbp=0x38
1721 :     PLAINC - calc_cbp#3 0.157 usec cbp=0x0f
1722 :     PLAINC - calc_cbp#4 0.235 usec cbp=0x05
1723 : Isibaar 225 ---
1724 : edgomez 1382 MMX - calc_cbp#1 0.070 usec cbp=0x15
1725 :     MMX - calc_cbp#2 0.062 usec cbp=0x38
1726 :     MMX - calc_cbp#3 0.062 usec cbp=0x0f
1727 :     MMX - calc_cbp#4 0.061 usec cbp=0x05
1728 : Isibaar 225 ---
1729 : edgomez 1382 MMXEXT - calc_cbp#1 0.062 usec cbp=0x15
1730 :     MMXEXT - calc_cbp#2 0.061 usec cbp=0x38
1731 :     MMXEXT - calc_cbp#3 0.061 usec cbp=0x0f
1732 :     MMXEXT - calc_cbp#4 0.061 usec cbp=0x05
1733 : Isibaar 225 ---
1734 : edgomez 1382 3DNOW - calc_cbp#1 0.168 usec cbp=0x15
1735 :     3DNOW - calc_cbp#2 0.168 usec cbp=0x38
1736 :     3DNOW - calc_cbp#3 0.157 usec cbp=0x0f
1737 :     3DNOW - calc_cbp#4 0.238 usec cbp=0x05
1738 :     ---
1739 :     3DNOWE - calc_cbp#1 0.049 usec cbp=0x15
1740 :     3DNOWE - calc_cbp#2 0.049 usec cbp=0x38
1741 :     3DNOWE - calc_cbp#3 0.049 usec cbp=0x0f
1742 :     3DNOWE - calc_cbp#4 0.049 usec cbp=0x05
1743 :     ---
1744 : Isibaar 262
1745 : edgomez 1382
1746 :     NB: If a function isn't optimised for a specific set of intructions,
1747 :     a C function is used instead. So don't panic if some functions
1748 :     may appear to be slow.
1749 :    
1750 :     NB: MMX mpeg4 quantization is known to have very small errors (+/-1 magnitude)
1751 :     for 1 or 2 coefficients a block. This is mainly caused by the fact the unit
1752 :     test goes far behind the usual limits of real encoding. Please do not report
1753 :     this error to the developers
1754 :    
1755 :     *********************************************************************/

No admin address has been configured
ViewVC Help
Powered by ViewVC 1.0.4