[svn] / trunk / xvidcore / src / motion / x86_asm / sad_xmm.asm Repository:
ViewVC logotype

Annotation of /trunk/xvidcore/src/motion/x86_asm/sad_xmm.asm

Parent Directory Parent Directory | Revision Log Revision Log


Revision 1877 - (view) (download)

1 : edgomez 1382 ;/****************************************************************************
2 : Isibaar 262 ; *
3 : edgomez 1382 ; * XVID MPEG-4 VIDEO CODEC
4 :     ; * - K7 optimized SAD operators -
5 : Isibaar 262 ; *
6 : edgomez 1382 ; * Copyright(C) 2001 Peter Ross <pross@xvid.org>
7 : Isibaar 1795 ; * 2001-2008 Michael Militzer <michael@xvid.org>
8 : edgomez 1382 ; * 2002 Pascal Massimino <skal@planet-d.net>
9 : Isibaar 262 ; *
10 : edgomez 1382 ; * This program is free software; you can redistribute it and/or modify it
11 :     ; * under the terms of the GNU General Public License as published by
12 :     ; * the Free Software Foundation; either version 2 of the License, or
13 :     ; * (at your option) any later version.
14 : Isibaar 262 ; *
15 : edgomez 1382 ; * This program is distributed in the hope that it will be useful,
16 :     ; * but WITHOUT ANY WARRANTY; without even the implied warranty of
17 :     ; * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
18 :     ; * GNU General Public License for more details.
19 : Isibaar 262 ; *
20 : edgomez 1382 ; * You should have received a copy of the GNU General Public License
21 :     ; * along with this program; if not, write to the Free Software
22 :     ; * Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA 02111-1307 USA
23 : Isibaar 262 ; *
24 : Isibaar 1877 ; * $Id: sad_xmm.asm,v 1.15 2009-09-16 17:07:58 Isibaar Exp $
25 : Isibaar 262 ; *
26 : edgomez 1382 ; ***************************************************************************/
27 : Isibaar 262
28 : Isibaar 1795 %include "nasm.inc"
29 : suxen_drol 329
30 : edgomez 1382 ;=============================================================================
31 :     ; Read only data
32 :     ;=============================================================================
33 : Isibaar 262
34 : Isibaar 1795 DATA
35 : Isibaar 262
36 : Isibaar 1795 ALIGN SECTION_ALIGN
37 : edgomez 1382 mmx_one: times 4 dw 1
38 : Isibaar 262
39 : edgomez 1382 ;=============================================================================
40 :     ; Helper macros
41 :     ;=============================================================================
42 : Isibaar 262
43 : edgomez 1382 %macro SAD_16x16_SSE 0
44 : Isibaar 1795 movq mm0, [_EAX]
45 :     psadbw mm0, [TMP1]
46 :     movq mm1, [_EAX+8]
47 :     add _EAX, TMP0
48 :     psadbw mm1, [TMP1+8]
49 : edgomez 1382 paddusw mm5, mm0
50 : Isibaar 1795 add TMP1, TMP0
51 : edgomez 1382 paddusw mm6, mm1
52 :     %endmacro
53 :    
54 :     %macro SAD_8x8_SSE 0
55 : Isibaar 1795 movq mm0, [_EAX]
56 :     movq mm1, [_EAX+TMP0]
57 :     psadbw mm0, [TMP1]
58 :     psadbw mm1, [TMP1+TMP0]
59 :     add _EAX, _EBX
60 :     add TMP1, _EBX
61 : edgomez 1382 paddusw mm5, mm0
62 :     paddusw mm6, mm1
63 :     %endmacro
64 :    
65 :     %macro SADBI_16x16_SSE 0
66 : Isibaar 1795 movq mm0, [_EAX]
67 :     movq mm1, [_EAX+8]
68 :     movq mm2, [TMP1]
69 :     movq mm3, [TMP1+8]
70 :     pavgb mm2, [_EBX]
71 :     add TMP1, TMP0
72 :     pavgb mm3, [_EBX+8]
73 :     add _EBX, TMP0
74 : edgomez 1382 psadbw mm0, mm2
75 : Isibaar 1795 add _EAX, TMP0
76 : edgomez 1382 psadbw mm1, mm3
77 :     paddusw mm5, mm0
78 :     paddusw mm6, mm1
79 :     %endmacro
80 :    
81 :     %macro SADBI_8x8_XMM 0
82 : Isibaar 1795 movq mm0, [_EAX]
83 :     movq mm1, [_EAX+TMP0]
84 :     movq mm2, [TMP1]
85 :     movq mm3, [TMP1+TMP0]
86 :     pavgb mm2, [_EBX]
87 :     lea TMP1, [TMP1+2*TMP0]
88 :     pavgb mm3, [_EBX+TMP0]
89 :     lea _EBX, [_EBX+2*TMP0]
90 : edgomez 1382 psadbw mm0, mm2
91 : Isibaar 1795 lea _EAX, [_EAX+2*TMP0]
92 : edgomez 1382 psadbw mm1, mm3
93 :     paddusw mm5, mm0
94 :     paddusw mm6, mm1
95 :     %endmacro
96 :    
97 :     %macro MEAN_16x16_SSE 0
98 : Isibaar 1795 movq mm0, [_EAX]
99 :     movq mm1, [_EAX+8]
100 : edgomez 1382 psadbw mm0, mm7
101 :     psadbw mm1, mm7
102 : Isibaar 1795 add _EAX, TMP0
103 : edgomez 1382 paddw mm5, mm0
104 :     paddw mm6, mm1
105 :     %endmacro
106 :    
107 :     %macro ABS_16x16_SSE 0
108 : Isibaar 1795 movq mm0, [_EAX]
109 :     movq mm1, [_EAX+8]
110 : edgomez 1382 psadbw mm0, mm4
111 :     psadbw mm1, mm4
112 : Isibaar 1795 lea _EAX, [_EAX+TMP0]
113 : edgomez 1382 paddw mm5, mm0
114 :     paddw mm6, mm1
115 :     %endmacro
116 :    
117 :     ;=============================================================================
118 :     ; Code
119 :     ;=============================================================================
120 :    
121 : Isibaar 1844 TEXT
122 : edgomez 1382
123 :     cglobal sad16_xmm
124 :     cglobal sad8_xmm
125 :     cglobal sad16bi_xmm
126 :     cglobal sad8bi_xmm
127 :     cglobal dev16_xmm
128 :     cglobal sad16v_xmm
129 :    
130 :     ;-----------------------------------------------------------------------------
131 : Isibaar 262 ;
132 :     ; uint32_t sad16_xmm(const uint8_t * const cur,
133 :     ; const uint8_t * const ref,
134 : suxen_drol 329 ; const uint32_t stride,
135 : Isibaar 262 ; const uint32_t best_sad);
136 : suxen_drol 329 ;
137 : edgomez 1382 ;-----------------------------------------------------------------------------
138 : Isibaar 262
139 : Isibaar 1795 ALIGN SECTION_ALIGN
140 : Isibaar 262 sad16_xmm:
141 :    
142 : Isibaar 1795 mov _EAX, prm1 ; Src1
143 :     mov TMP1, prm2 ; Src2
144 :     mov TMP0, prm3 ; Stride
145 : Isibaar 262
146 : edgomez 1382 pxor mm5, mm5 ; accum1
147 :     pxor mm6, mm6 ; accum2
148 : Isibaar 262
149 : edgomez 1382 SAD_16x16_SSE
150 :     SAD_16x16_SSE
151 :     SAD_16x16_SSE
152 :     SAD_16x16_SSE
153 :     SAD_16x16_SSE
154 :     SAD_16x16_SSE
155 :     SAD_16x16_SSE
156 :     SAD_16x16_SSE
157 : Isibaar 262
158 : edgomez 1382 SAD_16x16_SSE
159 :     SAD_16x16_SSE
160 :     SAD_16x16_SSE
161 :     SAD_16x16_SSE
162 :     SAD_16x16_SSE
163 :     SAD_16x16_SSE
164 :     SAD_16x16_SSE
165 :     SAD_16x16_SSE
166 : Isibaar 262
167 : edgomez 1382 paddusw mm6,mm5
168 :     movd eax, mm6
169 :     ret
170 : Isibaar 1793 ENDFUNC
171 : Isibaar 262
172 :    
173 : edgomez 1382 ;-----------------------------------------------------------------------------
174 : Isibaar 262 ;
175 :     ; uint32_t sad8_xmm(const uint8_t * const cur,
176 :     ; const uint8_t * const ref,
177 :     ; const uint32_t stride);
178 :     ;
179 : edgomez 1382 ;-----------------------------------------------------------------------------
180 : Isibaar 262
181 : Isibaar 1795 ALIGN SECTION_ALIGN
182 : suxen_drol 329 sad8_xmm:
183 :    
184 : Isibaar 1795 mov _EAX, prm1 ; Src1
185 :     mov TMP1, prm2 ; Src2
186 :     mov TMP0, prm3 ; Stride
187 :     push _EBX
188 :     lea _EBX, [TMP0+TMP0]
189 : suxen_drol 329
190 : edgomez 1382 pxor mm5, mm5 ; accum1
191 :     pxor mm6, mm6 ; accum2
192 : suxen_drol 329
193 : edgomez 1382 SAD_8x8_SSE
194 :     SAD_8x8_SSE
195 :     SAD_8x8_SSE
196 : suxen_drol 329
197 : Isibaar 1795 movq mm0, [_EAX]
198 :     movq mm1, [_EAX+TMP0]
199 :     psadbw mm0, [TMP1]
200 :     psadbw mm1, [TMP1+TMP0]
201 : suxen_drol 329
202 : Isibaar 1795 pop _EBX
203 : suxen_drol 329
204 : edgomez 1382 paddusw mm5,mm0
205 :     paddusw mm6,mm1
206 : suxen_drol 329
207 : edgomez 1382 paddusw mm6,mm5
208 :     movd eax, mm6
209 : suxen_drol 329
210 : edgomez 1382 ret
211 : Isibaar 1793 ENDFUNC
212 : suxen_drol 329
213 : edgomez 1382
214 :     ;-----------------------------------------------------------------------------
215 : suxen_drol 329 ;
216 :     ; uint32_t sad16bi_xmm(const uint8_t * const cur,
217 :     ; const uint8_t * const ref1,
218 :     ; const uint8_t * const ref2,
219 :     ; const uint32_t stride);
220 :     ;
221 : edgomez 1382 ;-----------------------------------------------------------------------------
222 : suxen_drol 329
223 : Isibaar 1795 ALIGN SECTION_ALIGN
224 : Isibaar 262 sad16bi_xmm:
225 : Isibaar 1795 mov _EAX, prm1 ; Src
226 :     mov TMP1, prm2 ; Ref1
227 :     mov TMP0, prm4 ; Stride
228 : Isibaar 262
229 : Isibaar 1795 push _EBX
230 :     %ifdef ARCH_IS_X86_64
231 :     mov _EBX, prm3
232 :     %else
233 :     mov _EBX, [_ESP+4+12] ; Ref2
234 :     %endif
235 : edgomez 1382 pxor mm5, mm5 ; accum1
236 :     pxor mm6, mm6 ; accum2
237 : Isibaar 262
238 : edgomez 1382 SADBI_16x16_SSE
239 :     SADBI_16x16_SSE
240 :     SADBI_16x16_SSE
241 :     SADBI_16x16_SSE
242 :     SADBI_16x16_SSE
243 :     SADBI_16x16_SSE
244 :     SADBI_16x16_SSE
245 :     SADBI_16x16_SSE
246 : Isibaar 262
247 : edgomez 1382 SADBI_16x16_SSE
248 :     SADBI_16x16_SSE
249 :     SADBI_16x16_SSE
250 :     SADBI_16x16_SSE
251 :     SADBI_16x16_SSE
252 :     SADBI_16x16_SSE
253 :     SADBI_16x16_SSE
254 :     SADBI_16x16_SSE
255 : Isibaar 262
256 : edgomez 1382 paddusw mm6,mm5
257 :     movd eax, mm6
258 : Isibaar 1795 pop _EBX
259 : edgomez 1382 ret
260 : Isibaar 1793 ENDFUNC
261 : Isibaar 262
262 : edgomez 1382 ;-----------------------------------------------------------------------------
263 :     ;
264 :     ; uint32_t sad8bi_xmm(const uint8_t * const cur,
265 :     ; const uint8_t * const ref1,
266 :     ; const uint8_t * const ref2,
267 :     ; const uint32_t stride);
268 :     ;
269 :     ;-----------------------------------------------------------------------------
270 : Isibaar 262
271 : Isibaar 1795 ALIGN SECTION_ALIGN
272 : edgomez 1382 sad8bi_xmm:
273 : Isibaar 1795 mov _EAX, prm1 ; Src
274 :     mov TMP1, prm2 ; Ref1
275 :     mov TMP0, prm4 ; Stride
276 : Isibaar 262
277 : Isibaar 1795 push _EBX
278 :     %ifdef ARCH_IS_X86_64
279 :     mov _EBX, prm3
280 :     %else
281 :     mov _EBX, [_ESP+4+12] ; Ref2
282 :     %endif
283 :    
284 : edgomez 1382 pxor mm5, mm5 ; accum1
285 :     pxor mm6, mm6 ; accum2
286 : Isibaar 1793 .Loop:
287 : edgomez 1382 SADBI_8x8_XMM
288 :     SADBI_8x8_XMM
289 :     SADBI_8x8_XMM
290 :     SADBI_8x8_XMM
291 : Isibaar 262
292 : edgomez 1382 paddusw mm6,mm5
293 :     movd eax, mm6
294 : Isibaar 1795 pop _EBX
295 : edgomez 1382 ret
296 : Isibaar 1793 ENDFUNC
297 : Isibaar 262
298 :    
299 : edgomez 1382 ;-----------------------------------------------------------------------------
300 : suxen_drol 329 ;
301 :     ; uint32_t dev16_xmm(const uint8_t * const cur,
302 :     ; const uint32_t stride);
303 :     ;
304 : edgomez 1382 ;-----------------------------------------------------------------------------
305 : suxen_drol 329
306 : Isibaar 1795 ALIGN SECTION_ALIGN
307 : Isibaar 262 dev16_xmm:
308 :    
309 : Isibaar 1795 mov _EAX, prm1 ; Src
310 :     mov TMP0, prm2 ; Stride
311 : Isibaar 262
312 : edgomez 1382 pxor mm7, mm7 ; zero
313 :     pxor mm5, mm5 ; mean accums
314 :     pxor mm6, mm6
315 : Isibaar 262
316 : edgomez 1382 MEAN_16x16_SSE
317 :     MEAN_16x16_SSE
318 :     MEAN_16x16_SSE
319 :     MEAN_16x16_SSE
320 :     MEAN_16x16_SSE
321 :     MEAN_16x16_SSE
322 :     MEAN_16x16_SSE
323 :     MEAN_16x16_SSE
324 : Isibaar 262
325 : edgomez 1382 MEAN_16x16_SSE
326 :     MEAN_16x16_SSE
327 :     MEAN_16x16_SSE
328 :     MEAN_16x16_SSE
329 :     MEAN_16x16_SSE
330 :     MEAN_16x16_SSE
331 :     MEAN_16x16_SSE
332 :     MEAN_16x16_SSE
333 : Isibaar 262
334 : edgomez 1382 paddusw mm6, mm5
335 : Isibaar 262
336 : edgomez 1382 movq mm4, mm6
337 :     psllq mm4, 32
338 :     paddd mm4, mm6
339 :     psrld mm4, 8 ; /= (16*16)
340 : Isibaar 262
341 : edgomez 1382 packssdw mm4, mm4
342 :     packuswb mm4, mm4
343 : Isibaar 262
344 : edgomez 1382 ; mm4 contains the mean
345 : Isibaar 262
346 : Isibaar 1795 mov _EAX, prm1 ; Src
347 : edgomez 851
348 : Isibaar 262
349 : edgomez 1382 pxor mm5, mm5 ; sums
350 :     pxor mm6, mm6
351 : Isibaar 262
352 : edgomez 1382 ABS_16x16_SSE
353 :     ABS_16x16_SSE
354 :     ABS_16x16_SSE
355 :     ABS_16x16_SSE
356 :     ABS_16x16_SSE
357 :     ABS_16x16_SSE
358 :     ABS_16x16_SSE
359 :     ABS_16x16_SSE
360 : Isibaar 262
361 : edgomez 1382 ABS_16x16_SSE
362 :     ABS_16x16_SSE
363 :     ABS_16x16_SSE
364 :     ABS_16x16_SSE
365 :     ABS_16x16_SSE
366 :     ABS_16x16_SSE
367 :     ABS_16x16_SSE
368 :     ABS_16x16_SSE
369 : Isibaar 262
370 : edgomez 1382 paddusw mm6, mm5
371 :     movq mm7, mm6
372 :     psllq mm7, 32
373 :     paddd mm6, mm7
374 : edgomez 851
375 : edgomez 1382 movd eax, mm6
376 :     ret
377 : Isibaar 1793 ENDFUNC
378 : edgomez 851
379 : edgomez 1382 ;-----------------------------------------------------------------------------
380 : edgomez 851 ;int sad16v_xmm(const uint8_t * const cur,
381 :     ; const uint8_t * const ref,
382 :     ; const uint32_t stride,
383 :     ; int* sad8);
384 : edgomez 1382 ;-----------------------------------------------------------------------------
385 :    
386 : Isibaar 1795 ALIGN SECTION_ALIGN
387 : edgomez 851 sad16v_xmm:
388 : Isibaar 1795 mov _EAX, prm1 ; Src1
389 :     mov TMP1, prm2 ; Src2
390 :     mov TMP0, prm3 ; Stride
391 : edgomez 851
392 : Isibaar 1795 push _EBX
393 :     %ifdef ARCH_IS_X86_64
394 :     mov _EBX, prm4
395 :     %else
396 :     mov _EBX, [_ESP+4+16] ; sad ptr
397 :     %endif
398 :    
399 : edgomez 1382 pxor mm5, mm5 ; accum1
400 :     pxor mm6, mm6 ; accum2
401 :     pxor mm7, mm7 ; total
402 : edgomez 851
403 : edgomez 1382 SAD_16x16_SSE
404 :     SAD_16x16_SSE
405 :     SAD_16x16_SSE
406 :     SAD_16x16_SSE
407 :     SAD_16x16_SSE
408 :     SAD_16x16_SSE
409 :     SAD_16x16_SSE
410 :     SAD_16x16_SSE
411 : edgomez 851
412 : edgomez 1382 paddusw mm7, mm5
413 :     paddusw mm7, mm6
414 : Isibaar 1795 movd [_EBX], mm5
415 :     movd [_EBX+4], mm6
416 : edgomez 851
417 : edgomez 1382 pxor mm5, mm5 ; accum1
418 :     pxor mm6, mm6 ; accum2
419 : edgomez 851
420 : edgomez 1382 SAD_16x16_SSE
421 :     SAD_16x16_SSE
422 :     SAD_16x16_SSE
423 :     SAD_16x16_SSE
424 :     SAD_16x16_SSE
425 :     SAD_16x16_SSE
426 :     SAD_16x16_SSE
427 :     SAD_16x16_SSE
428 :    
429 :     paddusw mm7, mm5
430 :     paddusw mm7, mm6
431 : Isibaar 1795 movd [_EBX+8], mm5
432 :     movd [_EBX+12], mm6
433 : edgomez 1382
434 :     movd eax, mm7
435 : Isibaar 1795 pop _EBX
436 : edgomez 1382 ret
437 : Isibaar 1793 ENDFUNC
438 : edgomez 1540
439 : Isibaar 1877 NON_EXEC_STACK

No admin address has been configured
ViewVC Help
Powered by ViewVC 1.0.4