Diff of /branches/dev-api-4/xvidcore/src/quant/ia64_asm/quant_h263_ia64.s

-revision 205, Fri Jun 14 08:26:04 2002 UTC
+revision 304, Tue Jul 16 17:50:44 2002 UTC
 Line 1
-         .file   "quant_h263.c"
+ //*******************************************************************************
+ //*                                                                             *
+ //*     functions quant_inter and dequant_inter have been softwarepipelined     *
+ //*     use was made of the pmpyshr2 instruction                                *
+ //*                                                                             *
+ //*     by Christian Engel and Hans-Joachim Daniels                             *
+ //*     christian.engel@ira.uka.de hans-joachim.daniels@ira.uka.de              *
+ //*                                                                             *
+ //*     This was made for the ia64 DivX laboratory (yes, it was really called   *
+ //*     this way, originally OpenDivX was intendet, but died shortly before our *
+ //*     work started (you will probably already know ...))                      *
+ //*     at the Universitat Karlsruhe (TH) held between April and July 2002      *
+ //*     http://www.info.uni-karlsruhe.de/~rubino/ia64p/                         *
+ //*                                                                             *
+ //*******************************************************************************
+         .file   "quant_h263_ia64.s"
          .pred.safe_across_calls p1-p5,p16-p63
                  .section        .rodata
          .align 4
-Line 43
+Line 58
          .global quant_intra_ia64#
          .proc quant_intra_ia64#
  quant_intra_ia64:
-         .prologue //12, 37
+         .prologue
          .save ar.pfs, r38
          alloc r38 = ar.pfs, 4, 3, 2, 0
          adds r16 = -8, r12
-Line 72
+Line 87
          ld4 r16 = [r16]
          ;;
          setf.sig f2 = r16
-         (p6) br.cond.dptk .L4
+         (p6) br.cond.dptk .L8
          extr r39 = r35, 1, 31
          sxt4 r40 = r35
          ;;
          add r39 = r39, r15
-         br .L38
+         br .L21
          ;;
- .L4:
+ .L8:
          extr r39 = r35, 1, 31
          sxt4 r40 = r35
          ;;
          sub r39 = r15, r39
          ;;
- .L38:
+ .L21:
          sxt4 r39 = r39
          br.call.sptk.many b0 = __divdi3#
          ;;
-         addl r16 = 2, r0
+         addl r14 = 62, r0
          st2 [r32] = r8
-         addl r17 = 1, r0
+         addl r19 = 1, r0
-         ;;
-         add r14 = r33, r16
-         ;;
-         ld2 r15 = [r14]
-         ;;
-         sxt2 r15 = r15
-         ;;
-         mov r14 = r15
-         ;;
-         cmp4.le p6, p7 = r0, r14
-         (p6) br.cond.dptk .L21
-         sub r14 = r0, r14
-         ;;
-         sxt2 r14 = r14
-         ;;
-         cmp4.le p6, p7 = r36, r14
-         ;;
-         (p7) add r14 = r32, r16
-         (p6) add r15 = r32, r16
-         (p6) setf.sig f6 = r14
-         ;;
-         (p7) st2 [r14] = r0
-         (p6) xma.l f6 = f6, f2, f0
-         ;;
-         (p6) getf.sig r14 = f6
-         ;;
-         (p6) extr r14 = r14, 16, 16
-         ;;
-         (p6) sub r14 = r0, r14
-         br .L39
-         ;;
- .L21:
-         cmp4.le p6, p7 = r36, r14
-         ;;
-         (p7) add r14 = r32, r16
-         (p6) setf.sig f6 = r15
-         ;;
-         (p7) st2 [r14] = r0
-         (p6) xma.l f6 = f6, f2, f0
-         (p6) add r15 = r32, r16
-         ;;
-         (p6) getf.sig r14 = f6
-         ;;
-         (p6) extr r14 = r14, 16, 16
- .L39:
-         //.pred.rel.mutex p6, p7
-         ;;
-         (p6) st2 [r15] = r14
-         adds r17 = 1, r17
-         ;;
-         cmp4.geu p6, p7 = 63, r17
-         (p7) br.cond.dptk .L16
-         addl r14 = 30, r0
          ;;
          mov ar.lc = r14
          ;;
- .L37:
+ .L20:
-         dep.z r16 = r17, 1, 32
+         dep.z r17 = r19, 1, 32
-         ;;
-         add r14 = r16, r33
-         ;;
-         ld2 r15 = [r14]
-         ;;
-         sxt2 r15 = r15
-         ;;
-         mov r14 = r15
-         ;;
-         cmp4.le p6, p7 = r0, r14
-         (p6) br.cond.dptk .L27
-         sub r14 = r0, r14
-         ;;
-         sxt2 r14 = r14
-         ;;
-         cmp4.le p6, p7 = r36, r14
-         ;;
-         (p7) add r14 = r16, r32
-         (p6) add r15 = r16, r32
-         (p6) setf.sig f6 = r14
-         ;;
-         (p7) st2 [r14] = r0
-         (p6) xma.l f6 = f6, f2, f0
-         ;;
-         (p6) getf.sig r14 = f6
-         ;;
-         (p6) extr r14 = r14, 16, 16
-         ;;
-         (p6) sub r14 = r0, r14
-         br .L40
-         ;;
- .L27:
-         cmp4.le p6, p7 = r36, r14
-         ;;
-         (p7) add r14 = r16, r32
-         (p6) setf.sig f6 = r15
-         ;;
-         (p7) st2 [r14] = r0
-         (p6) xma.l f6 = f6, f2, f0
-         (p6) add r15 = r16, r32
-         ;;
-         (p6) getf.sig r14 = f6
-         ;;
-         (p6) extr r14 = r14, 16, 16
- .L40:
-         //.pred.rel.mutex p6, p7
-         ;;
-         (p6) st2 [r15] = r14
-         adds r14 = 1, r17
-         ;;
-         dep.z r16 = r14, 1, 32
          ;;
-         add r15 = r16, r33
+         add r15 = r17, r33
+         adds r19 = 1, r19
          ;;
          ld2 r14 = [r15]
          ;;
          sxt2 r14 = r14
          ;;
-         mov r15 = r14
+         mov r16 = r14
-         ;;
+         mov r18 = r14
-         cmp4.le p6, p7 = r0, r15
-         (p6) br.cond.dptk .L33
-         sub r14 = r0, r15
-         ;;
-         sxt2 r14 = r14
-         ;;
-         mov r15 = r14
-         ;;
-         cmp4.le p6, p7 = r36, r15
-         ;;
-         (p7) add r14 = r16, r32
-         (p6) setf.sig f6 = r15
          ;;
-         (p7) st2 [r14] = r0
+         sub r15 = r0, r16
-         (p6) xma.l f6 = f6, f2, f0
+         cmp4.le p8, p9 = r36, r16
-         (p6) add r15 = r16, r32
+         cmp4.le p6, p7 = r0, r16
          ;;
-         (p6) getf.sig r14 = f6
+         sxt2 r14 = r15
+         (p6) br.cond.dptk .L14
          ;;
-         (p6) extr r14 = r14, 16, 16
+         mov r16 = r14
+         add r18 = r17, r32
          ;;
-         (p6) sub r14 = r0, r14
+         setf.sig f6 = r16
-         br .L41
+         cmp4.le p6, p7 = r36, r16
- .L33:
+         mov r15 = r18
-         cmp4.le p6, p7 = r36, r15
          ;;
-         (p7) add r14 = r16, r32
+         xma.l f6 = f6, f2, f0
-         (p6) add r15 = r16, r32
+         (p7) st2 [r18] = r0
-         (p6) setf.sig f6 = r14
          ;;
-         (p7) st2 [r14] = r0
+         getf.sig r14 = f6
-         (p6) xma.l f6 = f6, f2, f0
          ;;
-         (p6) getf.sig r14 = f6
+         extr r14 = r14, 16, 16
          ;;
-         (p6) extr r14 = r14, 16, 16
+         sub r14 = r0, r14
- .L41:
-         //.pred.rel.mutex p6, p7
          ;;
          (p6) st2 [r15] = r14
-         adds r17 = 2, r17
+         br .L12
-         br.cloop.sptk.few .L37
+ .L14:
- .L16:
+         .pred.rel "mutex", p8, p9
+         setf.sig f6 = r18
+         add r16 = r17, r32
+         ;;
+         xma.l f6 = f6, f2, f0
+         mov r15 = r16
+         (p9) st2 [r16] = r0
+         ;;
+         getf.sig r14 = f6
+         ;;
+         extr r14 = r14, 16, 16
+         ;;
+         (p8) st2 [r15] = r14
+ .L12:
+         br.cloop.sptk.few .L20
          adds r18 = 24, r12
          ;;
          ld8 r19 = [r18], 8
-Line 265
+Line 176
          adds r12 = 32, r12
          br.ret.sptk.many b0
          .endp quant_intra_ia64#
-         .align 16
-         .global quant_inter_ia64#
-         .proc quant_inter_ia64#
- quant_inter_ia64:
-         .prologue
-         addl r14 = @ltoff(multipliers#), gp
-         dep.z r15 = r34, 2, 32
-         .save ar.lc, r2
-         mov r2 = ar.lc
-         ;;
-         .body
-         ld8 r14 = [r14]
-         extr.u r16 = r34, 1, 16
-         dep.z r17 = r34, 1, 15
-         ;;
-         add r15 = r15, r14
-         mov r18 = r16
-         mov r8 = r0
-         ;;
-         ld4 r15 = [r15]
-         addl r14 = 31, r0
-         mov r19 = r0
-         ;;
-         setf.sig f6 = r15
-         mov ar.lc = r14
-         ;;
- .L65:
-         dep.z r16 = r19, 1, 32
-         ;;
-         add r14 = r16, r33
-         ;;
-         ld2 r15 = [r14]
-         ;;
-         sxt2 r15 = r15
-         ;;
-         mov r14 = r15
-         ;;
-         cmp4.le p6, p7 = r0, r14
-         (p6) br.cond.dptk .L55
-         sub r14 = r0, r14
-         ;;
-         sub r14 = r14, r18
-         ;;
-         sxt2 r14 = r14
-         ;;
-         cmp4.le p6, p7 = r17, r14
-         ;;
-         (p7) add r14 = r16, r32
-         (p6) setf.sig f7 = r14
-         ;;
-         (p7) st2 [r14] = r0
-         (p6) add r16 = r16, r32
-         (p6) xma.l f7 = f7, f6, f0
-         ;;
-         (p6) getf.sig r14 = f7
-         ;;
-         (p6) extr r14 = r14, 16, 16
-         ;;
-         (p6) sub r15 = r0, r14
-         (p6) add r8 = r8, r14
-         ;;
-         (p6) st2 [r16] = r15
-         br .L53
- .L55:
-         sub r14 = r14, r18
-         ;;
-         sxt2 r14 = r14
-         ;;
-         cmp4.le p6, p7 = r17, r14
-         ;;
-         (p7) add r14 = r16, r32
-         (p6) add r15 = r16, r32
-         (p6) setf.sig f7 = r14
-         ;;
-         (p7) st2 [r14] = r0
-         (p6) xma.l f7 = f7, f6, f0
-         ;;
-         (p6) getf.sig r14 = f7
-         ;;
-         (p6) extr r14 = r14, 16, 16
-         ;;
-         (p6) st2 [r15] = r14
-         (p6) add r8 = r8, r14
- .L53:
-         adds r14 = 1, r19
-         ;;
-         dep.z r16 = r14, 1, 32
-         ;;
-         add r15 = r16, r33
-         ;;
-         ld2 r14 = [r15]
-         ;;
-         sxt2 r14 = r14
-         ;;
-         cmp4.le p6, p7 = r0, r14
-         (p6) br.cond.dptk .L61
-         sub r14 = r0, r14
-         ;;
-         sub r14 = r14, r18
-         ;;
-         sxt2 r14 = r14
-         ;;
-         cmp4.le p6, p7 = r17, r14
-         ;;
-         (p7) add r14 = r16, r32
-         (p6) setf.sig f7 = r14
-         ;;
-         (p7) st2 [r14] = r0
-         (p6) add r16 = r16, r32
-         (p6) xma.l f7 = f7, f6, f0
-         ;;
-         (p6) getf.sig r14 = f7
-         ;;
-         (p6) extr r14 = r14, 16, 16
-         ;;
-         (p6) sub r15 = r0, r14
-         (p6) add r8 = r8, r14
-         ;;
-         (p6) st2 [r16] = r15
-         br .L59
- .L61:
-         sub r14 = r14, r18
-         ;;
-         sxt2 r14 = r14
-         ;;
-         cmp4.le p6, p7 = r17, r14
-         ;;
-         (p7) add r14 = r16, r32
-         (p6) add r15 = r16, r32
-         (p6) setf.sig f7 = r14
-         ;;
-         (p7) st2 [r14] = r0
-         (p6) xma.l f7 = f7, f6, f0
-         ;;
-         (p6) getf.sig r14 = f7
-         ;;
-         (p6) extr r14 = r14, 16, 16
-         ;;
-         (p6) st2 [r15] = r14
-         (p6) add r8 = r8, r14
- .L59:
-         adds r19 = 2, r19
-         br.cloop.sptk.few .L65
-         ;;
-         mov ar.lc = r2
-         br.ret.sptk.many b0
-         .endp quant_inter_ia64#
          .common quant_intra#,8,8
          .common dequant_intra#,8,8
          .align 16
-Line 445
+Line 209
          cmp4.le p6, p7 = r16, r15
          ;;
          (p7) st2 [r32] = r16
-         (p7) br.cond.dptk .L68
+         (p7) br.cond.dptk .L32
          addl r14 = 2047, r0
          ;;
          cmp4.ge p6, p7 = r14, r15
          ;;
          (p7) st2 [r32] = r14
- .L68:
+ .L32:
-         addl r14 = 20, r0
+         addl r14 = 62, r0
          addl r19 = 1, r0
-         addl r21 = 2048, r0
+         addl r22 = 2048, r0
-         addl r20 = -2048, r0
+         addl r21 = -2048, r0
-         addl r18 = 2047, r0
+         addl r20 = 2047, r0
          ;;
          mov ar.lc = r14
          ;;
- .L110:
+ .L56:
          dep.z r16 = r19, 1, 32
          ;;
          add r14 = r16, r33
+         add r17 = r16, r32
+         adds r19 = 1, r19
          ;;
          ld2 r15 = [r14]
          ;;
          sxt2 r15 = r15
          ;;
          cmp4.ne p6, p7 = 0, r15
+         cmp4.le p8, p9 = r0, r15
          ;;
-         (p7) add r14 = r16, r32
+         (p7) st2 [r17] = r0
-         ;;
+         (p7) br.cond.dpnt .L36
-         (p7) st2 [r14] = r0
+         add r18 = r16, r32
-         (p7) br.cond.dpnt .L92
+         sub r17 = r0, r15
-         cmp4.le p6, p7 = r0, r15
+         ;;
-         (p6) br.cond.dptk .L95
+         mov r14 = r18
-         sub r14 = r0, r15
+         (p8) br.cond.dptk .L40
-         add r17 = r16, r32
+         setf.sig f8 = r17
-         ;;
-         setf.sig f8 = r14
          ;;
          xma.l f8 = f6, f8, f7
          ;;
          getf.sig r15 = f8
          ;;
-         cmp4.lt p6, p7 = r21, r15
+         cmp4.lt p6, p7 = r22, r15
-         ;;
+         sub r16 = r0, r15
-         (p7) sub r14 = r0, r15
          ;;
-         (p7) st2 [r17] = r14
+         (p7) st2 [r14] = r16
-         (p6) st2 [r17] = r20
+         (p6) st2 [r14] = r21
-         br .L92
+         br .L36
- .L95:
+ .L40:
          setf.sig f8 = r15
-         add r14 = r16, r32
          ;;
          xma.l f8 = f6, f8, f7
          ;;
          getf.sig r15 = f8
          ;;
-         cmp4.le p6, p7 = r18, r15
+         cmp4.le p6, p7 = r20, r15
-         ;;
-         (p6) mov r15 = r18
-         ;;
-         st2 [r14] = r15
- .L92:
-         adds r14 = 1, r19
-         ;;
-         dep.z r17 = r14, 1, 32
-         ;;
-         add r15 = r17, r33
-         ;;
-         ld2 r14 = [r15]
-         ;;
-         sxt2 r14 = r14
-         ;;
-         mov r16 = r14
-         ;;
-         cmp4.ne p6, p7 = 0, r16
-         ;;
-         (p7) add r14 = r17, r32
-         ;;
-         (p7) st2 [r14] = r0
-         (p7) br.cond.dpnt .L98
-         cmp4.le p6, p7 = r0, r16
-         (p6) br.cond.dptk .L101
-         sub r14 = r0, r16
-         add r17 = r17, r32
-         ;;
-         setf.sig f8 = r14
-         ;;
-         xma.l f8 = f6, f8, f7
-         ;;
-         getf.sig r16 = f8
-         ;;
-         cmp4.lt p6, p7 = r21, r16
          ;;
-         (p7) sub r14 = r0, r16
+         (p6) mov r14 = r20
+         (p7) mov r14 = r15
          ;;
-         (p7) st2 [r17] = r14
+         st2 [r18] = r14
-         (p6) st2 [r17] = r20
+ .L36:
-         br .L98
+         br.cloop.sptk.few .L56
- .L101:
-         setf.sig f8 = r16
-         add r14 = r17, r32
          ;;
-         xma.l f8 = f6, f8, f7
+         mov ar.lc = r2
-         ;;
+         br.ret.sptk.many b0
-         getf.sig r16 = f8
+         .endp dequant_intra_ia64#
-         ;;
-         cmp4.le p6, p7 = r18, r16
-         ;;
-         (p6) mov r15 = r18
+ //uint32_t quant_inter_ia64(int16_t *coeff, const int16_t *data, const uint32_t quant)
-         (p7) mov r15 = r16
-         ;;
-         st2 [r14] = r15
- .L98:
+         .common quant_inter#,8,8
-         adds r14 = 2, r19
+         .align 16
-         ;;
+         .global quant_inter_ia64#
-         dep.z r17 = r14, 1, 32
+         .proc quant_inter_ia64#
-         ;;
+ quant_inter_ia64:
-         add r15 = r17, r33
-         ;;
-         ld2 r14 = [r15]
+ //*******************************************************
-         ;;
+ //*                                                     *
-         sxt2 r14 = r14
+ //*     const uint32_t mult = multipliers[quant];       *
-         ;;
+ //*     const uint16_t quant_m_2 = quant << 1;          *
-         mov r16 = r14
+ //*     const uint16_t quant_d_2 = quant >> 1;          *
-         ;;
+ //*     int sum = 0;                                    *
-         cmp4.ne p6, p7 = 0, r16
+ //*     uint32_t i;                                     *
-         ;;
+ //*     int16_t acLevel,acL;                            *
-         (p7) add r14 = r17, r32
+ //*                                                     *
-         ;;
+ //*******************************************************/
-         (p7) st2 [r14] = r0
-         (p7) br.cond.dpnt .L104
-         cmp4.le p6, p7 = r0, r16
-         (p6) br.cond.dptk .L107
+         LL=3            // LL = load latency
-         sub r14 = r0, r16
+                         //if LL is changed, you'll also have to change the .pred.rel... parts below!
-         add r17 = r17, r32
+         .prologue
-         ;;
+         addl r14 = @ltoff(multipliers#), gp
-         setf.sig f8 = r14
+         dep.z r15 = r34, 2, 32
-         ;;
+         .save ar.lc, r2
-         xma.l f8 = f6, f8, f7
+         mov r2 = ar.lc
-         ;;
-         getf.sig r16 = f8
-         ;;
-         cmp4.lt p6, p7 = r21, r16
-         ;;
-         (p7) sub r14 = r0, r16
          ;;
-         (p7) st2 [r17] = r14
+         .body
-         (p6) st2 [r17] = r20
+         alloc r9=ar.pfs,0,24,0,24
-         br .L104
+         mov r17 = ar.ec
- .L107:
+         mov r10 = pr
-         setf.sig f8 = r16
+         ld8 r14 = [r14]
-         add r14 = r17, r32
+         extr.u r16 = r34, 1, 16         //r16 = quant_d_2
+         dep.z r20 = r34, 1, 15          //r20 = quant_m_2
          ;;
-         xma.l f8 = f6, f8, f7
+         add r15 = r15, r14
+         mov r21 = r16                   //r21 = quant_d_2
+         mov r8 = r0                     //r8  = sum = 0
+         mov pr.rot    = 0               //p16-p63 = 0
          ;;
-         getf.sig r16 = f8
+         ld4 r15 = [r15]
+         addl r14 = 63, r0
+         mov pr.rot = 1 << 16            //p16=1
          ;;
-         cmp4.le p6, p7 = r18, r16
+         mov ar.lc = r14
+         mov ar.ec = LL+9
+         mov r29 = r15
          ;;
-         (p6) mov r15 = r18
+         mov r15 = r33                   //r15 = data
-         (p7) mov r15 = r16
+         mov r18 = r32                   //r18 = coeff
          ;;
-         st2 [r14] = r15
- .L104:
-         adds r19 = 3, r19
+         .rotr ac1[LL+3], ac2[8], ac3[2]
-         br.cloop.sptk.few .L110
+         .rotp p[LL+9], cmp1[8], cmp1neg[8],cmp2[5], cmp2neg[2]
+ //*******************************************************************************
+ //*                                                                             *
+ //*     for (i = 0; i < 64; i++) {                                              *
+ //*             acL=acLevel = data[i];                                          *
+ //*             acLevel = ((acLevel < 0)?-acLevel:acLevel) - quant_d_2;         *
+ //*             if (acLevel < quant_m_2){                                       *
+ //*                     acLevel = 0;                                            *
+ //*             }                                                               *
+ //*             acLevel = (acLevel * mult) >> SCALEBITS;                        *
+ //*             sum += acLevel;                                                 *
+ //*             coeff[i] = ((acL < 0)?-acLevel:acLevel);                        *
+ //*     }                                                                       *
+ //*                                                                             *
+ //*******************************************************************************/
+ .explicit
+ .L58:
+         .pred.rel "clear", p29, p37
+         .pred.rel "mutex", p29, p37
+                                                                         //pipeline stage
+ {.mmi
+         (p[0])          ld2 ac1[0]   = [r15],2                          //   0          acL=acLevel = data[i];
+         (p[LL+1])       sub ac2[0]   = r0, ac1[LL+1]                    //   LL+1       ac2=-acLevel
+         (p[LL])         sxt2 ac1[LL] = ac1[LL]                          //   LL
+ }
+ {.mmi
+         (p[LL+1])       cmp4.le cmp1[0], cmp1neg[0] = r0, ac1[LL+1]     //   LL+1       cmp1 = (0<=acLevel)  ;   cmp1neg = !(0<=acLevel)
+         (p[LL+4])       cmp4.le cmp2[0], cmp2neg[0] = r20, ac2[3]       //   LL+4       cmp2 = (quant_m_2 < acLevel)  ; cmp2neg = !(quant_m_2 < acLevel)
+         (cmp1[1])       sub ac2[1]   = ac1[LL+2], r21                   //   LL+2       acLevel = acLevel - quant_d_2;
+ }
+ {.mmi
+         (cmp2neg[1])    mov ac2[4] = r0                                 //   LL+5       if (acLevel < quant_m_2) acLevel=0;
+         (cmp1neg[1])    sub ac2[1]   = ac2[1], r21                      //   LL+2       acLevel = ac2 - quant_d_2;
+         (p[LL+3])       sxt2 ac2[2]   = ac2[2]                          //   LL+3
+ }
+ {.mmi
+         .pred.rel "mutex", p34, p42
+         (cmp1[6])       mov ac3[0] = ac2[6]                             //   LL+7       ac3 = acLevel;
+         (cmp1neg[6])    sub ac3[0] = r0, ac2[6]                         //   LL+7       ac3 = -acLevel;
+         (p[LL+6])       pmpyshr2.u ac2[5] = r29, ac2[5], 16             //   LL+6       acLevel = (acLevel * mult) >> SCALEBITS;
+ }
+ {.mib
+         (p[LL+8])       st2 [r18] = ac3[1] , 2                          //   LL+8       coeff[i] = ac3;
+         (cmp2[4])       add r8 = r8, ac2[7]                             //   LL+8       sum += acLevel;
+         br.ctop.sptk.few .L58
+         ;;
+ }
+         .pred.rel "clear", p29, p37
+ .default
+         mov ar.ec = r17
          ;;
          mov ar.lc = r2
+         mov pr = r10, -1
+         mov ar.pfs = r9
          br.ret.sptk.many b0
-         .endp dequant_intra_ia64#
+         .endp quant_inter_ia64#
-         .common quant_inter#,8,8
+ // void dequant_inter_ia64(int16_t *data, const int16_t *coeff, const uint32_t quant)
          .common dequant_inter#,8,8
          .align 16
          .global dequant_inter_ia64#
          .proc dequant_inter_ia64#
  dequant_inter_ia64:
+ //***********************************************************************
+ //*                                                                     *
+ //*     const uint16_t quant_m_2 = quant << 1;                          *
+ //*     const uint16_t quant_add = (quant & 1 ? quant : quant - 1);     *
+ //*     uint32_t i;                                                     *
+ //*                                                                     *
+ //***********************************************************************
          .prologue
          andcm r14 = 1, r34
-         dep.z r15 = r34, 1, 15
+         dep.z r29 = r34, 1, 15
+         alloc r9=ar.pfs,0,32,0,32
          .save ar.lc, r2
          mov r2 = ar.lc
          ;;
          .body
-         sub r34 = r34, r14
+         sub r15 = r34, r14              // r15 = quant
-         setf.sig f6 = r15
+         addl r14 = 63, r0
-         mov r19 = r0
+         addl r21 = -2048, r0
-         addl r14 = 31, r0
+         addl r20 = 2047, r0
-         addl r18 = -2048, r0
+         mov r16 = ar.ec
-         addl r17 = 2047, r0
+         mov r17 = pr
          ;;
-         zxt2 r34 = r34
+         zxt2 r15 = r15
          mov ar.lc = r14
+         mov pr.rot = 0
          ;;
- .L122:
+         adds r14 = 0, r33               // r14 = coeff
-         dep.z r16 = r19, 1, 32
+         mov r18 = r32                   // r18 = data
-         ;;
+         mov ar.ec = LL+10
-         add r14 = r16, r33
+         mov pr.rot = 1 << 16
          ;;
-         ld2 r15 = [r14]
-         ;;
+ //*******************************************************************************
-         sxt2 r15 = r15
+ //*                                                                             *
-         ;;
+ //*for (i = 0; i < 64; i++) {                                                   *
-         mov r14 = r15
+ //*             int16_t acLevel = coeff[i];                                     *
-         ;;
+ //*                                                                             *
-         cmp4.ne p6, p7 = 0, r14
+ //*             if (acLevel == 0)                                               *
-         ;;
+ //*             {                                                               *
-         (p7) add r14 = r16, r32
+ //*                     data[i] = 0;                                            *
-         ;;
+ //*             }                                                               *
-         (p7) st2 [r14] = r0
+ //*             else if (acLevel < 0)                                           *
-         (p7) br.cond.dpnt .L112
+ //*             {                                                               *
-         cmp4.le p6, p7 = r0, r14
+ //*                     acLevel = acLevel * quant_m_2 - quant_add;              *
-         (p6) br.cond.dptk .L115
+ //*                     data[i] = (acLevel >= -2048 ? acLevel : -2048);         *
-         setf.sig f7 = r14
+ //*             }                                                               *
-         add r15 = r16, r32
+ //*             else // if (acLevel > 0)                                        *
-         ;;
+ //*             {                                                               *
-         xma.l f7 = f7, f6, f0
+ //*                     acLevel = acLevel * quant_m_2 + quant_add;              *
-         ;;
+ //*                     data[i] = (acLevel <= 2047 ? acLevel : 2047);           *
-         getf.sig r14 = f7
+ //*             }                                                               *
-         ;;
+ //*     }                                                                       *
-         sub r14 = r14, r34
+ //*                                                                             *
-         ;;
+ //*******************************************************************************/
-         sxt2 r14 = r14
-         ;;
-         cmp4.le p6, p7 = r18, r14
-         ;;
+         LL=2    // LL := load latency
-         (p7) mov r14 = r18
+                 //if LL is changed, you'll also have to change the .pred.rel... parts below!
-         br .L123
- .L115:
-         setf.sig f8 = r15
+         .rotr ac1[LL+10], x[5], y1[3], y2[3]
-         setf.sig f7 = r34
+         .rotp p[LL+10] , cmp1neg[8], cmp2[5], cmp2neg[5],cmp3[2], cmp3neg[2]
-         ;;
-         xma.l f8 = f8, f6, f7
+ .explicit
-         add r15 = r16, r32
+                                                                 //pipeline stage
-         ;;
-         getf.sig r14 = f8
+ .L60:
-         ;;
+         .pred.rel "clear", p36
-         sxt2 r14 = r14
+         .pred.rel "mutex", p47, p49
-         ;;
+         .pred.rel "mutex", p46, p48
-         cmp4.le p6, p7 = r17, r14
+         .pred.rel "mutex", p40, p45
-         ;;
+         .pred.rel "mutex", p39, p44
-         (p6) mov r14 = r17
+         .pred.rel "mutex", p38, p43
-         ;;
+         .pred.rel "mutex", p37, p42
- .L123:
+         .pred.rel "mutex", p36, p41
-         st2 [r15] = r14
+ {.mmi
- .L112:
+         (p[0])ld2 ac1[0] = [r14] ,2                             //      0       acLevel = coeff[i];
-         adds r14 = 1, r19
+         (p[LL+1])cmp4.ne p6, cmp1neg[0] = 0, ac1[LL+1]          //      LL+1
-         ;;
+         (p[LL])sxt2 ac1[LL] = ac1[LL]                           //      LL
-         dep.z r16 = r14, 1, 32
-         ;;
+ }
-         add r15 = r16, r33
+ {.mmi
-         ;;
+         (p[LL+1])cmp4.le cmp2[0], cmp2neg[0] = r0, ac1[LL+1]    //      LL+1
-         ld2 r14 = [r15]
+         (cmp2[1]) mov x[0] = r20                                //      LL+2
-         ;;
+         (p[LL+2])pmpyshr2.u ac1[LL+2] = r29, ac1[LL+2], 0       //      LL+2
-         sxt2 r14 = r14
+ }
-         ;;
+ {.mmi
-         mov r15 = r14
+         (cmp2neg[1]) mov x[0] = r21                             //      LL+2
-         ;;
+         (cmp2[2]) add ac1[LL+3] = ac1[LL+3], r15                //      LL+3
-         cmp4.ne p6, p7 = 0, r15
+         (cmp2neg[2]) sub ac1[LL+3] = ac1[LL+3], r15             //      LL+3
-         ;;
-         (p7) add r14 = r16, r32
+ }
-         ;;
+ {.mmi
-         (p7) st2 [r14] = r0
+         (cmp2neg[4]) mov y1[0] = ac1[LL+5]                      //      LL+5
-         (p7) br.cond.dpnt .L117
+         (cmp2neg[4]) mov y2[0] = x[3]                           //      LL+5
-         cmp4.le p6, p7 = r0, r15
+         (p[LL+4])sxt2 ac1[LL+4] = ac1[LL+4]                     //      LL+4
-         (p6) br.cond.dptk .L120
+ }
-         setf.sig f8 = r15
+ {.mmi
-         ;;
+         (cmp2[4]) mov y1[0] = x[3]                              //      LL+5
-         xma.l f8 = f8, f6, f0
+         (cmp2[4]) mov y2[0] = ac1[LL+5]                         //      LL+5
-         add r15 = r16, r32
+         (p[LL+6])cmp4.le cmp3[0], cmp3neg[0] = x[4], ac1[LL+6]  //      LL+6
-         ;;
+ }
-         getf.sig r14 = f8
+ {.mmi
-         ;;
+         (cmp3[1]) mov ac1[LL+7] = y1[2]                         //      LL+7
-         sub r14 = r14, r34
+         (cmp3neg[1]) mov ac1[LL+7] = y2[2]                      //      LL+7
-         ;;
+         (cmp1neg[7])  mov ac1[LL+8] = r0                        //      LL+8
-         sxt2 r14 = r14
+ }
-         ;;
+ {.mbb
-         cmp4.le p6, p7 = r18, r14
+         (p[LL+9])st2 [r18] = ac1[LL+9] ,2                       //      LL+9
-         ;;
+         nop.b 0x0
-         (p7) mov r14 = r18
+         br.ctop.sptk.few .L60
-         br .L124
+         ;;
-         ;;
+ }
- .L120:
+         .pred.rel "clear", p36
-         setf.sig f7 = r14
+ .default
-         setf.sig f8 = r34
+         mov ar.lc = r2
-         add r15 = r16, r32
+         mov ar.pfs = r9
-         ;;
+         mov ar.ec  = r16
-         xma.l f7 = f7, f6, f8
+         mov pr = r17, -1
-         ;;
-         getf.sig r14 = f7
-         ;;
-         sxt2 r14 = r14
-         ;;
-         cmp4.le p6, p7 = r17, r14
-         ;;
-         (p6) mov r14 = r17
-         ;;
- .L124:
-         st2 [r15] = r14
- .L117:
-         adds r19 = 2, r19
-         br.cloop.sptk.few .L122
          ;;
          mov ar.lc = r2
          br.ret.sptk.many b0

 Legend:



Removed from v.205
 


changed lines


 
Added in v.304
 Legend:



Removed from v.205
 


changed lines


 
Added in v.304
-Removed from v.205
+Added in v.304

No admin address has been configured	ViewVC Help
Powered by ViewVC 1.0.4