Diff of /trunk/xvidcore/src/motion/ia64_asm/sad_ia64.s

-revision 205, Fri Jun 14 08:26:04 2002 UTC
+revision 250, Sat Jun 29 12:38:20 2002 UTC
 Line 1
+ //   ------------------------------------------------------------------------------
+ //   *
+ //   * Optimized Assembler Versions of sad8 and sad16
+ //   *
+ //   ------------------------------------------------------------------------------
+ //   *
+ //   * Hannes Jütting and Christopher Özbek
+ //   * {s_juetti,s_oezbek}@ira.uka.de
+ //   *
+ //   * Programmed for the IA64 laboratory held at University Karlsruhe 2002
+ //   * http://www.info.uni-karlsruhe.de/~rubino/ia64p/
+ //   *
+ //   ------------------------------------------------------------------------------
+ //   *
+ //   * These are the optimized assembler versions of sad8 and sad16, which calculate
+ //   * the sum of absolute differences between two 8x8/16x16 block matrices.
+ //   *
+ //   * Our approach uses:
+ //   *   - The Itanium command psad1, which solves the problem in hardware.
+ //   *   - Modulo-Scheduled Loops as the best way to loop unrolling on the IA64
+ //   *     EPIC architecture
+ //   *   - Alignment resolving to avoid memory faults
+ //   *
+ //   ------------------------------------------------------------------------------
  .text
+ //   ------------------------------------------------------------------------------
+ //   * SAD16_IA64
+ //   *
+ //   *  In:
+ //   *    r32 = cur     (aligned)
+ //   *    r33 = ref     (not aligned)
+ //   *    r34 = stride
+ //   *    r35 = bestsad
+ //   *  Out:
+ //   *    r8 = sum of absolute differences
+ //   *
+ //   ------------------------------------------------------------------------------
          .align 16
          .global sad16_ia64#
          .proc sad16_ia64#
  sad16_ia64:
- _LL=3
- _SL=1
- _OL=1
- _PL=1
- _AL=1
-         alloc r9=ar.pfs,4,44,0,48
+         // Define Latencies
+         LL16=3 // load  latency
+         SL16=1 // shift latency
+         OL16=1 // or    latency
+         PL16=1 // psad  latency
+         AL16=1 // add   latency
-         mov r8 = r0
+         // Allocate Registern in RSE
+         alloc r9=ar.pfs,4,36,0,40
-         mov r20 = ar.lc
+         // lfetch [r32]                 // might help
-         mov r21 = pr
-         dep.z r22               = r32, 3, 3 // erste 3 Bit mit 8 multiplizieren
+         mov r8 = r0                     // clear the return reg
-         dep.z r23               = r33, 3, 3 // in r22 und r23 -> Schiebeflags
-         and r14         = -8, r32 // Parameter in untere Register kopieren
+         // Save LC and predicates
-         and r15         = -8, r33 // Ref Cur mit 11111...1000 and-en
+         mov r20 = ar.lc
-         mov r16         = r34
+         mov r21 = pr
-         mov r17         = r35
-         ;;
-         add r18         = 8, r14  // Adressenvorausberechnen
-         add r19         = 8, r15
-         sub r24         = 64, r22 // Schiftanzahl ausrechnen
+         dep.z r23       = r33, 3, 3     // get the # of bits ref is misaligned
-         sub r25         = 64, r23
+         and r15         = -8, r33       // align the ref pointer by deleting the last 3 bit
-         add r26         = 16, r14 // Adressenvorausberechnen
+         mov r14         = r32           // save the cur pointer
-         add r27         = 16, r15
+         mov r16         = r34           // save stride
+         mov r17         = r35           // save bestsad
-         // Loop-counter initialisieren
+         ;;
-         mov ar.lc = 15                  // Loop 16 mal durchlaufen
+         add r18         = 8, r14        // precalc second cur pointer
-         mov ar.ec = _LL + _SL + _OL + _PL + _AL + _AL                   // Die Loop am Schluss noch neun mal durchlaufen
+         add r19         = 8, r15        // precalc second ref pointer
+         add r27         = 16, r15       // precalc third  ref pointer
+         sub r25         = 64, r23       // # of right shifts
-         // Rotating Predicate Register zuruecksetzen und P16 auf 1
+         // Initialize Loop-counters
-         mov pr.rot = 1 << 16
+         mov ar.lc = 15                  // loop 16 times
+         mov ar.ec = LL16 + SL16 + OL16 + PL16 + AL16 + AL16
+         mov pr.rot = 1 << 16            // reseting rotating predicate regs and set p16 to 1
          ;;
-         // Array-Konstrukte initialisieren
+         // Intialize Arrays for Register Rotation
-         .rotr _ald1[_LL+1], _ald2[_LL+1], _ald3[_LL+1], _ald4[_LL+1], _ald5[_LL+1], _ald6[_LL+1], _shru1[_SL+1], _shl1[_SL+1], _shru2[_SL], _shl2[_SL], _shru3[_SL], _shl3[_SL], _shru4[_SL], _shl4[_SL+1], _or1[_OL], _or2[_OL], _or3[_OL], _or4[_OL+1], _psadr1[_PL+1], _psadr2[_PL+1], _addr1[_AL+1]
+         .rotr r_cur_ld1[LL16+SL16+OL16+1], r_cur_ld2[LL16+SL16+OL16+1], r_ref_16_ld1[LL16+1], r_ref_16_ld2[LL16+1], r_ref_16_ld3[LL16+1], r_ref_16_shru1[SL16], r_ref_16_shl1[SL16], r_ref_16_shru2[SL16], r_ref_16_shl2[SL16+1], r_ref_16_or1[OL16], r_ref_16_or2[OL16+1], r_psad1[PL16+1], r_psad2[PL16+1], r_add_16[AL16+1]
-         .rotp _aldp[_LL], _shp[_SL], _orp[_OL], _psadrp[_PL], _addrp1[_AL], _addrp2[_AL]
+         .rotp p_ld_16[LL16], p_sh_16[SL16], p_or_16[OL16], p_psad_16[PL16], p_add1_16[AL16], p_add2_16[AL16]
- .L_loop_16:
+ .L_loop16:
          {.mmi
-                 (_aldp[0]) ld8 _ald1[0] = [r14], r16    // Cur Erste 8 Byte
+                 (p_ld_16[0]) ld8 r_cur_ld1[0] = [r14], r16                              // Cur load first 8 Byte
-                 (_aldp[0]) ld8 _ald2[0] = [r18], r16    // Cur Zweite 8 Byte
+                 (p_ld_16[0]) ld8 r_cur_ld2[0] = [r18], r16                              // Cur load next 8 Byte
-                 (_psadrp[0]) psad1 _psadr1[0] = _or2[0], _or4[0] // Psadden
+                 (p_psad_16[0]) psad1 r_psad1[0] = r_cur_ld1[LL16+SL16+OL16], r_ref_16_or2[0]    // psad of cur and ref
          }
          {.mmi
-                 (_aldp[0]) ld8 _ald3[0] = [r26], r16    // Cur Dritte 8 Byte
+                 (p_ld_16[0]) ld8 r_ref_16_ld1[0] = [r15], r16                           // Ref load first 8 Byte (unaligned)
-                 (_aldp[0]) ld8 _ald4[0] = [r15], r16    // Ref Erste 8 Byte
+                 (p_ld_16[0]) ld8 r_ref_16_ld2[0] = [r19], r16                           // Ref load next 8 Byte (unaligned)
-                 (_psadrp[0]) psad1 _psadr2[0] = _or3[0], _or4[_OL]  // _or2 +1
+                 (p_psad_16[0]) psad1 r_psad2[0] = r_cur_ld2[LL16+SL16+OL16], r_ref_16_or2[OL16] // psad of cur_2 and ref_2
-         }
-         {.mmi
-                 (_aldp[0]) ld8 _ald5[0] = [r19], r16    // Ref Zweite 8 Byte
-                 (_aldp[0]) ld8 _ald6[0] = [r27], r16    // Ref Dritte 8 Byte
-                 (_shp[0]) shr.u _shru1[0] = _ald1[_LL], r22
-         }
-         {.mii
-                 (_orp[0]) or _or1[0]     = _shl2[0], _shru3[0] // _shru2 + 1 und _shl2 + 1
-                 (_shp[0]) shl _shl1[0]   = _ald2[_LL], r24
-                 (_shp[0]) shr.u _shru2[0] = _ald2[_LL], r22
          }
          {.mii
-                 (_orp[0]) or _or2[0]  = _shl3[0], _shru4[0]  // _shru3 + 1 und _shl3 + 1
+                 (p_ld_16[0]) ld8 r_ref_16_ld3[0] = [r27], r16                           // Ref load third 8 Byte (unaligned)
-                 (_shp[0]) shl _shl2[0] = _ald3[_LL], r24
+                 (p_or_16[0]) or r_ref_16_or1[0]  = r_ref_16_shl1[0], r_ref_16_shru2[0]  // Ref or r_ref_16_shl1 + 1 and r_ref_16_shl1 + 1
-                 (_shp[0]) shr.u _shru3[0] = _ald4[_LL], r23
+                 (p_sh_16[0]) shr.u r_ref_16_shru1[0] = r_ref_16_ld1[LL16], r23          // Ref shift
          }
          {.mii
-                 (_orp[0]) or _or3[0]  = _shl4[0], _shl4[_SL] //_shru4 + 1 und _shl4 + 1
+                 (p_or_16[0]) or r_ref_16_or2[0]  = r_ref_16_shl2[0], r_ref_16_shl2[SL16]        // Ref or r_ref_shru2 + 1 and r_ref_shl2 + 1
-                 (_shp[0]) shl _shl3[0] = _ald5[_LL], r25
+                 (p_sh_16[0]) shl r_ref_16_shl1[0] = r_ref_16_ld2[LL16], r25             // Ref shift
-                 (_shp[0]) shr.u _shru4[0] = _ald5[_LL], r23
+                 (p_sh_16[0]) shr.u r_ref_16_shru2[0] = r_ref_16_ld2[LL16], r23          // Ref shift
          }
-         {.mmi
+         {.mib
-                 (_orp[0]) or _or4[0]  = _shru1[_SL], _shl1[_SL]
+                 (p_add2_16[0]) cmp.ge.unc p6, p7 = r8, r17
-                 (_shp[0]) shl _shl4[0]= _ald6[_LL], r25
+                 (p_sh_16[0]) shl r_ref_16_shl2[0]= r_ref_16_ld3[LL16], r25              // Ref shift
+                 (p6) br.spnt.few .L_loop_exit16
          }
          {.mmb
-                 (_addrp1[0]) add _addr1[0] = _psadr1[_PL], _psadr2[_PL] // Aufsummieren
+                 (p_add1_16[0]) add r_add_16[0] = r_psad1[PL16], r_psad2[PL16]           // add the psad results
-                 (_addrp2[0]) add r8 = r8, _addr1[_AL]
+                 (p_add2_16[0]) add r8 = r8, r_add_16[AL16]                              // add the results to the sum
-                 br.ctop.sptk.few .L_loop_16
+                 br.ctop.sptk.few .L_loop16
                  ;;
          }
-         // Register zurueckschreiben
+ .L_loop_exit16:
+         // Restore LC and predicates
          mov ar.lc = r20
          mov pr = r21,-1
+         // Return
          br.ret.sptk.many rp
          .endp sad16_ia64#
+ //   ------------------------------------------------------------------------------
+ //   * SAD8_IA64
+ //   *
+ //   *  In:
+ //   *    r32 = cur     (aligned)
+ //   *    r33 = ref     (not aligned)
+ //   *    r34 = stride
+ //   *  Out:
+ //   *    r8 = sum of absolute differences
+ //   *
+ //   ------------------------------------------------------------------------------
          .align 16
          .global sad8_ia64#
-Line 100
+Line 145
  sad8_ia64:
- LL=3
- SL=1
- OL=1
- PL=1
- AL=1
-         alloc r9=ar.pfs,3,29,0,32
+         // Define Latencies
-         mov r20 = ar.lc
+         LL8=3 // load  latency
-         mov r21 = pr
+         SL8=1 // shift latency
+         OL8=1 // or    latency
+         PL8=1 // psad  latency
+         AL8=1 // add   latency
-         dep.z r22               = r32, 3, 3 // erste 3 Bit mit 8 multiplizieren
+         // Allocate Registers in RSE
-         dep.z r23               = r33, 3, 3 // in r22 und r23 -> Schiebeflags
+         alloc r9        = ar.pfs,3,21,0,24
-         mov r8 = r0                  //   .   .   .   .
+         // lfetch [r32]                         // Maybe this helps?
-         and r14         = -8, r32 // 0xFFFFFFFFFFFFFFF8, r32
-         and r15         = -8, r33 // 0xFFFFFFFFFFFFFFF8, r33
+         mov r8          = r0                    // Initialize result
-         mov r16         = r34
- //      mov r17         = r35
-         ;;
-         add r18         = 8, r14
+         mov r14         = r32                   // Save Cur
-         add r19         = 8, r15
+         and r15         = -8, r33               // Align the Ref pointer by deleting the last 3 bit
+         mov r16         = r34                   // Save Stride
-         sub r24         = 64, r22
+         // Save LC and predicates
-         sub r25         = 64, r23
+         mov r20         = ar.lc
+         mov r21         = pr
-         // Loop-counter initialisieren
+         dep.z r23       = r33, 3, 3             // get the # of bits ref is misaligned
-         mov ar.lc = 7                   // Loop 7 mal durchlaufen
-         mov ar.ec = LL + SL + OL + PL + AL                      // Die Loop am Schluss noch zehn mal durchlaufen
-         // Rotating Predicate Register zuruecksetzen und P16 auf 1
-         mov pr.rot = 1 << 16
          ;;
-         .rotr ald1[LL+1], ald2[LL+1], ald3[LL+1], ald4[LL+1], shru1[SL+1], shl1[SL+1], shru2[SL+1], shl2[SL+1], or1[OL+1], or2[OL+1], psadr[PL+1], addr[AL+1]
-         .rotp aldp[LL], shp[SL], orp[OL], psadrp[PL], addrp[AL]
+         add r19         = 8, r15                // Precalculate second load-offset
- .L_loop_8:
+         sub r25         = 64, r23               // Precalculate # of shifts
-         {.mmi
-                 (aldp[0]) ld8 ald1[0] = [r14], r16      // Cur laden
+         // Initialize Loop-Counters
-                 (aldp[0]) ld8 ald2[0] = [r18], r16
+         mov ar.lc = 7                           // Loop 7 times
-                 (shp[0]) shr.u shru1[0] = ald1[LL], r22 // mergen
+         mov ar.ec = LL8 + SL8 + OL8 + PL8 + AL8 // Epiloque
-         }
+         mov pr.rot = 1 << 16                    // Reset Predicate Registers and initialize with P16
-         {.mii
-                 (orp[0]) or or1[0] = shru1[SL], shl1[SL]
+         // Initalize Arrays for Register Rotation
-                 (shp[0]) shl shl1[0] = ald2[LL], r24
+         .rotr r_cur_ld[LL8+SL8+OL8+1], r_ref_ld1[LL8+1], r_ref_ld2[LL8+1], r_shru[SL8+1], r_shl[SL8+1], r_or[OL8+1], r_psad[PL8+1]
-                 (shp[0]) shr.u shru2[0] = ald3[LL], r23 // mergen
+         .rotp p_ld[LL8], p_sh[SL8], p_or[OL8], p_psad[PL8], p_add[AL8]
-         }
-         {.mmi
+         ;;
-                 (aldp[0]) ld8 ald3[0] = [r15], r16      // Ref laden
+ .L_loop8:
-                 (aldp[0]) ld8 ald4[0] = [r19], r16
+ //      {.mmi
-                 (shp[0]) shl shl2[0]  = ald4[LL], r25
+                 (p_ld[0]) ld8 r_ref_ld1[0]      = [r15], r16                    // Load 1st 8Byte from Ref
-         }
+                 (p_ld[0]) ld8 r_cur_ld[0]       = [r14], r16                    // Load Cur
-         {.mmi
+                 (p_psad[0]) psad1 r_psad[0]     = r_cur_ld[LL8+SL8+OL8], r_or[OL8]      // Do the Calculation
-                 (orp[0]) or or2[0] = shru2[SL], shl2[SL]
+ //      }
-                 (addrp[0]) add r8 = r8, psadr[PL]
+ //      {.mii
-                 (psadrp[0]) psad1 psadr[0] = or1[OL], or2[OL]
+                 (p_ld[0]) ld8 r_ref_ld2[0]      = [r19], r16                    // Load 2nd 8Byte from Ref
-         }
+                 (p_sh[0]) shr.u r_shru[0]       = r_ref_ld1[LL8], r23           // Shift unaligned Ref parts
-         {.mbb
+                 (p_sh[0]) shl   r_shl[0]        = r_ref_ld2[LL8], r25           // Shift unaligned Ref parts
-                 br.ctop.sptk.few .L_loop_8
+ //      }
+ //      {.mib
+                 (p_or[0]) or r_or[0]            = r_shru[SL8], r_shl[SL8]       // Combine unaligned Ref parts
+                 (p_add[0]) add r8               = r8, r_psad[PL8]               // Sum psad result
+                 br.ctop.sptk.few .L_loop8
                  ;;
-         }
+ //      }
+         // Restore Loop counters
          mov ar.lc = r20
          mov pr = r21,-1
+         // Return
          br.ret.sptk.many b0
          .endp sad8_ia64#
-Line 265
+Line 310
          .endp sad16bi_ia64#
-         .common dev16#,8,8
+ .text
          .align 16
          .global dev16_ia64#
          .proc dev16_ia64#
+ .auto
  dev16_ia64:
-         .prologue
+         // renamings for better readability
-         zxt4 r33 = r33
+         stride = r18
-         .save ar.lc, r2
+         pfs = r19                       //for saving previous function state
-         mov r2 = ar.lc
+         cura0 = r20                     //address of first 8-byte block of cur
+         cura1 = r21                     //address of second 8-byte block of cur
+         mean0 = r22                     //registers for calculating the sum in parallel
+         mean1 = r23
+         mean2 = r24
+         mean3 = r25
+         dev0 = r26                      //same for the deviation
+         dev1 = r27
+         dev2 = r28
+         dev3 = r29
          .body
-         mov r21 = r0
+         alloc pfs = ar.pfs, 2, 38, 0, 40
-         mov r8 = r0
-         mov r23 = r32
+         mov cura0  = in0
-         mov r24 = r0
+         mov stride = in1
+         add cura1 = 8, cura0
+         .rotr c[32], psad[8]            // just using rotating registers to get an array ;-)
+ .explicit
+ {.mmi
+         ld8 c[0] = [cura0], stride      // load them ...
+         ld8 c[1] = [cura1], stride
          ;;
-         mov r25 = r33
+ }
- .L50:
+ {.mmi
-         mov r22 = r0
+         ld8 c[2] = [cura0], stride
-         mov r20 = r23
+         ld8 c[3] = [cura1], stride
-         ;;
- .L54:
-         mov r16 = r20
-         adds r14 = 2, r20
-         adds r15 = 3, r20
-         ;;
-         ld1 r17 = [r16], 1
-         ld1 r18 = [r14]
-         ld1 r19 = [r15]
-         ;;
-         ld1 r14 = [r16]
-         add r21 = r17, r21
-         adds r15 = 4, r20
-         ;;
-         add r21 = r14, r21
-         ld1 r16 = [r15]
-         adds r22 = 8, r22
-         ;;
-         add r21 = r18, r21
-         adds r14 = 5, r20
-         adds r15 = 6, r20
-         ;;
-         add r21 = r19, r21
-         ld1 r17 = [r14]
-         ld1 r18 = [r15]
-         ;;
-         add r21 = r16, r21
-         adds r14 = 7, r20
-         cmp4.geu p6, p7 = 15, r22
-         ;;
-         add r21 = r17, r21
-         ld1 r15 = [r14]
-         adds r20 = 8, r20
-         ;;
-         add r21 = r18, r21
-         ;;
-         add r21 = r15, r21
-         (p6) br.cond.dptk .L54
-         adds r24 = 1, r24
-         add r23 = r23, r25
-         ;;
-         cmp4.geu p6, p7 = 15, r24
-         (p6) br.cond.dptk .L50
-         extr.u r14 = r21, 8, 24
-         mov r23 = r32
-         mov r24 = r0
-         ;;
-         mov r21 = r14
- .L60:
-         addl r14 = 3, r0
-         mov r17 = r23
          ;;
-         mov ar.lc = r14
+ }
+ {.mmi
+         ld8 c[4] = [cura0], stride
+         ld8 c[5] = [cura1], stride
          ;;
- .L144:
+ }
-         mov r16 = r17
+ {.mmi
+         ld8 c[6] = [cura0], stride
+         ld8 c[7] = [cura1], stride
          ;;
-         ld1 r14 = [r16], 1
+ }
+ {.mmi
+         ld8 c[8] = [cura0], stride
+         ld8 c[9] = [cura1], stride
          ;;
-         sub r15 = r14, r21
+ }
+ {.mmi
+         ld8 c[10] = [cura0], stride
+         ld8 c[11] = [cura1], stride
          ;;
-         cmp4.ge p6, p7 = 0, r15
+ }
+ {.mii
+         ld8 c[12] = [cura0], stride
+         psad1 mean0 = c[0], r0          // get the sum of them ...
+         psad1 mean1 = c[1], r0
+ }
+ {.mmi
+         ld8 c[13] = [cura1], stride
          ;;
-         (p7) add r8 = r8, r15
+         ld8 c[14] = [cura0], stride
-         (p6) sub r14 = r21, r14
+         psad1 mean2 = c[2], r0
+ }
+ {.mii
+         ld8 c[15] = [cura1], stride
+         psad1 mean3 = c[3], r0
          ;;
-         (p6) add r8 = r8, r14
+         psad1 psad[0] = c[4], r0
-         ld1 r14 = [r16]
+ }
+ {.mmi
+         ld8 c[16] = [cura0], stride
+         ld8 c[17] = [cura1], stride
+         psad1 psad[1] = c[5], r0
          ;;
-         sub r15 = r14, r21
+ }
-         adds r16 = 2, r17
+ {.mii
+         ld8 c[18] = [cura0], stride
+         psad1 psad[2] = c[6], r0
+         psad1 psad[3] = c[7], r0
+ }
+ {.mmi
+         ld8 c[19] = [cura1], stride
          ;;
-         cmp4.ge p6, p7 = 0, r15
+         ld8 c[20] = [cura0], stride
+         psad1 psad[4] = c[8], r0
+ }
+ {.mii
+         ld8 c[21] = [cura1], stride
+         psad1 psad[5] = c[9], r0
          ;;
-         (p7) add r8 = r8, r15
+         add mean0 = mean0, psad[0]
-         (p6) sub r14 = r21, r14
+ }
+ {.mmi
+         ld8 c[22] = [cura0], stride
+         ld8 c[23] = [cura1], stride
+         add mean1 = mean1, psad[1]
          ;;
-         (p6) add r8 = r8, r14
+ }
-         ld1 r14 = [r16]
+ {.mii
+         ld8 c[24] = [cura0], stride
+         psad1 psad[0] = c[10], r0
+         psad1 psad[1] = c[11], r0
+ }
+ {.mmi
+         ld8 c[25] = [cura1], stride
          ;;
-         sub r15 = r14, r21
+         ld8 c[26] = [cura0], stride
-         adds r16 = 3, r17
+         add mean2 = mean2, psad[2]
+ }
+ {.mii
+         ld8 c[27] = [cura1], stride
+         add mean3 = mean3, psad[3]
          ;;
-         cmp4.ge p6, p7 = 0, r15
+         psad1 psad[2] = c[12], r0
-         adds r17 = 4, r17
+ }
+ {.mmi
+         ld8 c[28] = [cura0], stride
+         ld8 c[29] = [cura1], stride
+         psad1 psad[3] = c[13], r0
          ;;
-         (p7) add r8 = r8, r15
+ }
-         (p6) sub r14 = r21, r14
+ {.mii
+         ld8 c[30] = [cura0]
+         psad1 psad[6] = c[14], r0
+         psad1 psad[7] = c[15], r0
+ }
+ {.mmi
+         ld8 c[31] = [cura1]
          ;;
-         (p6) add r8 = r8, r14
+         add mean0 = mean0, psad[0]
-         ld1 r14 = [r16]
+         add mean1 = mean1, psad[1]
+ }
+ {.mii
+         add mean2 = mean2, psad[4]
+         add mean3 = mean3, psad[5]
          ;;
-         sub r15 = r14, r21
+         psad1 psad[0] = c[16], r0
+ }
+ {.mmi
+         add mean0 = mean0, psad[2]
+         add mean1 = mean1, psad[3]
+         psad1 psad[1] = c[17], r0
          ;;
-         cmp4.ge p6, p7 = 0, r15
+ }
+ {.mii
+         add mean2 = mean2, psad[6]
+         psad1 psad[2] = c[18], r0
+         psad1 psad[3] = c[19], r0
+ }
+ {.mmi
+         add mean3 = mean3, psad[7]
          ;;
-         (p7) add r8 = r8, r15
+         add mean0 = mean0, psad[0]
-         (p6) sub r14 = r21, r14
+         psad1 psad[4] = c[20], r0
+ }
+ {.mii
+         add mean1 = mean1, psad[1]
+         psad1 psad[5] = c[21], r0
          ;;
-         (p6) add r8 = r8, r14
+         psad1 psad[6] = c[22], r0
-         br.cloop.sptk.few .L144
+ }
-         adds r24 = 1, r24
+ {.mmi
-         add r23 = r23, r33
+         add mean2 = mean2, psad[2]
+         add mean3 = mean3, psad[3]
+         psad1 psad[7] = c[23], r0
          ;;
-         cmp4.geu p6, p7 = 15, r24
+ }
-         (p6) br.cond.dptk .L60
+ {.mii
-         mov ar.lc = r2
+         add mean0 = mean0, psad[4]
+         psad1 psad[0] = c[24], r0
+         psad1 psad[1] = c[25], r0
+ }
+ {.mmi
+         add mean1 = mean1, psad[5]
+         ;;
+         add mean2 = mean2, psad[6]
+         psad1 psad[2] = c[26], r0
+ }
+ {.mii
+         add mean3 = mean3, psad[7]
+         psad1 psad[3] = c[27], r0
+         ;;
+         psad1 psad[4] = c[28], r0
+ }
+ {.mmi
+         add mean0 = mean0, psad[0]
+         add mean1 = mean1, psad[1]
+         psad1 psad[5] = c[29], r0
+         ;;
+ }
+ {.mii
+         add mean2 = mean2, psad[2]
+         psad1 psad[6] = c[30], r0
+         psad1 psad[7] = c[31], r0
+ }
+ {.mmi
+         add mean3 = mean3, psad[3]
+         ;;
+         add mean0 = mean0, psad[4]
+         add mean1 = mean1, psad[5]
+ }
+ {.mbb
+         add mean2 = mean2, mean3
+         nop.b 1
+         nop.b 1
+         ;;
+ }
+ {.mib
+         add mean0 = mean0, psad[6]
+         add mean1 = mean1, psad[7]
+         nop.b 1
+         ;;
+ }
+ {.mib
+         add mean0 = mean0, mean1
+         // add mean2 = 127, mean2       // this could make our division more exact, but does not help much
+         ;;
+ }
+ {.mib
+         add mean0 = mean0, mean2
+         ;;
+ }
+ {.mib
+         shr.u mean0 = mean0, 8          // divide them ...
+         ;;
+ }
+ {.mib
+         mux1 mean0 = mean0, @brcst
+         ;;
+ }
+ {.mii
+         nop.m 0
+         psad1 dev0 = c[0], mean0        // and do a sad again ...
+         psad1 dev1 = c[1], mean0
+ }
+ {.mii
+         nop.m 0
+         psad1 dev2 = c[2], mean0
+         psad1 dev3 = c[3], mean0
+ }
+ {.mii
+         nop.m 0
+         psad1 psad[0] = c[4], mean0
+         psad1 psad[1] = c[5], mean0
+ }
+ {.mii
+         nop.m 0
+         psad1 psad[2] = c[6], mean0
+         psad1 psad[3] = c[7], mean0
+ }
+ {.mii
+         nop.m 0
+         psad1 psad[4] = c[8], mean0
+         psad1 psad[5] = c[9], mean0
+         ;;
+ }
+ {.mii
+         add dev0 = dev0, psad[0]
+         psad1 psad[6] = c[10], mean0
+         psad1 psad[7] = c[11], mean0
+ }
+ {.mmi
+         add dev1 = dev1, psad[1]
+         add dev2 = dev2, psad[2]
+         psad1 psad[0] = c[12], mean0
+ }
+ {.mii
+         add dev3 = dev3, psad[3]
+         psad1 psad[1] = c[13], mean0
+         ;;
+         psad1 psad[2] = c[14], mean0
+ }
+ {.mmi
+         add dev0 = dev0, psad[4]
+         add dev1 = dev1, psad[5]
+         psad1 psad[3] = c[15], mean0
+ }
+ {.mii
+         add dev2 = dev2, psad[6]
+         psad1 psad[4] = c[16], mean0
+         psad1 psad[5] = c[17], mean0
+ }
+ {.mmi
+         add dev3 = dev3, psad[7]
+         ;;
+         add dev0 = dev0, psad[0]
+         psad1 psad[6] = c[18], mean0
+ }
+ {.mii
+         add dev1 = dev1, psad[1]
+         psad1 psad[7] = c[19], mean0
+         psad1 psad[0] = c[20], mean0
+ }
+ {.mmi
+         add dev2 = dev2, psad[2]
+         add dev3 = dev3, psad[3]
+         psad1 psad[1] = c[21], mean0
+         ;;
+ }
+ {.mii
+         add dev0 = dev0, psad[4]
+         psad1 psad[2] = c[22], mean0
+         psad1 psad[3] = c[23], mean0
+ }
+ {.mmi
+         add dev1 = dev1, psad[5]
+         add dev2 = dev2, psad[6]
+         psad1 psad[4] = c[24], mean0
+ }
+ {.mii
+         add dev3 = dev3, psad[7]
+         psad1 psad[5] = c[25], mean0
+         ;;
+         psad1 psad[6] = c[26], mean0
+ }
+ {.mmi
+         add dev0 = dev0, psad[0]
+         add dev1 = dev1, psad[1]
+         psad1 psad[7] = c[27], mean0
+ }
+ {.mii
+         add dev2 = dev2, psad[2]
+         psad1 psad[0] = c[28], mean0
+         psad1 psad[1] = c[29], mean0
+ }
+ {.mmi
+         add dev3 = dev3, psad[3]
+         ;;
+         add dev0 = dev0, psad[4]
+         psad1 psad[2] = c[30], mean0
+ }
+ {.mii
+         add dev1 = dev1, psad[5]
+         psad1 psad[3] = c[31], mean0
+         ;;
+         add dev2 = dev2, psad[6]
+ }
+ {.mmi
+         add dev3 = dev3, psad[7]
+         add dev0 = dev0, psad[0]
+         add dev1 = dev1, psad[1]
+         ;;
+ }
+ {.mii
+         add dev2 = dev2, psad[2]
+         add dev3 = dev3, psad[3]
+         add ret0 = dev0, dev1
+         ;;
+ }
+ {.mib
+         add dev2 = dev2, dev3
+         nop.i 1
+         nop.b 1
+         ;;
+ }
+ {.mib
+         add ret0 = ret0, dev2
+         nop.i 1
          br.ret.sptk.many b0
+ }
          .endp dev16_ia64#

 Legend:



Removed from v.205
 


changed lines


 
Added in v.250
 Legend:



Removed from v.205
 


changed lines


 
Added in v.250
-Removed from v.205
+Added in v.250

No admin address has been configured	ViewVC Help
Powered by ViewVC 1.0.4