[webgpu] Enable DP4A MatMul generation path for Qualcomm (#24408)

qjia7 · web-flow · commit 8de1639aa9a8 · 2025-04-15T10:10:55.000+08:00
With this PR, the generation speed for phi4 improves 2x on Qualcomm
Adreno X1 GPU (11.1 tps -&gt; 23.2 tps for simple inputs).
diff --git a/onnxruntime/contrib_ops/webgpu/quantization/matmul_nbits.cc b/onnxruntime/contrib_ops/webgpu/quantization/matmul_nbits.cc
@@ -684,7 +684,9 @@ Status MatMulNBits::ComputeInternal(onnxruntime::webgpu::ComputeContext& context
   }
 
   // On FP32 only GPUs, integer math is faster than FP32 therefore always use DP4A independent of length of M.
-  if ((M >= kMinMForTileOptimization || y->DataType() == DataTypeImpl::GetType<float>()) && CanApplyDP4AMatrixMatMulNBits(context, accuracy_level_, block_size, batch_count, N, K, components_a, has_zero_points)) {
+  if ((M >= kMinMForTileOptimization || y->DataType() == DataTypeImpl::GetType<float>() ||
+       context.AdapterInfo().vendor == std::string_view{"qualcomm"}) &&
+      CanApplyDP4AMatrixMatMulNBits(context, accuracy_level_, block_size, batch_count, N, K, components_a, has_zero_points)) {
     return ApplyDP4AMatrixMatMulNBits(a, b, scales, M, N, K, block_size, kMinMForTileOptimization, context, y);
   }
 

Original file line number	Diff line number	Diff line change
`@@ -684,7 +684,9 @@ Status MatMulNBits::ComputeInternal(onnxruntime::webgpu::ComputeContext& context`
`684`	`684`	`}`
`685`	`685`
`686`	`686`	`// On FP32 only GPUs, integer math is faster than FP32 therefore always use DP4A independent of length of M.`
`687`		`- if ((M >= kMinMForTileOptimization \|\| y->DataType() == DataTypeImpl::GetType<float>()) && CanApplyDP4AMatrixMatMulNBits(context, accuracy_level_, block_size, batch_count, N, K, components_a, has_zero_points)) {`
	`687`	`+ if ((M >= kMinMForTileOptimization \|\| y->DataType() == DataTypeImpl::GetType<float>() \|\|`
	`688`	`+ context.AdapterInfo().vendor == std::string_view{"qualcomm"}) &&`
	`689`	`+ CanApplyDP4AMatrixMatMulNBits(context, accuracy_level_, block_size, batch_count, N, K, components_a, has_zero_points)) {`
`688`	`690`	`return ApplyDP4AMatrixMatMulNBits(a, b, scales, M, N, K, block_size, kMinMForTileOptimization, context, y);`
`689`	`691`	`}`
`690`	`692`