🔒 trunk/9867bb37683bd898d547744e95f9916f8395f44c: Fix CPU GEMM k-slicing cache-block indexing (#183733)

🔧 DeepGEMM Essentials: High-Performance FP8 Matrix Multiplication

🕛 351 Tage, 16 Stunden 43 Minuten
📆 07.07.2025 um 11:19 Uhr
📈 430.94 Punkte
🔧 Programmierung

🔧 Writing High-Performance Kernels in TileLang, from GEMM to MLA

🕛 28 Tage, 17 Stunden 14 Minuten
📆 26.05.2026 um 10:50 Uhr
📈 389.9 Punkte
🔧 Programmierung

🔧 DeepSeek DeepGEMM 中文讲解

🕛 351 Tage, 7 Stunden 31 Minuten
📆 07.07.2025 um 20:42 Uhr
📈 287.29 Punkte
🔧 Programmierung

🔧 Apple Silicon's AI Ceiling Is Higher Than You Think

🕛 28 Tage, 15 Stunden 44 Minuten
📆 26.05.2026 um 12:33 Uhr
📈 184.69 Punkte
🔧 Programmierung

🔧 How to Read GPU Profiling Logs: A Ground-Up Guide

🕛 128 Tage, 9 Stunden 30 Minuten
📆 15.02.2026 um 18:47 Uhr
📈 164.17 Punkte
🔧 Programmierung

🔧 Advanced GPU Optimization: Tensor Core Programming (NVIDIA)

🕛 169 Tage, 10 Stunden 24 Minuten
📆 05.01.2026 um 17:41 Uhr
📈 143.65 Punkte
🔧 Programmierung

🔧 NVIDIA CUTLASS: High-Performance CUDA Templates for AI Linear Algebra

🕛 26 Tage, 22 Stunden 42 Minuten
📆 28.05.2026 um 05:32 Uhr
📈 102.61 Punkte
🔧 Programmierung

🔧 Pyptx: Write Nvidia PTX Kernels in Python for Hopper and Blackwell

🕛 56 Tage, 12 Stunden 9 Minuten
📆 28.04.2026 um 16:01 Uhr
📈 102.61 Punkte
🔧 Programmierung

🔧 If Memory Could Compute, Would We Still Need GPUs?

🕛 79 Tage, 2 Stunden 28 Minuten
📆 06.04.2026 um 01:46 Uhr
📈 82.08 Punkte
🔧 Programmierung

🔧 CUDA Memory Hierarchy, Tile Programming, & DLSS 310.6 Driver Enhancements

🕛 78 Tage, 4 Stunden 27 Minuten
📆 06.04.2026 um 23:36 Uhr
📈 61.56 Punkte
🔧 Programmierung

🔧 numr 0.5.0: The Rust numerical computing library that doesn't make you choose

🕛 101 Tage, 6 Stunden 58 Minuten
📆 14.03.2026 um 21:15 Uhr
📈 61.56 Punkte
🔧 Programmierung

🔧 Proof-of-Work as a Hidden Subsidy

🕛 192 Tage, 6 Stunden 59 Minuten
📆 13.12.2025 um 20:35 Uhr
📈 61.56 Punkte
🔧 Programmierung

🔧 AxonML -- A PyTorch-equivalent ML framework written in Rust

🕛 115 Tage, 6 Stunden 45 Minuten
📆 28.02.2026 um 21:23 Uhr
📈 41.04 Punkte
🔧 Programmierung

🔧 The Ghost in the Batch: How vLLM Silently Switches Algorithms

🕛 128 Tage, 9 Stunden 30 Minuten
📆 15.02.2026 um 18:47 Uhr
📈 41.04 Punkte
🔧 Programmierung

🔧 VHE: GPU-Accelerated Gate-Level Simulation at Zero License Cost

🕛 158 Tage, 11 Stunden 16 Minuten
📆 16.01.2026 um 16:41 Uhr
📈 41.04 Punkte
🔧 Programmierung

🔧 HeMA-MISO: Heterogeneous Memory Architecture for LLM Inference with SW Optimization

🕛 269 Tage, 13 Stunden 59 Minuten
📆 27.09.2025 um 14:09 Uhr
📈 41.04 Punkte
🔧 Programmierung

🔧 Kog hits 3K t/s on MI300X, no kernel switches — test it now

🕛 6 Tage, 21 Stunden 12 Minuten
📆 17.06.2026 um 06:59 Uhr
📈 41.04 Punkte
🔧 Programmierung

🐧 AMD says XDNA1 Linux LLM support isn't available. I used AI-assisted development to get a full transformer layer running on a Ryzen 7 8845HS NPU.

🕛 12 Tage, 15 Stunden 11 Minuten
📆 11.06.2026 um 10:53 Uhr
📈 41.04 Punkte
🐧 Linux Tipps

💾 ciflow/torchtitan/186752: [Inductor] Host-side TMA descriptors for Blackwell mm templates

🕛 15 Tage, 0 Stunden 36 Minuten
📆 09.06.2026 um 03:29 Uhr
📈 41.04 Punkte
💾 Downloads

💾 trunk/8e484e4c69687609eb77c451aa12baec25b04fe6: Bring in gemm kernels form quack and CI testing for patch set (#186284)

🕛 18 Tage, 21 Stunden 51 Minuten
📆 05.06.2026 um 06:14 Uhr
📈 41.04 Punkte
💾 Downloads

💾 trunk/9867bb37683bd898d547744e95f9916f8395f44c: Fix CPU GEMM k-slicing cache-block indexing (#183733)

🕛 30 Tage, 23 Stunden 36 Minuten
📆 24.05.2026 um 04:37 Uhr
📈 41.04 Punkte
💾 Downloads

🔧 Intel Xe3P Leaks 160GB LPDDR5X; FlashAttention-2 in CuTe & Custom CUDA GPT-2 Engine

🕛 35 Tage, 4 Stunden 42 Minuten
📆 19.05.2026 um 23:35 Uhr
📈 41.04 Punkte
🔧 Programmierung

💾 trunk/730cb6ee2daee7a579eb5ccf149a71045c0069ee: [XNNPACK] Add missing mutex to XNNPackLinearOpContext::run (#183512)

🕛 39 Tage, 10 Stunden 20 Minuten
📆 15.05.2026 um 17:49 Uhr
📈 41.04 Punkte
💾 Downloads

💾 trunk/9c6b6c1d0f87b771a68d3734d6358d8007461aa1: inductor: add dimension prefix to GEMM kernel profile names (#182943)

🕛 44 Tage, 23 Stunden 51 Minuten
📆 10.05.2026 um 04:28 Uhr
📈 41.04 Punkte
💾 Downloads

🔧 20260324_ai_bubble_8gb_en

🕛 70 Tage, 16 Stunden 11 Minuten
📆 14.04.2026 um 11:54 Uhr
📈 20.52 Punkte
🔧 Programmierung

🔧 2.78 TFLOPS on a Fanless MacBook Air? Benchmarking Apple's M4 with MLX

🕛 96 Tage, 21 Stunden 14 Minuten
📆 19.03.2026 um 06:58 Uhr
📈 20.52 Punkte
🔧 Programmierung

🔧 MiniMax M3 Explained: The Sparse Attention Breakthrough

🕛 19 Minuten
📆 24.06.2026 um 04:07 Uhr
📈 20.52 Punkte
🔧 Programmierung

🔧 How I Added AI Image Search to a Marketplace Bot (And Why It Changed Everything)

🕛 113 Tage, 5 Stunden 29 Minuten
📆 02.03.2026 um 22:35 Uhr
📈 20.52 Punkte
🔧 Programmierung

💾 trunk/e8f1ea4c707a71e1c8dc72516b8c8ea7072dd794: Bump B200 CI containers to Python 3.12 on CUDA 13.0 (#186997)

🕛 7 Tage, 22 Stunden 51 Minuten
📆 16.06.2026 um 05:10 Uhr
📈 20.52 Punkte
💾 Downloads

📰 Tencent Hunyuan Releases HPC-Ops: A High Performance LLM Inference Operator Library

🕛 146 Tage, 20 Stunden 50 Minuten
📆 28.01.2026 um 07:23 Uhr
📈 20.52 Punkte
🔧 AI Nachrichten

💾 viable/strict/1781213548: Add PyTorch QuACK GEMM epilogue adapter e.g FlexGemm (#186483)

🕛 12 Tage, 4 Stunden 36 Minuten
📆 11.06.2026 um 18:10 Uhr
📈 20.52 Punkte
💾 Downloads

📰 Learning Triton One Kernel at a Time: Matrix Multiplication

🕛 252 Tage, 3 Stunden 18 Minuten
📆 15.10.2025 um 00:57 Uhr
📈 20.52 Punkte
🔧 AI Nachrichten

💾 trunk/319ee4ea19c03438d7ae3c585bc65b11fb9dd266: Add PyTorch QuACK GEMM epilogue adapter (#186310)

🕛 17 Tage, 22 Stunden 51 Minuten
📆 06.06.2026 um 05:18 Uhr
📈 20.52 Punkte
💾 Downloads

🔧 ARM System-on-Chip (SoC) Deep Dive: Edge AI and Coherency Fabric

🕛 265 Tage, 4 Stunden 0 Minuten
📆 02.10.2025 um 00:17 Uhr
📈 20.52 Punkte
🔧 Programmierung

🔧 Running PyTorch fork-safe in Celery on macOS

🕛 22 Tage, 12 Stunden 43 Minuten
📆 01.06.2026 um 15:23 Uhr
📈 20.52 Punkte
🔧 Programmierung

☑ Lösungen

☑ Betriebssysteme

☑ IT-Sicherheit

☑ Cyberbedrohungen

☑ Ressourcen

☑ Videos

☑ Sicherheitstipps

☑ Häufig gesucht

💾 trunk/9867bb37683bd898d547744e95f9916f8395f44c: Fix CPU GEMM k-slicing cache-block indexing (#183733)

Sharing is caring on Social Media