🔒 Building a Tokenizer from Scratch [part 2]

🔧 How to Train Custom Language Models: Fine-Tuning vs Training From Scratch (2026)

🕛 128 Tage, 21 Stunden 22 Minuten
📆 19.03.2026 um 10:30 Uhr
📈 353.87 Punkte
🔧 Programmierung

🔧 Build a Fast NLP Pipeline with Modern Text Tokenizer in C++

🕛 351 Tage, 20 Stunden 24 Minuten
📆 08.08.2025 um 11:14 Uhr
📈 341.09 Punkte
🔧 Programmierung

🔧 Building an LLM From Scratch for Indic Languages: What No One Tells You About the Hard Parts

🕛 133 Tage, 19 Stunden 9 Minuten
📆 14.03.2026 um 12:39 Uhr
📈 322.01 Punkte
🔧 Programmierung

🔧 From API to GPU, Week 2: What Actually Happens Behind the API

🕛 6 Tage, 9 Stunden 33 Minuten
📆 19.07.2026 um 22:19 Uhr
📈 312.87 Punkte
🔧 Programmierung

🔧 Every Word I Say Gets Tokenized. This Library Does It 1000x Faster.

🕛 3 Tage, 3 Stunden 28 Minuten
📆 23.07.2026 um 04:16 Uhr
📈 293.71 Punkte
🔧 Programmierung

🔧 Tokens: The Invisible Building Blocks of Large Language Models

🕛 258 Tage, 19 Stunden 52 Minuten
📆 09.11.2025 um 12:06 Uhr
📈 291.04 Punkte
🔧 Programmierung

🔧 Using hf tokenizers in Rust

🕛 90 Tage, 16 Stunden 5 Minuten
📆 26.04.2026 um 15:43 Uhr
📈 277.91 Punkte
🔧 Programmierung

🔧 Serving LLMs at Scale with KitOps, Kubeflow, and KServe

🕛 233 Tage, 14 Stunden 7 Minuten
📆 04.12.2025 um 17:36 Uhr
📈 260.17 Punkte
🔧 Programmierung

🔧 Tokenization under the hood: BPE, WordPiece, SentencePiece, and Unigram compared

🕛 39 Tage, 4 Stunden 9 Minuten
📆 17.06.2026 um 03:10 Uhr
📈 243.85 Punkte
🔧 Programmierung

🔧 Building a High-Performance Text Embedding API with Rust, Axum, and ONNX

🕛 281 Tage, 2 Stunden 38 Minuten
📆 18.10.2025 um 05:12 Uhr
📈 227.86 Punkte
🔧 Programmierung

🔧 Fine-Tuning Llama 3.2 3B on Medical QA: Week 1 Setup and Baseline Inference

🕛 67 Tage, 19 Stunden 50 Minuten
📆 19.05.2026 um 11:56 Uhr
📈 211.37 Punkte
🔧 Programmierung

🔧 Run Big LLMs on Small GPUs: A Hands-On Guide to 4-bit Quantization and QLoRA

🕛 240 Tage, 16 Stunden 7 Minuten
📆 27.11.2025 um 15:26 Uhr
📈 195.56 Punkte
🔧 Programmierung

🔧 Fine-tuning — Domain-Specializing Models with LoRA

🕛 21 Tage, 17 Stunden 50 Minuten
📆 04.07.2026 um 13:58 Uhr
📈 195.56 Punkte
🔧 Programmierung

🔧 Resources for Learning to Build Technologies from Scratch with Go: Books and Free Online Courses

🕛 51 Tage, 20 Stunden 34 Minuten
📆 04.06.2026 um 11:21 Uhr
📈 190.3 Punkte
🔧 Programmierung

🔧 Using “ibm-granite/granite-speech-3.3–8b” 🪨 for ASR

🕛 265 Tage, 18 Stunden 8 Minuten
📆 02.11.2025 um 13:26 Uhr
📈 185.27 Punkte
🔧 Programmierung

🔧 Building a Vector Database from Scratch - CapybaraDB

🕛 257 Tage, 3 Stunden 52 Minuten
📆 11.11.2025 um 03:45 Uhr
📈 183.83 Punkte
🔧 Programmierung

🔧 95. Fine-Tuning LLMs: Make a General Model Do Your Specific Job

🕛 63 Tage, 16 Stunden 19 Minuten
📆 23.05.2026 um 15:30 Uhr
📈 168.78 Punkte
🔧 Programmierung

🔧 Running Hugging Face Inference with Kiro: From Prompt to Working Summarizer

🕛 19 Tage, 14 Stunden 25 Minuten
📆 06.07.2026 um 17:11 Uhr
📈 157.24 Punkte
🔧 Programmierung

🔧 Why Most Developer Startups Fail Before Launch: The Brutal Truths Nobody Tells You

🕛 188 Tage, 13 Stunden 40 Minuten
📆 18.01.2026 um 18:12 Uhr
📈 156.33 Punkte
🔧 Programmierung

🔧 Chat Templates can improve LM inferencing.

🕛 108 Tage, 16 Stunden 2 Minuten
📆 08.04.2026 um 15:44 Uhr
📈 154.39 Punkte
🔧 Programmierung

🔧 Chapter 3: The Tokenizer - Text to Numbers and Back

🕛 94 Tage, 9 Stunden 9 Minuten
📆 22.04.2026 um 22:44 Uhr
📈 154.39 Punkte
🔧 Programmierung

🔧 Fine-Tune Any HuggingFace Model like Gemma on TPUs with TorchAX

🕛 89 Tage, 21 Stunden 6 Minuten
📆 27.04.2026 um 10:45 Uhr
📈 154.39 Punkte
🔧 Programmierung

🔧 81. BERT: Understanding Language Deeply

🕛 71 Tage, 22 Stunden 49 Minuten
📆 15.05.2026 um 08:55 Uhr
📈 154.39 Punkte
🔧 Programmierung

🔧 🔥 Fine-Tuning Gemma 4 on Your Own Dataset: A Step-by-Step Guide

🕛 81 Tage, 14 Stunden 2 Minuten
📆 05.05.2026 um 17:39 Uhr
📈 145.52 Punkte
🔧 Programmierung

🔧 The Ghost in the Tokenizer: How Subword Tokenization Invisibly Shapes What Your Prompt 'Means' to the Model

🕛 154 Tage, 14 Stunden 54 Minuten
📆 21.02.2026 um 16:49 Uhr
📈 144.1 Punkte
🔧 Programmierung

🔧 Three Crashes and One Mystery: Deploying a Medical AI Model Offline for Four Nigerian Languages

🕛 6 Tage, 23 Stunden 19 Minuten
📆 19.07.2026 um 08:11 Uhr
📈 144.1 Punkte
🔧 Programmierung

🔧 What Is Turkish-Language AI? Tokenizers, Training Data, and Language Model Development

🕛 11 Tage, 7 Stunden 33 Minuten
📆 14.07.2026 um 23:46 Uhr
📈 143.41 Punkte
🔧 Programmierung

🔧 I benchmarked every Go SQL parser in 2026 and built my own

🕛 125 Tage, 23 Stunden 22 Minuten
📆 22.03.2026 um 08:14 Uhr
📈 136.65 Punkte
🔧 Programmierung

🔧 Fine-Tuning LLaMA in 5 Minutes with Unsloth - Unrivaled Speed & Simplicity

🕛 347 Tage, 10 Stunden 24 Minuten
📆 12.08.2025 um 20:55 Uhr
📈 135.23 Punkte
🔧 Programmierung

🔧 I Tried Vector Search on Molecules. Here Is What Actually Happened.

🕛 120 Tage, 21 Stunden 37 Minuten
📆 27.03.2026 um 10:07 Uhr
📈 135.23 Punkte
🔧 Programmierung

🔧 One Open Source Project a Day (No.51): VibeVoice - Microsoft's Speech AI That Processes 90 Minutes of Audio in a Single Pass

🕛 88 Tage, 3 Stunden 22 Minuten
📆 29.04.2026 um 04:32 Uhr
📈 135.23 Punkte
🔧 Programmierung

🔧 Apache Doris 4.0: One Engine for Analytics, Full-Text Search, and Vector Search

🕛 274 Tage, 11 Stunden 24 Minuten
📆 24.10.2025 um 20:28 Uhr
📈 133.81 Punkte
🔧 Programmierung

🔧 minbpe vs turboBPE: Two ways to think about tokenizer training

🕛 35 Tage, 21 Stunden 21 Minuten
📆 20.06.2026 um 10:35 Uhr
📈 133.81 Punkte
🔧 Programmierung

🔧 THE RECEIPT TRAIL: WHAT THEY CHARGE VS WHAT YOU ACTUALLY PAY

🕛 76 Tage, 7 Stunden 50 Minuten
📆 10.05.2026 um 23:47 Uhr
📈 129.03 Punkte
🔧 Programmierung

🔧 RLHF in 2026: when to pick PPO, DPO, or verifier-based RL

🕛 70 Tage, 20 Stunden 5 Minuten
📆 16.05.2026 um 11:37 Uhr
📈 127.6 Punkte
🔧 Programmierung

☑ Lösungen

☑ Betriebssysteme

☑ IT-Sicherheit

☑ Cyberbedrohungen

☑ Ressourcen

☑ Videos

☑ Sicherheitstipps

☑ Häufig gesucht

🔧 Building a Tokenizer from Scratch [part 2]

Sharing is caring on Social Media