cuda-optimization

Here are 5 public repositories matching this topic...

Cre4T3Tiv3 / jetson-orin-matmul-analysis

CUDA matrix multiplication benchmarking on Jetson Orin Nano. Four implementations, three power modes, five matrix sizes. 99.5% mathematical validation. C++/CUDA and Python.

Updated Apr 2, 2026
Python

KrishChordiya / nano-llama

Star

A 110M-parameter Llama-style transformer trained from scratch on the TinyStories dataset, optimized for high-throughput training on 4GB VRAM consumer GPUs. The project features a custom asynchronous CUDA-stream prefetcher and KV-cache inference, achieving 10k+ TPS on an RTX 3050.

nlp deep-learning transformers pytorch llama efficient-training tinystories cuda-optimization llama-from-scratch

Updated Apr 8, 2026
Python

ZrobMiloudaa / jetson-orin-matmul-analysis

Star

🔍 Analyze CUDA matrix multiplication performance and power consumption on NVIDIA Jetson Orin Nano across multiple implementations and settings.

machine-learning robotics cuda cublas matrix-multiplication high-performance-computing gpu-computing performance-optimization autonomous-systems edge-computing nvidia-jetson embeded-systems tensor-cores ml-deployment jetson-orin-nano gpu-benchmarking power-efficiency-benchmark cuda-optimization

Updated Apr 9, 2026
Python

torajharsh / aether-scale

Star

High-performance matrix engine for Unit-Domain Flow (UDF). Eliminates Mantissa Friction with 0.00 MSE integrity.

Updated Feb 17, 2026
Python

ShettyShreyasR / rag-observability-pro

Star

Hardened RAG pipeline with Llama 3.2 (3B) & Arize Phoenix. Features 4-bit Unsloth optimization, OpenTelemetry auditing, and a KV-cache stability patch for T4 GPUs. P99 Latency: 19.2s.

ai-safety opentelemetry unsloth llama-3-2 cuda-optimization rag-observability

Updated Mar 31, 2026
Python

Improve this page

Add a description, image, and links to the cuda-optimization topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the cuda-optimization topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

cuda-optimization

Here are 5 public repositories matching this topic...

Cre4T3Tiv3 / jetson-orin-matmul-analysis

KrishChordiya / nano-llama

ZrobMiloudaa / jetson-orin-matmul-analysis

torajharsh / aether-scale

ShettyShreyasR / rag-observability-pro

Improve this page

Add this topic to your repo