Needleとは何か: Gemini 3.1を26Mパラメータに蒸留したシンプルアテンションネットワーク
**# Needle: Gemini 3.1を26Mパラメータに蒸留したシンプルアテンションネットワーク** ## 概要 **Needle**は、Cactus Computeが2026年にリリースした**26百万(26M)パラメータ**の小型言語モデルです。Googleの**Gemini 3.1**からツール呼び出し(function calling / tool use)能力を蒸留し、**Simple Attention Networks**という独自アーキテクチャを採用しています。 最大の特徴は、**Mac/PCでローカルに微調整(fine-tuning)可能**である点と、**Cactus**という推論エンジン上で**6000 tok/s prefill**、**1200 tok/s decode**という極めて高速な動作を実現することです。スマートフォン、スマートウォッチ、眼鏡などのエッジデバイス向けに設計された、シングルショット機能呼び出しに特化したモデルです。 MITライセンスで完全にオープンソース。WeightsはHugging Face(Cactus-Compute/needle)で公開されています。 ## 技術的背景とアーキテクチャ 従来のTransformerでは、パラメータの多く(約2/3)が**FFN(Feed-Forward Network / MLP)**に費やされます。しかしNeedleは**「FFNを完全に排除」**した**Simple Attention Networks**を採用しています。 ### 主な特徴 - **Encoder-Decoder構造**:Encoder 12層 + Decoder 8層 - **d_model=512**、**8H/4KV (GQA)**、**RoPE**、**vocab=8192 (BPE)** - **ZCRMSNorm**(Zero-Centered RMSNorm)と**Gated Residual**を活用 - **Cross-Attention中心**:ツール定義とのアライメントに特化 - **Contrastive Tool Selection Head**(CLIP-style):大量のツールから関連ツールを事前選択 **なぜFFNを捨てたか**(公式ドキュメントより): - ツ...