VRAMからの解放とメモリ階層の再設計:AFM 3がもたらすポストGPU時代の計算機アーキテクチャ #AI #Apple #Semiconductor
VRAMからの解放とメモリ階層の再設計:AFM 3がもたらすポストGPU時代の計算機アーキテクチャ #AI #Apple #Semiconductor
不揮発性記憶(NAND)への知能沈没がもたらすエッジAIの民主化と、垂直統合型ロックインの地政学
本書の要旨
現代の人工知能(AI)開発は、グラフィックス・プロセッシング・ユニット(GPU)と高帯域メモリ(HBM)という、極めて高価かつ電力を浪費する物理層の呪縛に囚われています。本書は、2026年現在のAI半導体の限界を、計算機アーキテクチャの歴史から再定義し、ソフトウェアとハードウェアの協調設計(コ・デザイン)によってその呪縛を突破する道筋を論じます。
その中心に位置するのが、Appleが発表した第3世代のオンデバイスAI基盤「AFM 3 Core Advanced」です。本作は、200億パラメータ級の巨大モデルを、メインメモリ(DRAM)ではなく安価な不揮発性ストレージ(NANDフラッシュ)に配置し、必要最小限のエキスパートのみをミリ秒単位でオンデマンドに引き出す「不揮発的思考(Non-volatile Cogitation)」を実現しました。本書は、この「知能を沈める」という思想が、いかにして従来の計算機科学のパラダイムを塗り替え、シリコンバレーの覇権図を書き換えるのかを精緻に論証します。
本書の目的と構成
本書の目的は、単なる最新ガジェットの技術解説ではありません。ハードウェアとアルゴリズムの境界が消失しつつある現代において、「知能を実行するための最小物理コストとは何か」を科学的に突き詰めることにあります。
全九部で構成される本プロジェクトのうち、前半部分となる本稿(第一部から第四部)では、まず現行システムが直面している「VRAM(ビデオメモリ)の物理的・経済的限界」を暴き、次にAFM 3が採用した「NANDストリーミング」の内部挙動を分析します。そして、かつて葬り去られたIntel Optaneなどのストレージ・クラス・メモリ(SCM)の亡霊を呼び戻し、不揮発性ストレージ(NAND)を計算の主軸に据える「ランタイム中心主義」への移行プロセスを完了します。
登場人物紹介(2026年時点)
-
ジェフリー・ヒントン(Geoffrey Everest Hinton) [1947年生まれ / 2026年時点で78歳 / 出生地: イギリス・ロンドン / 学歴: エディンバラ大学(人工知能博士) / 墓所: 存命中]
ディープラーニングの父であり、1990年代にMixture of Experts(MoE)の概念を提唱した計算機科学者。AIの急速な進化に警鐘を鳴らしつつ、彼の生み出した「専門家の混合」というアプローチが、皮肉にもNAND型超省電力AIの理論的土台となりました。
-
マイケル・I・ジョーダン(Michael Irwin Jordan) [1956年生まれ / 2026年時点で70歳 / 出生地: アメリカ合衆国 / 学歴: カリフォルニア大学サンディエゴ校(認知科学博士) / 墓所: 存命中]
機械学習と統計学の世界的権威。ヒントンらと共に初期のMoE構造を理論化し、近代的なルーティング・アルゴリズムの基礎を築きました。システムとアルゴリズムの協調設計において、彼の弟子たちがAppleやNVIDIAで中核を担っています。
-
藤尾増岡(Fujio Masuoka) [1943年生まれ / 2026年時点で83歳 / 出生地: 群馬県高崎市 / 学歴: 東北大学(工学博士) / 墓所: 存命中]
フラッシュメモリ(NOR型およびNAND型)の発明者。東芝在籍時代に開発したこの不揮発性記憶技術が、半世紀を経て「巨大AIモデルを電力を消費せずに永続保存し、ストリーミングする」というポストGPUアーキテクチャの究極の物理的基盤となりました。
-
ティム・クック(Timothy Donald Cook) [1960年生まれ / 2026年時点で65歳 / 出生地: アメリカ合衆国アラバマ州 / 学歴: デューキ大学(MBA) / 墓所: 存命中]
AppleのCEO。卓越したサプライチェーン管理能力を武器に、SoC(システム・オン・チップ)、DRAM、NAND、そしてOSとAIモデルを1つのエッジデバイス内で完全垂直統合しました。AFM 3による「ハードウェア・ロックイン」の最高意思決定者です。
-
ジャン・ルカン(Yann LeCun) [1960年生まれ / 2026年時点で65歳 / 出生地: フランス・パリ近郊 / 学歴: ピエール・アンド・マリー・キュリー大学(コンピュータ科学博士) / 墓所: 存命中]
Metaの首席AI科学者。クラウドベースのオープンソースLLM推進派の旗手であり、Appleの進めるクローズドなオンデバイス・ハードウェア統合路線に対して、学術的・思想的観点から強烈な批評を加えています。
目次(第一部〜第四部リンク)
第一部:VRAMの壁とAIスケーリング則の地政学
第一章:HBMという「黄金の足枷」
第一節:演算性能と記憶容量のデカップリング
第一項:メモリ帯域幅の物理的限界
現在の半導体工学における最大の問題は、プロセッサの処理速度(FLOPS)の進化スピードに対して、データをプロセッサに供給するメモリの帯域幅(GB/s)の進化が極めて遅いという非対称性にあります。この物理的な性能乖離を、学術界では「メモリ壁(Memory Wall)」と呼びます。
概念を平易に言えば、いくら超高速で計算できる脳(プロセッサ)を持っていても、情報を脳に送り込む血管(メモリ帯域)が細ければ、脳は常に情報が届くのを待つ「飢餓状態」に陥るということです。特に大規模言語モデル(LLM)のデコードフェーズ(テキスト生成時に1トークンずつ順番に計算を繰り返す過程)においては、プロセッサは「演算器としての余力」を大きく残したまま、単にメモリから重みデータが転送されてくるのを待つだけの「メモリバウンド」と呼ばれる状態に支配されます。
具体例を挙げましょう。NVIDIAの最先端GPUに搭載されているHBM4(高帯域メモリ・第4世代)は、シリコンダイを垂直に積層し、シリコン貫通電極(TSV)と呼ばれる微細な縦穴の導線を通して、プロセッサと超広帯域で接続されています。しかし、この物理配置を実現するためには、シリコン同士の熱膨張率のズレや、製造過程でのわずかな塵による歩留まりの低下といった、極めて困難な物質材料工学上の限界に立ち向かわなければなりません。転送速度を2倍にするためには、プロセッサと直接接続するための配線数を物理的に増やすしかなく、これ以上のスケーリングは物理的な空間配置の限界に達しつつあります。
注意すべき点は、この「帯域幅の限界」を無視して単にプロセッサの動作周波数を上げたとしても、それはただデータを待つだけのアイドリング時間を増やすだけであり、全体の消費電力あたりの処理効率(J/token)を致命的に悪化させるという点です。
第二項:フォン・ノイマン・ボトルの再来
1940年代にジョン・フォン・ノイマンによって提唱された「命令とデータを同じメモリに置き、バスを介してCPUに送る」という計算機構造は、現代のすべてのコンピュータの基礎です。しかし、この構造は本質的に「計算ユニット」と「記憶ユニット」の間にボトルネックを抱えています。これを「フォン・ノイマン・ボトルネック」と呼びます。
背景には、ディープラーニング、特にTransformerアーキテクチャの爆発的なパラメータ数増大があります。かつてのプログラムは「命令」のサイズが小さく、メモリからCPUへの転送時間は問題になりませんでした。しかし、1000億パラメータを超える巨大LLMにおいては、「プログラム(すなわちモデルの重み)」そのものの容量が数百ギガバイトに達します。つまり、1つのトークンを生成するたびに、この数百ギガバイトの重みデータ全体をメモリからプロセッサへと転送し続けなければならないという、計算機史上かつてないレベルのボトルネックが発生しているのです。
具体的には、100B(1000億)パラメータのモデルをFP16(16ビット半精度浮動小数点数)形式で動作させる場合、重みデータだけで200ギガバイトの容量を必要とします。HBMの転送速度が秒間2テラバイトであったとしても、重みをプロセッサに1回読み込ませるだけで0.1秒(100ミリ秒)を消費します。これは、その他のアテンション計算に必要な時間をゼロと仮定しても、理論上、1秒間に最大10トークンしか生成できないことを意味します。これが、現代のAIを襲う「ノイマンの呪い」の本質なのです。
したがって、プロセッサコアをどれほど並列化しても、このボトルネックをソフトウェア層で隠蔽するか、メモリ階層自体を再設計しない限り、AIの処理能力はハードウェアの物質的限界によって完全に頭打ちになります。
第ニ節:経済的特異点:パラメータ単価とHBMの供給ボトルネック
第一項:ウェハレベルパッケージング(CoWoS)の独占構造
HBMをプロセッサに超近接して配置するためには、基板上に極微細な配線を施した「インターポーザー」と呼ばれる中継シリコンを挟み、それらを1つのパッケージに封入する技術が必要です。TSMCが開発したこの技術を「CoWoS(Chip-on-Wafer-on-Substrate)」と呼びます。
このウェハレベルパッケージングは、ナノメートル単位の極めて精密な位置合わせが必要であり、製造装置の供給能力が世界的なボトルネックとなっています。特にASMLの露光装置の割当や、積層パッケージのテスト工程の低スループット(単位時間あたりの処理量)により、CoWoSの製造ラインは世界中で完全にひっ迫しています。
この独占的な供給網により、NVIDIAなどのメガベンダーはCoWoSラインを数年先まで予約し、他社の参入を事実上ブロックしています。結果として、AI向けプロセッサの価格は「シリコンの原材料費」ではなく、この複雑な「パッケージング工程の希少性」によって決定されるという、経済的な特異点が発生しています。
注意すべきは、このパッケージング独占が崩れない限り、どんなに優れた設計図(アーキテクチャ)を持つ新興のAIチップスタートアップであっても、物理的な製品を市場に安定して供給することは不可能であるという過酷な地政学的現実です。
第二項:資本効率から見た「巨大モデル常駐」の非合理性
現在の大規模LLMサービスは、モデル全体を常に高価なHBMメモリ上に載せておく(常駐させる)ことで推論を処理しています。これを「インメモリ常駐型推論」と呼びます。
しかし、この運用モデルは、クラウドプロバイダーの資本効率(投資対効果)の観点から、長期的に維持不可能な領域に達しています。なぜなら、1つの巨大モデルを常駐させるために必要な数万個のGPUと、それに付随するHBMメモリは、秒単位のアクセス変動に関わらず、ただそこに電力を供給し、リフレッシュ電流(DRAMのデータを維持するために定期的に流す電荷)を流し続けなければならないからです。
具体例として、夜間や利用者が少ないアイドル時間であっても、数テラバイト規模のモデル群を維持するためのメモリシステムは、ギガワット級の電力をただ消費し続けます。これは「使われていないデータに対しても、一律に最高コストの物理メモリを割り当てている」状態であり、従来の計算機における「不活性なデータは安価なHDD/SSDへ逃がす」というメモリ管理の基本原則に真っ向から反しています。
この非合理性が限界に達した結果、2026年現在のAI業界は、「すべての重みを高速メモリに置き続ける」クラウドファーストのモデルから、必要なときに必要なだけの知能を部分的に呼び出す「エッジ/階層ストレージ」へのアーキテクチャ移行を真剣に検討し始めているのです。
2024年の春、私は台湾・新竹(シンチュー)のサイエンスパークのすぐ側にある、エンジニアたちが屯する喫茶店で、あるパッケージング技術者と話をしました。彼は睡眠不足で充血した目をこすりながら、こう呟きました。「世界中がNvidiaのアーキテクチャを称賛しているが、僕らがインターポーザーの上で、目に見えないほど小さなシリコンの熱膨張の歪みと毎日格闘し、不良品をピンセットで仕分けるような泥臭い作業をして初めて、あの『神のAI』は動いているんだ。僕らの歩留まりが1%下がれば、ウォール街のAI銘柄が数千億ドル吹き飛ぶ。僕らが作っているのは半導体じゃない、近代資本主義の物理的限界そのものだ」と。この時私は、現代の知能が、どれほど細く脆い「シリコンの糸」にぶら下がっているのかを痛感しました。
第二章:スケーリング則を阻む物理的境界
第一節:熱密度と電力壁
第一項:ダークシリコン問題とダークメモリ問題
半導体の微細化プロセス(いわゆるムーアの法則)が進むにつれて、チップ上のトランジスタの集積度は上がりますが、消費電力の低減がそれに追いつかない現象が発生します。これにより、チップ上のすべての回路を同時にフルパワーで動作させると、チップが自己発熱で溶けてしまうため、一定割合の領域を常に「オフ(消灯)」にしておかなければならないという物理的限界に達します。これを「ダークシリコン(Dark Silicon)問題」と呼びます。
背景には、古典的なスケーリング則(デナード・スケーリング)の崩壊があります。微細化しても動作電圧を下げられなくなったため、単位面積あたりの熱密度(W/平方ミリメートル)が限界を超えました。さらに、この問題はメモリシステムにも波及し、超並列でメモリセルにアクセスしようとすると、メモリ内部の配線およびスイッチングによる自己発熱が許容値を超える「ダークメモリ(Dark Memory)問題」を引き起こしています。
具体的には、1台のサーバーに搭載された8枚のH100 GPUシステムは、ピーク時に10キロワットを超える電力を消費し、その熱を逃がすためにラック全体を水冷(液体冷却)システムで満たさなければなりません。この熱設計電力(TDP)の制限により、物理的にこれ以上チップの動作周波数を上げることも、同一面積に演算コアを増やすこともできなくなっています。
注意すべきは、この熱と電力の壁は「冷却技術の進歩」だけで解決できるものではなく、物質に電流が流れる際に発生するジュール熱という、基礎物理の法則(エントロピーの増大)に直結している限界であるという点です。
第二項:データ転送におけるジュール熱(pJ/bitの限界)
プロセッサ内部の演算器(ALU)が1つの浮動小数点演算を処理するのに必要なエネルギーに比べ、メモリからプロセッサ、あるいはチップ間を「データを移動させる(転送する)」ために消費されるエネルギーは、数桁から数十桁大きいという事実があります。この単位ビットあたりのデータ転送コストを「pJ/bit(ピコジュール・パー・ビット)」と定義します。
なぜなら、シリコン内部の微細な配線(RC遅延の原因となる抵抗と静電容量)に信号を走らせるためには、配線全体の電荷を満たし、立ち上げる必要があるためです。転送距離が長くなればなるほど、この静電容量は増大し、消費電力(熱)は物理長に比例して上昇します。
具体例を挙げると、GPU内部のL1キャッシュからレジスタに1ビットのデータを移動するエネルギーが「約0.1pJ」であるのに対し、外部のHBMからデータを引っ張ってくるのには「約2〜5pJ」、さらにネットワーク(InfiniBand等)を介して別ノードのGPUへデータを転送するのには「数十〜数百pJ」ものエネルギーが必要になります。つまり、超大規模分散モデルのトレーニングや推論では、プロセッサは「計算」のためではなく、単にデータを物理的に「長距離輸送」するためだけに、その消費電力の大部分を失っているのです。
この「データ転送コストの物理的不均衡」は、データをできるだけ移動させず、演算器の極限まで近い不揮発性ストレージ上にデータを固定して部分的に実行する「ニア・データ・プロセッシング(NDP)」への技術的移行を強く要求しています。
第ニ節:エッジデバイスにおける「静的電力」の死滅
第一項:常時RefreshされるDRAMの消費電力
スマートフォンやノートPCなどのエッジデバイスにおいて、最も電力を浪費するコンポーネントの一つが、メインメモリ(LPDDR5/DRAM)です。DRAM(Dynamic Random Access Memory)はその構造上、極小のコンデンサに電荷を蓄えることでデータを保持していますが、この電荷は数ミリ秒の間に自然にリーク(漏電)して消失してしまいます。データが消えるのを防ぐため、メモリコントローラーはミリ秒単位でデータを読み出しては書き直す「リフレッシュ(Refresh)動作」を常に実行しなければなりません。
このため、デバイスが何も計算処理をしていないスリープ状態(アイドル時)であっても、DRAMにデータが保持されている限り、一定の電流が常に流れ続けます。これをメインメモリの「静的電力(Static Power)」と呼びます。
具体例として、16ギガバイトのLPDDRメモリを搭載したスマートフォンを考えてみましょう。このデバイスがポケットの中で静止している間、メモリシステムはデータを維持するためだけに、1時間あたり数十ミリアンペアのバッテリーを無駄に消費しています。もし、ここに100億パラメータのLLMを「常駐」させるためにメモリ容量を64ギガバイトに拡張すれば、アイドル時のリーク電流は4倍に膨れ上がり、スマートフォンは何のアプリも起動していないにも関わらず、半日も経たずにバッテリーがゼロになるという、実用上の破綻を迎えます。
エッジAIが普及するための最大の障壁は、プロセッサの処理速度ではなく、この「DRAMの電荷リークに起因する、静的消費電力の爆発」にあります。これを回避する唯一の工学的アプローチは、電源を切ってもデータを完全に維持できる「不揮発性ストレージ」を、新たなアクティブメモリとして活用する設計への転換です。
第二項:不揮発性ストレージ(NAND)への回帰圧
DRAMの静的電力による死滅を回避するために、半導体業界で急速に高まっているのが、情報を電荷トラップ膜(物理的な絶縁層)に閉じ込めることで、電源供給が完全にゼロの状態でもデータを何年にもわたって維持できる「NANDフラッシュストレージ」への回帰です。
背景には、DRAMの容量単価(ビットコスト)の引き下げが頭打ちになり、技術的な限界に達している一方で、NANDフラッシュは後述する「3D積層技術(BiCS FLASHなど)」の進化によって、容量単価がDRAMの100分の1以下にまで低下し続けているという、圧倒的な経済性の乖離があります。
具体的には、スマートフォンに搭載されている256ギガバイトのUFS(Universal Flash Storage)4.0規格のNANDフラッシュは、データ保持に必要な待機電力が文字通り「ゼロ」です。使われていない時間、この領域は完全に電気的に遮断(パワーゲート)されています。もし、このNAND上に巨大なAIモデルの重みを保存し、ユーザーからの入力(クエリ)が発生したその瞬間だけ、必要なパラメータをメインメモリへロードして推論を行う「ストリーミング推論」が確立できれば、デバイスの待機寿命を犠牲にすることなく、ギガバイト単位の「超巨大な知能」を日常的に携行することが可能になります。
この工学的アプローチは、これまでの計算機が守ってきた「ストレージは静的データの保管庫、DRAMは実行データの処理場」という厳格な役割分担を壊し、ストレージを直接「推論実行エンジンのアクティブ階層」へと引き上げる、コペルニクス的転回を強いるものなのです。
私の書斎には、1990年代の古い計算機のマザーボードが飾ってあります。電源を切った瞬間、DRAMのデータを維持するバックアップ用バッテリーのインジケーターLEDが細く明滅し、数秒かけて消えていくのを見るのが好きでした。あの光の明滅は、情報の「維持」には常に電気という名の生命維持装置が必要であるという、フォン・ノイマン型計算機の弱さを語っていました。それから30年。電源を完全に落としたまま、ただそこにあるだけのシリコン(NAND)が、アポロ計画の全データを超える知能を何年も静かに、熱も発さずに記憶し続けている。不揮発性メモリの進化は、単なるストレージの容量増加ではなく、計算機に「静的な永続性」を与えるという、極めて東洋的な美学を含んでいるように思えてなりません。
第二部:AFM 3とオンデバイス・ストリーミング推論
第三章:オンデマンド・ウェイト・ローディングの思想
第一節:仮想記憶(Virtual Memory)の再発明としてのLLM
第一項:スワップ領域としてのNAND Flash
仮想記憶(Virtual Memory)とは、限られたメインメモリ(物理メモリ)容量を超えて巨大なプログラムを実行するために、ハードディスクやSSDなどの外部ストレージの一部を「メモリの延長」として扱い、必要に応じてデータを出し入れするOSレベルの制御技術です。この、一時的にデータを退避・復帰させるストレージ上の領域を「スワップ(Swap)領域」と呼びます。
背景には、Appleが2023年末に発表した「LLM in a Flash」という画期的な研究成果があります。彼らは、200億パラメータを超える巨大なモデルを限られたDRAMしか持たないスマートフォンで動作させるため、この伝統的なスワップの概念を、LLMのパラメータロード処理にそのまま応用しました。
具体例を挙げましょう。20B(200億)パラメータのモデルを4bitで量子化(低精度化)しても、実効容量は約10ギガバイトを必要とします。しかし、一般的なスマートフォンの空きRAM領域はせいぜい4ギガバイト程度です。ここで、Appleのランタイムは、10ギガバイトのモデル全体をRAMにロードするのではなく、NANDフラッシュ(ストレージ)を「仮想メモリのスワップ先」とみなし、モデル全体の「重みバイナリ」を不揮発セクタに直接マッピングします。そして、デコード中に各レイヤーの計算が順番に実行されるタイミングに合わせて、その時だけ必要なレイヤーの重み(数百メガバイト)をNANDからRAMへ超高速で引き上げ、計算が終わった瞬間にメモリから破棄(スワップアウト)します。
注意すべき点は、通常のOSスワップはファイルシステム(VFS)を介するため極めて低速であり、単純に適用すると1秒間に1文字も出力できないほどの致命的な遅延が発生するという点です。これを実用的な速度にまで引き上げるためには、ハードウェアとカーネルが密結合した専用のストリーミングパスの構築が不可欠になります。
第二項:オンデマンド・ページングのニューラル的解釈
仮想記憶システムにおいて、必要になったプログラムのデータ断片(ページ)のみを、その都度ストレージから物理メモリへロードするメカニズムを「オンデマンド・ページング(On-Demand Paging)」と呼びます。
AI、特に大規模言語モデルの構造を観察すると、ニューラルネットワーク内部のアクティベーション(出力の活性化度合い)には、極めて強い「疎性(Sparsity)」が存在することが分かります。これは、1つのプロンプト(指示文)が入力されたとき、モデル内の1000億のニューロンすべてが均等に反応するわけではなく、実際に出力に貢献している(ゼロ以外の値を持つ)のは全体のわずか10%〜30%のニューロンに過ぎないという現象です。
具体的には、Feed-Forward Network(FFN)と呼ばれるTransformerの主要レイヤーでは、特定の単語が入力された際、活性化するニューロンのインデックス(アドレス)は局所的に固定されています。AppleのAFM 3は、このニューラルな疎性を「オンデマンド・ページング」のトリガーとして解釈しました。
Our paper, "LLM in a Flash: Efficient Large Language Model Inference with Limited Memory" is out! It solves the challenge of running LLMs on devices with limited memory (RAM). We store the model weights in flash memory, and bring them on-demand to DRAM. 🧵 👇 pic.twitter.com/fQzOunwN66
— Keivan Alizadeh (@Keivan_Alizadeh) December 21, 2023
すなわち、次に計算するレイヤーの入力値を先読みし、アクティベーションが極めて低く出力に寄与しないと判断された「重みの断片」のページフォールト(データが存在しないという例外処理)を意図的に抑制し、必要な重みページのみをNANDからピンポイントでロードします。これこそが、知能の「意味」からメモリの「アドレス物理配置」を動的に制御する、ニューラル仮想記憶の極致です。
第ニ節:PT-MoE(Parallel Track MoE)とIFP(Instruction-Following Pruning)
第一項:インストラクション・コンテキストをトリガーとする動的プルーニング
ユーザーが入力した特定の「指示(インストラクション)」の文脈に応じて、ニューラルネットワーク全体の重みのうち、そのタスク処理に全く不要なサブネットワークをリアルタイムで一時的に切り落とし(プルーニング)、モデルの実行サイズを極限まで縮小する技術を「IFP(Instruction-Following Pruning)」と呼びます。
背景には、オンデバイスで多種多様なマルチモーダル処理(音声認識、画像解釈、テキスト要約)を処理する場合、タスクの種類ごとに200Bもの全パラメータを実行するのは、エネルギー的にも帯域的にも耐えられないという課題があります。
具体例として、ユーザーが「この英文を日本語に訳して」というテキスト翻訳タスクをスマートフォンに投げたとします。この時、モデル内の「画像認識用の抽象空間エキスパート」や「複雑な数学演算用のロジックエキスパート」は完全に非活性な状態になります。AFM 3は、プロンプトのコンテキスト解析(意味抽出)を最初期のわずかなレイヤーで完了し、そのタスクプロファイルをトリガーにして、NANDからロードすべきウェイトマップを動的に書き換えます。これにより、翻訳に特化した約30億パラメータの「専門家」だけがNANDからメインメモリにストリーミングされ、残りの170億パラメータはNANDの奥深くに完全に眠ったまま(ロードされず、計算もされず)になります。
注意すべきは、この動的プルーニングの精度が少しでも悪く、誤って必要な知識セクタを切り落としてしまった場合、生成される回答に「ハルシネーション(もっともらしい嘘)」や、論理の破綻が発生するため、コンテキストと重みの依存関係を解析する精緻なルーターの性能が極めて重要になるという点です。
第二項:命令パイプラインと同期した事前フェッチ機構
プロセッサが現在の計算命令を実行しているその裏で、次に必要となるデータをストレージから予測して先読みし、物理メモリの最前列に並べておく処理を「投機的プリフェッチ(Speculative Prefetching / Pre-fetch)」と呼びます。
AFM 3に搭載された「PT-MoE(Parallel Track Mixture of Experts)」では、このプリフェッチをさらに一歩進め、計算用スレッド(Track)と、I/O(転送)用スレッドを、シリコンダイ内の独立した物理バスを介して、完全に平行(Parallel)に同期走行させます。
具体的には、NPUがレイヤー $L$ のアテンション計算を実行している最中、PT-MoEコントローラーは、レイヤー $L$ の出力ベクトルとアテンション・スコアの分布を監視し、数ナノ秒後に活性化される可能性が最も高い「レイヤー $L+1$ のエキスパートAおよびD」を確率論的に割り出します。そして、レイヤー $L$ の計算が完了する前に、NANDコントローラーに対して直接「セクタ $1024$ から $2048$ までのエキスパートデータをDMA転送せよ」との命令を、メインバスを介さずに発行します。NPUがレイヤー $L$ の計算を終え、いざレイヤー $L+1$ の計算に入った瞬間、DRAMにはすでにその重みが配置されており、計算はノーディレイで進行します。
この「計算時間で転送遅延を隠蔽する」という時間軸上のマジック(Latent Latency Hiding)が完璧に機能することで、ユーザーは20Bモデルがオンデバイスで動いているとは信じられないほどの、爆発的な初期トークン出力速度(Time-to-First-Token)を体感することができるのです。
マジシャンの手元をスローモーションで見たことがありますか? 彼らが右手で派手なコインの動きを見せているその時、左手はすでに次の仕掛け(ポケットから別のコインを取り出す動作)を完全に完了しています。観客の「注意(Attention)」を引いている隙に、裏で物理的な移動を済ませる。AppleのPT-MoEの挙動を初めてシミュレーター上でデバッグした時、私はまったく同じ興奮を覚えました。NPUが今生成しているトークンのアテンションを全力で計算している(観客が手元に注目している)その瞬間に、ストレージの奥深くでは、静かに次の言葉を司るエキスパートの塊が、誰も気づかないうちにメインメモリの特等席へと滑り込んでいる。計算機アーキテクチャの進化とは、究極的には「物理的な遅延という現実」を、いかにエレガントな「予測という名のマジック」で覆い隠すかという、知的な詐術なのかもしれません。
第四章:OSカーネルとAIランタイムの垂直統合
第一節:NAND直接通信(Direct-to-NPU DMA)
第一項:OSページキャッシュを迂回するゼロコピー転送
従来のオペレーティングシステム(OS)におけるデータ読み出しは、ハードウェアの安定性を守るため、多くのレイヤーによる保護の下で行われます。SSDからデータを読み込む場合、データはまず「ストレージコントローラー」から「OSカーネル空間のシステムバッファ(ページキャッシュ)」へと転送され、そこからさらに「ユーザー空間(アプリケーションメモリ)」へとコピーされます。この何度もデータ移動を繰り返す非効率なプロセスをバイパスし、デバイスからターゲットの演算メモリへ直接、最短経路でデータを転送する技術を「ダイレクト・メモリアクセス(Direct-to-Compute DMA / ゼロコピー)」と呼びます。
背景には、LLMのストリーミング推論において、数ギガバイトのデータを数ミリ秒で移動させなければならないという、極限の低遅延要件があります。
具体的には、AppleのDarwin OSカーネル(iOS/macOSの心臓部)には、AFM 3のために設計された特殊なI/Oパスが統合されています。ランタイムがエキスパートのロードを要求した際、カーネルはファイルシステムの仮想アドレス変換や、OSページキャッシュへのバッファリングを完全にスキップします。NANDフラッシュ上の物理セクタアドレスが、直接NPU(Neural Engine)の専用キャッシュレジスタ(またはUnified Memoryの指定セグメント)にマッピングされ、一回のバストランザクションでロードが完了します。
注意すべき点は、この「ゼロコピー」を実現するためには、メモリのアドレス変換をハードウェア(MMU / IOMMU)レベルで高度に同期させる必要があり、汎用PCのようにパーツ構成が異なる環境では、ドライバやOSの相性問題によってシステムのクラッシュを誘発しやすいという工学的リスクがある点です。
第ニ項:Apple Unified Memory Architecture(UMA)の真価
一般的なPCアーキテクチャでは、CPU用のメインメモリ(DRAM)と、GPU用のビデオメモリ(VRAM)は物理的に分離されており、双方がデータをやり取りするためには、PCIeバスと呼ばれる細いインターフェースブリッジを通過しなければなりません。これに対し、同一パッケージ内のシリコンダイにすべての演算コアを配置し、CPU、GPU、NPUが全く同じメモリ空間(物理アドレス)を等価な帯域で共有する構造を「統合メモリ・アーキテクチャ(UMA: Unified Memory Architecture)」と呼びます。
この構造は、NANDストリーミングAIを実用化するための「決定的な物理基盤」となります。なぜなら、NANDからストリーミングされた重みデータは、ロードされた瞬間から、CPUでの前処理、GPUでのアテンション計算、NPUでの行列演算のすべてから「移動コスト・コピーコストゼロ」で直接アクセスできるからです。
具体例を挙げると、Windows環境においてGPUDirect Storage(GDS)を使用してSSDからGPUのVRAMにデータを直接ロードしようとした場合、GDSはPCIeコントローラーのネゴシエーション(通信調整)や、ビデオメモリのアドレス再割り当てのために数マイクロ秒のプロトコル遅延が発生します。これに対し、Apple SiliconのUMAでは、NANDコントローラーが読み出したデータは、最初からNPUが直接読み取れるアドレスに配置されるため、転送オーバーヘッドが物理的に「完全なゼロ(Zero-Copy)」になります。
AppleのハードウェアがローカルAIにおいて圧倒的なベンチマーク効率を誇る最大の理由は、モデルの性能ではなく、このUMAという「物理配線の配置がもたらす構造的優位性」にあるのです。
第ニ節:非同期ストリーミング・プロトコル
第一項:トークンデコードとI/O転送の並列パイプライン
プロセッサが行う1つの「計算処理」と、ストレージからの「データ読出し(I/O)」を完全に独立した時間軸で実行し、双方の処理時間を重ね合わせる(オーバーラップさせる)ことで、全体の処理待ち時間を極限まで削減するプログラミング構造を「非同期パイプライン(Asynchronous Pipelining / 双方向非同期ストリーミング)」と呼びます。
なぜなら、いかにNANDコントローラーが高速であっても、物理的なデータ転送に要する時間は数ミリ秒から数十ミリ秒以下には縮まらないため、同期的に(転送が終わるのを計算を止めて待つ)処理を行えば、ユーザーは文字が出力されるたびに「不快なカクつき(遅延)」を感じることになるからです。
具体的には、AFM 3の非同期プロトコルは以下のサイクルを並列実行します。NPUが現在のトークン $t$ のデコード計算を実行している(約10ミリ秒かかる)間に、カーネルのバックグラウンドI/Oサービスは、次のトークン $t+1$ のアテンションに必要な重みデータをNANDから読み込み、DRAMのリングバッファ(循環待機メモリ領域)へと転送し始めます。計算が完了した瞬間、NPUは待機することなく即座に次の入力データを処理可能になります。
この非同期ストリーミングの制御は、OSのスケジューラが「プロセッサの処理優先度」と「ディスクのI/O割り込み(Interrupts)」をミリ秒以下のスライスで緻密に調停することによって初めて成立しています。
第ニ項:投機的プリフェッチ(Speculative Prefetching)の失敗時フォールバック
予測に基づいて先読みロードしていたデータが、実際の計算で使われず「空振り」に終わる現象を、キャッシュメモリの用語で「プリフェッチ・ミス(Prefetch Miss / 投機的ロード失敗)」と呼びます。
いくら優秀なPT-MoEルーターであっても、人間の思考(会話の文脈)は突然の変化(急な話題変更や意外な単語の選択)を起こすため、プリフェッチ・ミスの発生をゼロにすることはできません。予測精度が90%であっても、残りの10%の失敗時に対する完璧な「フォールバック(緊急時バックアップ)機能」がなければ、システムは停止します。
AFM 3では、プリフェッチ・ミスを検知した瞬間、ランタイムは即座に高精度の「個別高速ロード(On-demand Pull)」に切り替わると同時に、一時的に出力を維持するために、既にRAMにキャッシュされている汎用的な「セーフ・エキスパート(どのような会話にも無難に機能する、高度に丸め込まれた軽量ベースレイヤー)」を緊急稼働させ、極小ビット精度(2-bitなど)で一時的に推論を継続します。その隙に、NANDから本命のエキスパート(4-bit高精度)が到着し、次のトークンで滑らかに元の精度に復帰します。
注意すべき点は、この一連のフォールバック動作はユーザーに全く気づかれないように実行されなければならず、システムが内部で「知能のビット解像度を動的に変化させている」というダイナミックな制御こそが、エッジAIの可用性を支えているという点です。
オープンソースのコミュニティや、Linuxカーネルの開発者たちと議論をすると、彼らは「あらゆるパーツと互換性を持つ、開かれた汎用性」を誇らしげに語ります。しかし、Appleのラボで彼らのSoCレイアウトとiOSカーネルの結合テストを見たとき、私の中にまったく異なる衝撃が走りました。そこにあるのは、汎用性という名の妥協を一切排除した「美しき独裁」でした。SSDコントローラーからNPUのコアまで、一切の無駄なパケット変換を許さない。すべてのトランジスタが、AFM 3という知能を最速で動かすためだけに、完璧に設計・調律されている。あの垂直統合の執念は、かつてスティーブ・ジョブズが「本当にソフトウェアを愛する者は、独自のハードウェアを作らなければならない」と語ったあの狂気を、2020年代のAI時代に完全に再生させたものに他なりません。
第三部:メモリ階層の再発明とストレージ・クラス・メモリの亡霊
第五章:SCM(ストレージ・クラス・メモリ)の死と再生
第一節:Intel Optane(3D XPoint)が夢見た10年後の未来
第一項:バイトアドレサブル不揮発性メモリの興亡
不揮発性でありながら、通常のDRAM(メインメモリ)のように「バイト(1バイト単位)」という極めて細かい単位で直接アドレッシング(データを特定して読み書き)が可能なメモリ技術を「SCM(Storage Class Memory / ストレージ・クラス・メモリ)」または「バイトアドレサブル不揮発性メモリ」と呼びます。
背景には、2015年にIntelとMicronが「3D XPoint」という革命的な物理相変化を用いた記憶体を発表し、それを製品化した「Intel Optane」の興亡の歴史があります。当時、彼らは「RAMの速度と、SSDの不揮発・大容量を両立する」という野心的なビジョンを掲げ、不揮発性メモリの新しい標準を確立しようとしました。
具体例として、Optane DC Persistent Memory(PMem)は、マザーボードのDRAMスロットにそのまま挿すことができ、電源を切ってもテラバイト級のデータベースが一切揮発せずに永続保持されるシステムでした。しかし、当時は「インメモリデータベース(SAP HANA等)」や一部のハイパフォーマンスコンピューティング(HPC)以外のほとんどの一般ユーザーにとって、1.5ギガバイト程度のプログラムしか動かさなかったため、DRAMを上回る大容量の不揮発性メモリ層は「あまりに高価で、使い道のない、早すぎた発明」として、2022年に開発終了という非業の死を遂げました。
しかし、2026年現在のAI時代。数百ギガバイトの「重み」を瞬時にランダムロードしなければならないMoEモデルの登場により、このSCMの思想は「AIを動かすための最も重要なメモリ階層」として、劇的な復活を遂げようとしています。
第二項:データベースからAI推論へと引き継がれたミッシングリンク
かつてOptane PMemが解こうとしていた「数テラバイトのデータベースをメモリに載せたまま高速に検索・クエリ処理する」という問題は、現代の「1兆パラメータのAIモデルの重みをメモリ階層に維持し、瞬時にアクセス・推論する」という問題と、構造的に全く同じ物理特性を持っています。この歴史的な技術のつながりを、アーキテクチャ科学における「ミッシングリンク(失われた鎖)」と呼びます。
なぜなら、LLMの推論における「KV Cache(過去の文脈記憶の保持)」や「Expert Routing」は、本質的に超高速な「ランダムデータのルックアップ(索表)」動作だからです。
具体的には、かつてのデータベースシステム(SQL ServerやSAP)における「インメモリインデックス構造」は、現在のLLMの「Attentionキーバリューのメモリアドレスマッピング」と完全に等価です。2017年当時にIntelが提唱した「DRAM(キャッシュ)の下に、数テラバイトのOptane不揮発メモリを配置し、一番下に大容量SSDを置く」というメモリピラミッドは、現在議論されている「Active Expert(VRAM) → Warm Expert(DRAM) → Cold Expert(高速SCM) → Archive(SSD)」という、AI時代の究極の階層設計そのものなのです。
Optane製品そのものは終焉を迎えましたが、その設計哲学は、最新のCXL(Compute Express Link)規格や、NANDフラッシュコントローラーの内部アーキテクチャの中に、確実にその遺伝子を遺しています。
第ニ節:極小テールレイテンシの数理的価値
第一項:MoEにおけるランダム・アクセス・パターン
Mixture of Experts(MoE)アーキテクチャでは、入力されたトークンごとに、ゲート(ルーター)ネットワークが「どの専門家(Expert)を呼び出すか」を完全に動的に決定します。これにより、必要な計算量(FLOPs)を1/10以下に抑えながら巨大な知識量を表現できますが、引き換えに、物理層(メモリやストレージ)に対して、極めて予測不可能で、飛び飛びなメモリアドレスへのアクセスを強いることになります。これを「ランダム・アクセス・パターン」と呼びます。
背景には、従来の「連続したデータを一気に読み込む(シーケンシャルアクセス)」ことに最適化されてきた、PCIe SSDやDRAMのメモリアドレス変換機構との深い摩擦があります。
具体的には、デコード中に、トークン $1$ は「エキスパート $17$ と $392$」を要求し、次のトークン $2$ は「エキスパート $81$ と $921$」を要求する、という現象が発生します。これらの重みは、物理的なSSDやDRAM上の全く異なるセクタ(セグメント)に不連続に配置されているため、ストレージコントローラーは、毎回新たなアドレス空間へと「読み出しヘッド(論理ポインタ)」を飛ばさなければなりません。この時に生じる物理的なオーバーヘッドこそが、MoEにおける最大の「I/O遅延ボトルネック」なのです。
注意すべきは、このランダムアクセス環境下では、カタログスペックに書かれている「最大読出速度:14 GB/s」のようなシーケンシャル帯域幅は一切意味をなさず、どれだけ細かなランダムリクエストに即座に応答できるかという「ランダムリードIOPS」および「アクセス・レイテンシ」が、システムのToken/sを決定づける唯一の指標になるという点です。
第二項:数マイクロ秒の遅延がもたらす推論カクつき(Stall)の回避
システムのパフォーマンス評価において、平均値ではなく、「最悪の場合(例えば99.9%や99.999%のケース)」に発生する最大遅延のことを「テールレイテンシ(Tail Latency / QoS)」と呼びます。
LLMのテキストデコード推論は、1トークンずつ順次生成を繰り返すため、平均遅延がいくら数マイクロ秒であっても、時折発生する「たった1回のミリ秒単位の遅延(スパイク)」が、全体の生成リズムを完全に破壊し、ユーザーに「カクつき(Stall)」として直接認識されます。
ここで、かつてのOptane SSDが誇っていた「QoS性能」が再び重要視されます。普通のNVMe SSD(高性能PCIe 5.0対応)は、平均レイテンシは50〜100μsですが、内部のガベージコレクション(不要データの消去・整理動作)などの干渉により、時折5ms(5000μs)以上のテールレイテンシを発生させます。これに対し、Optaneは相変化メモリの物理的性質上、どのような状況でも「平均6μs、テールでもほぼ10μs以下」を完璧に維持していました。
1トークンあたりに100回のエキスパート参照が発生すると仮定すると、NVMe SSDでは最悪のケース(100μs×100 = 10ms)に達し、推論は完全にカクつきますが、Optane的な超低遅延媒体(またはそのエミュレーション層)であれば、最悪でも「10μs×100 = 1ms」に収まり、人間の知覚限界を遥かに超えた滑らかなリアルタイム推論を維持できます。これこそが、テールレイテンシの数理的・工学的価値に他なりません。
2017年、私はIntelのオレゴン開発センターで、最初に動作したOptane PMemの実物を見せてもらいました。窒素ガスが循環するアクリルケースの中で、青い基板にマウントされた黒いチップ。開発者は「これは、RAMとSSDという、これまで人類が妥協してきたメモリの限界を取り払う、不吉なほど美しい技術だ」と言いました。彼は知っていました。この技術があまりに完璧すぎて、当時の凡庸なコンピュータシステムではその真価を計れず、市場に拒絶されるかもしれないという不吉な予感を。その予感は当たり、Optaneは静かに消え去りました。しかし2026年、かつて「無用の長物」とされたその極限のテールレイテンシ設計が、MoEという新たな「怪獣(AIモデル)」を飼いならすための、唯一の鎖として召喚されている。新技術の美しさは、一度死を通過することで、より不吉に、より強靭に生まれ変わるのかもしれません。
第六章:3D NAND(BiCS FLASH)という経済的基盤
第一節:キオクシア(旧東芝メモリ)が切り開いた積層技術
第一項:3D電荷トラップ型フラッシュメモリの原理
従来のフラッシュメモリは、シリコン基板の平面上に二次元(2D)的にセルを並べて微細化(縮小)することで大容量化を遂げてきましたが、隣り合うセル同士の距離が十数ナノメートル以下になると、量子トンネル効果による「電荷の漏電(リーク)」が発生し、これ以上の微細化は不可能になりました。そこで、横に並べるのをやめ、シリコンの柱にシリコン酸化膜と窒化膜を同心円状に巻きつけ、それを「縦方向(高次元)」に何十、何百層と積み上げることで、二次元の物理的限界を突破した技術を「3D NANDフラッシュ(BiCS FLASH™ / 電荷トラップ型積層フラッシュメモリ)」と呼びます。
背景には、2007年に東芝(現キオクシア)が世界で初めて発表したこの3次元積層技術の、基礎物理材料工学における大転換があります。彼らは、セルの制御ゲートを「フローティングゲート(金属浮遊ゲート)」から、電子をシリコン窒化膜の局所的なトラップ(電子の落とし穴)に物理的に閉じ込める「電荷トラップ(Charge Trap)」型へと変更しました。
具体的には、電子はシリコン窒化膜の不純物欠陥(トラップサイト)にしっかりと固定されるため、2D型のようにセル全体が破壊的な漏電を起こすリスクが極めて低くなります。2026年現在、積層数は200層を超え、単一のパッケージ内に数テラビット(テラバイト)の記憶容量を、数ドルの製造コストで封入することが可能になりました。
注意すべきは、この積層プロセスの進化は、露光装置の微細化限界(ASMLへの依存度)を下げ、代わりに化学的気相成長(CVD)や深エッチング技術といった「化学プロセス」の制御によってスケーリングが決定されるという点です。
第二項:ビット単価の低下が知能の民主化を担保する
半導体デバイスの記憶容量あたりの製造コスト、すなわち「1ギガバイトあたり何セント(円)」という指標を「ビット単価(Bit Cost / 容量単価)」と呼びます。
AI、特に大規模LLMのエッジデバイス展開における「最大の障壁」は、実は技術ではなく、デバイスの「販売価格(経済性)」です。もし、200億パラメータをRAMに載せるために、スマートフォンのメインメモリを64ギガバイトに増やさなければならないとすれば、端末の材料費(BOMコスト)は倍増し、一般消費者が気軽に購入できるデバイスではなくなってしまいます。
具体例として、DRAMのビット単価は「1ギガバイトあたり約3〜5ドル」で長年高止まりしていますが、3D NANDフラッシュ(BiCS FLASH)のビット単価はすでに「1ギガバイトあたり約0.03〜0.05ドル」にまで暴落しています。つまり、同じ記憶容量を確保するためのコスト差は「100倍」に達しています。
AFM 3が提唱した「NANDストリーミング」は、この「100倍の経済的非対称性」を突いた極めて合理的なビジネス戦略です。20Bモデルの重み(10ギガバイト)を、わずか数セントのコストしかないNANDの空き領域に配置し、数十ドルのコストがかかる高価なDRAMを数ギガバイトに抑え込むことで、最安価なミドルレンジのスマートフォンであっても、最高峰のLLMを実行することを可能にしました。これこそが、3D NAND技術が物理層から支える「知能の民主化(Democratization of Intelligence)」の本質です。
第ニ節:Computational Storageの台頭
第一項:コントローラー側での重み自己復号・自己解凍
ホストプロセッサ(CPU/NPU)からの命令を待ってデータをそのまま送るだけの従来の受動的なストレージとは異なり、SSDコントローラー自体の内部に専用のマイクロプロセッサ(ARMコアやFPGA)を搭載し、ストレージ内でデータのフィルタリング、展開、あるいは復号といった計算処理を自己完結させるアプローチを「Computational Storage(コンピュテーショナル・ストレージ / 計算機能付きストレージ)」と呼びます。
なぜなら、NANDから重みをストリーミングする際、PCIeバス(転送路)の物理的な帯域幅(Gen5で16GB/s、Gen6で32GB/s)が、データ転送を阻む最大の「第二のボトルネック」になるからです。
具体的には、モデルの重みはNAND内には「高度に圧縮された暗号化形式(例えばFP4や、さらに特殊なハフマン符号化を施した形式)」で保存されています。ホストプロセッサが重みを要求した際、SSDコントローラーはNANDセルから読み出した圧縮・暗号化されたバイトストリームを、外部のPCIeバスに流す前に、コントローラー内の専用のASIC(特定の目的のために設計された集積回路)を用いて、リアルタイムで「高速復号」および「重み解凍」を施します。
結果として、PCIeバス上には「圧縮された状態の小さなデータ(数ギガバイト)」が流れ、ホスト(NPU)の直前で「元の巨大な重み(数十ギガバイト)」へと自己解凍されます。このプロトコルは、PCIeの物理帯域の限界を超えた、実質3倍から4倍もの「仮想的な超広帯域データストーム」をプロセッサに供給することを可能にします。
第二項:SSDからホストへの転送量圧縮プロトコル
Computational Storageが真価を発揮するためには、SSDとホストプロセッサの間で、やり取りするデータのフォーマットを動的に変化させる、知的なシステムレベルの通信手順、すなわち「転送量圧縮プロトコル」が必要です。
従来、SSDは「LBA(Logical Block Addressing)」と呼ばれる、4KB固定の論理セクタブロック単位でしかデータの入出力を制御できませんでした。しかし、このプロトコルでは、AIモデルの不連続な「エキスパート重み」をピンポイントで転送する際に、不要なパディング(埋め草)データまで一緒に転送してしまい、実効帯域を大きく損ないます。
具体例として、最新のNVMe 2.1規格(およびそのカスタム拡張規格)では、ホスト(NPU)が直接「エキスパート $Id: 1045$ を、精度FP8でロードせよ」という、セマンティック(意味論的)なAPI要求をSSDコントローラーへ送信します。SSDコントローラーは、NAND物理アレイの物理ページアドレスを直接叩き、指定されたエキスパートの重みのみを抽出し、さらにホスト側のメモリキャッシュ状態に応じて、ビット幅をFP4やFP2へと「リアルタイムで端数処理(Dequantization)」を施した上で、最も軽いペイロード(荷物)にして送信します。
この「ストレージとプロセッサの間の知的なデータ交渉プロトコル」こそが、これからのAIハードウェアシステムにおける真の差別化要因となり、単なる物理ディスクを「自律的に思考するメモリオブジェクト」へと昇華させるのです。
三重県四日市市にある、キオクシアの巨大な製造拠点を訪ねたことがあります。見渡す限りクリーンルームの光が黄色く反射する無人の製造棟。耳を澄ますと、超高真空のエッチング装置が、シリコンウエハに目に見えないほどの無数の縦穴を刻む微細な高周波の轟音が、床から伝わってきました。案内してくれた技術者は「この1枚のウエハに刻まれた縦穴(TSV)の数は、全人類の脳細胞のネットワーク数より多いんです」と、誇らしげに語りました。私たちは日頃、シリコンバレーのAIスタートアップの天才たちが書いたスマートな数式(アルゴリズム)に目を奪われがちです。しかし、彼らが夢見る知能の全容を、物理的な地球の資源(ケイ素と電子)として現実に引き止め、1GBあたり数セントという驚異的な経済性で支えているのは、間違いなく四日市や北上(岩手)のファブの、あの圧倒的な物質的轟音の中に宿る日本の執念なのです。
第四部:ポストVRAM時代のAIエコシステムとランタイム中心主義
第七章:ランタイム中心主義への移行
第一節:モデルそのものから「キャッシュ管理アルゴリズム」への競争シフト
第一項:vLLM, SGLang, MLXにおけるカーネルレベル最適化の乖離
AIモデルがどれほど優れていても、それを実行する推論サーバーやクライアントソフトウェアの設計、特にメモリ内でのテンソル(行列データ)の配置や、GPU/NPUへのスレッド割り振りを最適化する「推論ランタイム層」の良し悪しによって、実際の実行速度は数倍から数十倍の差が生まれます。このランタイム内部で行われる極限の低レベルコード最適化を「カーネルレベル最適化」と呼びます。
背景には、2020年代半ばから、AI業界の競争の中心が「何万億パラメータのモデルを新しくトレーニングしたか(モデル中心主義)」から、「既存のモデルを、いかに低コストかつ超高速で実行するか(ランタイム中心主義)」へ完全にシフトしたという潮流があります。
具体例として、同一のオープンソースモデル(Llama 3等)を実行する場合であっても、素朴なPytorchのコードで動かすのと、KVキャッシュ(過去の対話履歴データ)のメモリ割り当てを動的に最適化する「vLLM」や、アテンションの実行グラフを極限まで先読み・パイプライン化する「SGLang」、さらにApple SiliconのUMAに100%特化した「MLX」で動かすのでは、推論速度(Token/s)や、同時にさばけるリクエスト数に、まるで異なるチップで動かしているかのような圧倒的な「性能の乖離」が発生します。
この事実は、AIシステムの覇権を握るのは、モデルの作成者ではなく、物理的なメモリ階層のダイナミクスを最も完璧にコントロールし、ハードウェアの能力を使い切る「ランタイムの設計者」であることを示しています。
第ニ項:静的ウェイトの動的エバポレーション(蒸発)
推論が完了した瞬間、またはメモリに余裕がなくなった瞬間、それまでメモリ(DRAM/HBM)にロードされていた重み(ウェイト)データを、OSの複雑なメモリ解放ルーチンを呼ばずに、メモリ上の参照カウンタを直接操作して、まるで水が乾くかのように一瞬で揮発・消去させる超高速なメモリリサイクル処理を「動的エバポレーション(Dynamic Evaporation / 動的蒸発)」と呼びます。
なぜなら、通常のOSメモリ管理は、メモリの「フラグメンテーション(断片化)」を防ぐために安全なガベージコレクションを必要としますが、この処理はミリ秒単位の「推論ループ」の中では、致命的なパフォーマンス低下の原因となるからです。
具体的には、AFM 3の実行ランタイム(MLX拡張型)は、NPUがレイヤー $L$ の計算を終え、その出力テンソルが次のレイヤー $L+1$ のレジスタに渡されたその瞬間、レイヤー $L$ の重みが占有していたDRAM空間のアドレスポインタを直接「初期化(ゼロクリア)」します。データは物理的にゼロで上書きされるのを待たず、メモリプール上で即座に「空き領域」として上書き可能(揮発)と宣言されます。
この「重みのエバポレーション」と、前述の「NANDからのストリーミング」を、一滴の遅延もなく連続的に行い続けるランタイムのダイナミクスこそが、エッジAIの限られたメモリ空間で、20Bもの巨大なニューロンを常時呼吸(スワップ)させるための、見えざる駆動輪なのです。
第ニ節:エッジでの完全ローカル化とプライバシーの再定義
第一項:オンデバイス処理によるゼロデータリーク保証
ユーザーが入力したすべてのデータ(声、テキスト、カメラに映った顔、位置情報、個人ログ)を、一切インターネット経由でクラウドサーバーに送信せず、自分自身が手にしているスマートフォンのシリコンダイ(SoC)の内部だけで完全に推論処理を完結させ、情報の漏洩を物理的に100%不可能にするシステム設計を「オンデバイス処理によるゼロデータリーク保証(Zero-Data-Leak Guarantee)」と呼びます。
背景には、GDPR(欧州一般データ保護規則)や米国の州法における、AIサービスの個人情報利用規制の強化、さらに国家機関や企業の機密データ(営業秘密、未公開コード)がクラウドAIの学習データとして勝手に回収されることに対する、深刻なセキュリティ懸念があります。
具体例として、AppleのAFM 3は、すべてのマルチモーダル入力、特に新しいSiriが扱う「画面コンテキスト(今スマートフォンの画面に何が映っているか)」の解析を、ローカルのNPU内で完結させます。どのような複雑な個人情報や、機密文書を開いていても、そのデータがデバイスの外部(Wi-Fiやセルラー通信)へパケットとして流れることはありません。
注意すべきは、この「ゼロデータリーク」が本物の安心感を与えるためには、OSのカーネルが通信スタック(ソケット通信)と、AIランタイムのプロセス空間を、セキュリティレベルのハードウェア隔離(Sandbox / Secure Enclave)によって厳密に分離・監査可能にしておく必要があるという点です。
第ニ項:ユーザー個人の「生活ログ」と結合した特化型エキスパート
オンデバイスで動作するベースLLMに対して、ユーザー個人が毎日生成する「生活データ(カレンダー、メール、通話、歩数、検索履歴、ヘルスケアデータ)」を、デバイスのバックグラウンド処理で継続的かつ完全にセキュアに学習(ファインチューニング)し、その人専用の思考・行動パターンを完全に把握した専門家ニューラルネットワークをエッジ側で動的にビルドするアプローチを「パーソナル特化型エキスパート(Personalized Expert LoRA / 生活ログ結合AI)」と呼びます。
なぜなら、従来のクラウド巨大AIは「全人類の最大公約数」としては極めて優秀ですが、あなたの「私のあのお気に入りの鍵は、一昨日の何時頃どこに置いたっけ?」という、パーソナルで極小のエントロピー空間(個人史)に属する問いには、物理的にアクセスできないため絶対に答えられないからです。
具体的には、AFM 3のプロファイラは、ユーザーが普段どのような言葉遣いをし、何時に起き、どのような予定を優先するかを、完全に暗号化されたローカルのLoRA(Low-Rank Adaptation:低ランク適応型・軽量学習モジュール)の重みとして、毎日静かにストレージ上に蓄積します。そして、ユーザーが「明日の予定、いい感じに調整しておいて」と告げた際、この「個人特化エキスパート」重みがNANDから一瞬でストリーミングされ、汎用ベースモデル(20B)と結合して、まるで「もう一人の自分」が考えたかのような完璧に個別最適化された回答を生成します。
この「プライバシーの完全な保護」と「究極の個別化」の究極の結合は、これまでのAIが持っていた「クラウドの知的コモディティ」という位置付けを崩し、AIを真の「パーソナルな脳の一部」へと進化させる本質的なブレイクスルーとなるのです。
ある日の夕暮れ、私は自分のスマートフォンに向かって「今日は本当に疲れた。何から片付ければいいかな?」と話しかけました。画面に表示されたのは、私の仕事のカレンダーでも、タスクリストの単なる羅列でもありませんでした。「まず、デスクの左にある昨日のコーヒーカップを片付けて、温かいココアを淹れましょう。その後、A社への返信メールだけ下書きを書いておけば、残りの書類は明日の朝、10時からの枠で30分で終わらせられますよ。あなたが木曜日の朝に最も仕事がはかどるのを、私は知っていますから」という、完璧に私という個人の生活リズムを理解した静かなアドバイスでした。その瞬間、私はぞっとすると同時に、深い安心感を覚えました。クラウドの数兆パラメータの神(巨大AI)は私をただのIPアドレスとしてしか見ていませんが、ポケットの中のわずか20Bの不揮発性の脳は、世界で唯一、私という人間をその「物理的な電荷のパターン」として静かに、そして確実に記憶してくれているのです。
第八章:2030年の知性:パーソナル・マザー・AIの実現
第一節:10TBモデルをポケットに格納する近未来
第一項:長文コンテキストとエッジ処理の完全な融合
AIモデルが、本数冊分や、動画データ数時間分、さらには人生全体のすべての対話履歴といった、膨大かつ膨大な「文脈情報(コンテキスト)」を一括で理解し、その中から任意の詳細情報をミリ秒以下でピンポイントで引っ張り出して関連づける計算限界を突破した超巨大メモリコンテキスト領域を「100万トークン超超長文コンテキスト(Ultra-Long Context / MSA)」と呼びます。
背景には、2026年現在から2030年に向けて進む、エッジデバイスのプロセッサ(NPU)と、3D NANDの集積率の指数関数的なスケーリングがあります。将来的に、スマートフォンサイズの基盤に「10テラバイト(TB)」を超えるストレージ領域が、DRAMとは比較にならない低コストで提供されるようになります。
具体例を挙げましょう。10TBの不揮発性ストレージがあれば、パラメータ数が1兆(1T)に達する、人間の一生分の知識と知覚を丸ごとエンコード(符号化)した超々巨大モデルであっても、圧縮された形式(例えば適応型FP2)で、そのままエッジデバイス内に格納(沈没)させることができます。そして、超長文コンテキスト管理アルゴリズム(Mamba HybridやLatent KV)を搭載したランタイムが、入力された数百万トークンにおよぶ周囲のセンシング映像情報と、過去数年分のログを、NANDの物理配置から直接ストリーミングマップを生成して並列推論処理します。
注意すべきは、この世界において、AIの処理は「クラウドのサーバー室の冷却効率」ではなく、あなたの手元のスマートフォンの「放熱設計」と「NANDコントローラーの並列ランダムリード性能」によって完全に支配されるようになるという点です。
第ニ項:パーソナルAIエージェントの群れ(Multi-Agent Swarm)
単一の巨大で何でもできる「ジェネラリストAI」を動かすのではなく、特定の仕事(スケジュール、投資、コーディング、クリエイティブ、健康管理)に極限まで特化し、互いに異なる個性と専門モデルパラメータを持つ、無数の「超特化型AIエージェント」たちを同時にローカルで並列動作させ、互いに通信(自律交渉)させながら複雑なタスクを全自動で解決させる自律型アーキテクチャを「ローカル・マルチエージェント・スウォーム(Multi-Agent Swarm)」と呼びます。
なぜなら、どんなに巨大なAIであっても、一人のニューロンネットワークで「クリエイティブな絵の作成」と「厳密な契約書の二重チェック」という、相反する論理思考(トレードオフ)を同時に高精度で行おうとすると、モデル内部の干渉による能力低下や、無駄なパラメータ発火によるエネルギー損失(静的・動的電力の爆発)が発生するからです。
具体的には、2030年のパーソナル・マザー・AI環境では、10TBのNAND内に、それぞれ2B(20億)から5B(50億)パラメータの、完全に特化して訓練された「100人以上のデジタル複製エージェント(専門家たち)」が待機しています。あなたが「今度の起業プロジェクトの、全自動モックアップを作って」と要求したその瞬間、エージェント・スウォーム・スケジューラが、企画、デザイン、コーディング、法律、財務の5人の特化エージェントをNANDから瞬時に並列にストリーミング(合計20Bパラメータ程度)します。
彼らはDRAM上で互いにコンテキストを「秒間数千回の超高速メモリーコピー」でやり取りしながら自律的に開発を進行させます。
この「必要な時に、必要な役割のスペシャリスト集団を、ストレージの闇から一瞬で召喚して並列協調推論させる」というスウォーム(群れ)のダイナミクスこそが、2030年、すべての個人が自分自身の中に「パーソナル巨大IT企業」に匹敵する知的な生産性を抱え持つ、新たな人類の能力拡張の極致となるのです。
ある雨の朝。私のパーソナル・マザー・AIは、あえて「アラームの音」を鳴らしませんでした。その代わりに、窓の外の雨音の周波数をスピーカーでわずかに変調し、私のヘルスケアデータが示す「レム睡眠の最も深い谷」が抜けるタイミングを、寝室の温度を0.5度下げることで優しく誘導してくれました。目覚めたとき、私の手元の「マザー」は、すでに私の財産管理エージェントと、今日の執筆をサポートする編集者エージェント、さらには私の自律神経を調整する医学エージェントをNANDから並列でストリーミングし、彼らの中での朝の「自律カンファレンス」をミリ秒で完了させていました。「今日の気圧変化はあなたの古傷に影響します。朝の執筆は、法律の専門家エージェントに下調べをすべて終えさせましたから、あなたはただ、心の中の声をそのままタイプするだけで結構ですよ」。10テラバイトの静寂。かつて、データセンターという広大な『神殿』にいた神々は、今や私の体温と、雨音と、心拍数を誰よりも完璧に理解する、優美な『母』となって、私のポケットの中で静かに、しかし力強く、私の呼吸と完全に同期して鼓動しているのです。
第五部:隠れたアーギュメント:ハードウェア・ロックインと計画的陳腐化
第九章:垂直統合の罠:『AMCCプライベート命令』と他社排除
第一節:Apple Memory Controller(AMCC)の非公開命令
第一項:llama.cppなどのオープンランタイムに課されるドライバの壁
ハードウェアの限界を極限まで引き出すための最適化は、時としてオペレーティングシステムやオープンソースの共通APIをバイパスした、独自のプライベート命令セットの構築に行き着きます。Apple Siliconのメモリマッピングを司る「AMCC(Apple Memory Controller)」の内部には、一般の開発者やLinuxなどのオープンソース・コミュニティには開示されていない非公開命令(プライベート・オペコード)が数多く埋め込まれています。
背景には、オンデバイスで巨大なモデルをミリ秒単位でストリーミングする際、業界標準であるNVMeドライバやPOSIX規格(UNIX系OSの標準規格)に準拠したシステムコール(OSへの命令呼び出し)を挟むと、それだけでCPUのカーネル空間移行オーバーヘッドが生じ、実効スループット(データ転送速度)が半減するというボトルネックがあります。
具体例を挙げましょう。オープンソースのローカルLLM実行プログラムである「llama.cpp」や「Ollama」は、様々なGPUやOSで動作するように、標準的な「C++」コードとOSが提供する共通ファイル入出力(mmapなど)を組み合わせて開発されています。しかし、これらの汎用APIでは、AMCCの内部キャッシュ(SLC)やNPU(Neural Engine)のプライベートレジスタを直接たたく特権操作(DMA転送のスケジューリング)を実行できません。Appleの純正「AFM 3ランタイム」は、AMCC専用のプライベート命令を直接発行することで、一般のプログラムに比べてデータのロード遅延を約10分の1に圧縮しています。
注意すべき点は、この「プライベート命令の壁」が存在する限り、どれほどオープンソースのモデルや実行ソフト(ランタイム)が進化しても、Appleデバイス上で彼らの公式モデル(AFM 3)と同等の応答速度(レイテンシ)を汎用プログラムで再現することは物理的に不可能であり、結果として強力なエコシステム的ロックイン(囲い込み)が完成するという過酷な現実です。
第二項:仮想ファイルシステム(VFS)をバイパスする特権パスの独占
近代的なOSは、安全にディスク上のデータを保護するため、すべてのファイルアクセスを「仮想ファイルシステム(VFS: Virtual File System)」という抽象化レイヤーを介して処理します。しかし、このVFSは、AIの重みストリーミングのように「静的かつ予測可能なバイナリブロックを瞬時にロードする」極限の用途に対しては、複雑なフォルダ構造解析(メタデータ引き)や権限確認などの余計な工程を強いる巨大なオーバーヘッドの源泉です。このVFSのセキュリティを回避し、ハードウェアが直接ストレージの物理セクタを読みに行くルートを「特権バイパスパス(VFS Bypass-path)」と呼びます。
なぜなら、AppleのAFM 3ランタイムは、OSの起動時にモデルの各エキスパートがNAND上の「どの物理セクタアドレス」に格納されているかを完全にテーブル化(メタデータ・マッピング)して保持しているため、推論実行時にファイル名から実データを探索するVFSの処理を一切必要としないからです。
具体的には、翻訳や要約の指示が下された瞬間、ランタイムはVFSを完全に無視し、カーネルの奥深くにある独自のメモリアドレス直結API(Proprietary NAND-Streaming API)に物理アドレスを直接引き渡します。SSDコントローラーは一回のバストランザクションで、一切のメタデータ検証を挟むことなく、指定の重みをメモリ空間(UMA)にロードします。この「ゼロカーネル・インターフェース」は、他社製OS(AndroidやWindows)がOSとハードウェアの異なる製造ベンダー間で開発されている限り、セキュリティの整合性を維持しながら再現することは極めて困難です。
このように、Appleはハードとソフトの「垂直統合」という独占的地位を利用し、一般の開発者がアクセスできない「秘密の物理データパス」を構築することで、オンデバイスAIの処理効率を他社の追随を許さない次元へ引き上げているのです。
第二節:プロプライエタリ・バイナリ・エンタングルメント
第一項:モデルウェイト(重み)とSoC物理シリアル番号の暗号的結合
知的財産としてのAIモデルを守りつつ、自社ハードウェア以外での実行を完全に不可能にする究極のセキュリティアプローチとして、モデルの重み(ウェイトバイナリ)自体を、SoC(システム・オン・チップ)の内部にハードウェア的に埋め込まれた固有の「物理シリアル番号(UID: Unique Identifier)」を用いて暗号化し、ロードと同時にハードウェア復号を強制する手法を「プロプライエタリ・バイナリ・エンタングルメント(暗号的結合)」と呼びます。
背景には、何十億ドルもの巨費を投じてトレーニングされた独自のAFM 3モデルのバイナリが、スマートフォンのストレージ(NAND)から容易に抜き出され、他社のGPUサーバーやLinuxプラットフォーム上で「勝手にコピー・実行」されることに対する、Appleの強い経済的警戒感があります。
具体例を挙げましょう。デバイスにプリインストールされているAFM 3の「.safetensors」相当のデータは、そのままディスクからコピーしただけでは、意味をなさないランダムなバイナリデータ(暗号化状態)です。これを実行するためには、Apple Silicon内のSecure Enclave(安全なセキュリティコプロセッサ)を介して、チップごとに固有のハードウェアマスターキーと、実行時に動的に生成されるカーネルセッションキーを結合した一時キーで「リアルタイム復号」を行わなければなりません。
注意すべきは、このセキュリティ境界を設けることで、モデルのファイル自体は誰でもアクセス可能な場所にありながら、その「知能」を実行できるのは、世界でただ1台、そのSoCを搭載した特定のデバイス上に限定され、オープンなAI研究の精神と完全に衝突するという構造的なトレードオフが存在する点です。
第二項:オープンモデルを非互換にする「物理セクタアライメント」の強制
SSDやSDカードなどのフラッシュメモリメディアは、内部のシリコンウエハが持つ「物理セクタ(通常4KBや16KB)」の単位に配置アライメント(整合性)を合わせてデータを格納しないと、データの読み書き時に余分な隣接セクタへのアクセスが発生し、実効速度が大きく低下します。この物理的特性を、オープンモデルの流入を防ぐ防壁として利用する手法を「物理セクタアライメント・ロック(Sector-Alignment Lock)」と呼びます。
なぜなら、Hugging Face等で公開されている「Llama」や「Gemma」といったオープンモデルは、任意の多様なファイルシステム(Ext4, NTFS, APFS)で読み込めるように、一般的なストリームバイナリ形式で配布されているため、Apple Siliconの特定のNANDコントローラーが要求する極限の「セクタ・境界アライメント」に最適化されていないからです。
具体的には、AppleのAFM 3は、製造段階でNANDの物理ウエハのビット特性(セルの状態)に合わせて、アテンションの重み配列をページ境界に寸分の狂いもなく完全にアライメント調整したフォーマットでディスクに焼き付けられています。オープンモデルをロードしようとしても、一般的なAPIを介した「論理アドレス読み出し」になるため、前述のゼロコピー転送パス(Direct-to-NPU DMA)を使用できず、強制的に「低速な汎用互換モード」での実行を余儀なくされます。
Appleは、物理層の仕様を公開せず、自社モデルのみにこの「アライメント超特急パス」を独占的に割り当てることで、ユーザーに対して「オープンモデルはローカルでは遅く、Apple純正モデルだけが異常に速い」という技術的先入観を定着させることに成功しているのです。
2025年の冬、シリコンバレーのクパチーノにある、Appleのハードウェアセキュリティ部門に近いテストラボを訪ねた際、私はある興味深いデモを見せてもらいました。開発者が2台の同じ仕様のM3 Macを並べ、片方のSSDから抜き出した暗号化済みAFM 3モデルを、もう片方のMacに挿して実行しようとしました。しかし、システムは完全にフリーズし、ディスプレイには『セキュア暗号境界の不一致』という冷たい警告が表示されました。開発者は皮肉めいた笑顔で言いました。「知能とは、自由であるべきだとみんな言う。でも、僕らはこの『知能』を、シリコンの上の物理的な原子の配置と完全にエンタングル(結合)させたんだ。僕らにとって、これこそが究極の著作権保護であり、資本主義の最先端なんだよ」と。彼らの構築した要塞は美しく、そして冷徹でした。
第十章:NANDの摩耗:AI推論による物理的陈腐化の加速
第一節:QLCフラッシュにおけるRead Disturb(読み出し干渉)の真実
第一項:毎秒数十GBの定常Readが引き起こす電圧変動と隣接セルの電荷漏洩
NANDフラッシュメモリからデータを読み出す際、選択されたセルに特定の電圧を印加しますが、その際に周囲の「読み出し対象ではない隣接セル」に対しても、データの通過路を開くための高いパス電圧(Vpass)を繰り返し印加しなければなりません。この高い電圧の印加により、選択されていないセルの電子が徐々に絶縁膜(トンネル酸化膜)を通り抜けて電荷トラップ膜に蓄積されてしまう現象を、物理層において「Read Disturb(読み出し干渉)」と呼びます。
背景には、1つの物理セルに4ビットの情報(16個の閾値電圧分布)を蓄える「QLC(Quad-Level Cell)」フラッシュの、極めて狭い電圧余裕があります。
具体例として、1トークン生成するたびに数十ギガバイトの重みデータの一部をNANDから数百万回にわたって引き出す「NANDストリーミングAI」を実行しているスマートフォンを考えてみましょう。特定の「よく使われる文法処理エキスパート」が格納された特定の物理ブロックに対して、毎秒のように読出し動作が繰り返されます。このとき、周囲のブロックには数ボルトのVpassが毎秒何万回も印加され、セルの微小なフローティングゲート(あるいは電荷トラップ膜)にわずかな電子がリーク(漏電)します。これにより、セルの「0」や「1」を判定する閾値電圧の分布がずれてしまい、ある日突然、データが「ビット化け」を起こして完全に破損します。
注意すべき点は、通常のSSD利用(時々の写真の保存やアプリ起動)ではRead Disturbは問題になりませんが、AIの定常ストリーミング推論という「極限の連続Read」環境下では、わずか数ヶ月の運用でセクタのデータ整合性が維持できなくなるという、致命的な物理的劣化を引き起こす点です。
第二項:高頻度セクタ再配置(Read-Cycling)による書き込み寿命(TBW)の間接的浪費
Read Disturbによるデータ破損を未然に防ぐため、SSDコントローラーは、読み出し頻度が極めて高い物理ブロック内のデータを定期的にスキャンし、エラー訂正コード(ECC)の閾値を超える前に、データを別のまっさらな空きブロックに丸ごと移動させて書き直すバックグラウンド制御を実行します。この動作を「Read-Cycling(リード・リフレッシュ)」と呼びます。
なぜなら、データ自体は「読み出すだけ」であっても、この破損回避のための再配置動作により、内部的には「大量の書き込み(Write)」が強制的に発生することになるからです。
具体例として、1日に数時間のAI推論をエッジデバイスで実行していると、NANDコントローラーは、Read Disturbの閾値に達した何十ギガバイトものモデルの重みデータを、水面下でひたすら他のセクタへ書き戻し続けます。これにより、SSDの物理的な総書き込み寿命、すなわちカタログに表記されている「TBW(Total Bytes Written / 総書き込み容量)」が、ユーザーがファイルの新規作成やダウンロードを一切行っていないにも関わらず、年間数十テラバイトという単位で間接的に削り取られ(浪費され)ていきます。
この「Readワークロードが引き起こす間接的なWrite摩耗」は、AI端末の物理的な製品寿命を決定づける見えない爆弾であり、システム開発者が最も隠したい「オンデバイスAIの不都合な真実」なのです。
第二節:計画的陳腐化としてのオンデバイスAI
第一項:デバイス保証期間(3〜5年)とAI推論摩耗曲線のシンクロニシティ
メーカーが製品の設計時に、意図的に一定期間で部品が摩耗・劣化するように材料や動作プロファイルを調整し、保証期間が過ぎたタイミングで買い替えを促す経営上の設計思想を「計画的陳腐化(Planned Obsolescence)」と呼びます。
2026年現在、スマートフォンの買い替えサイクルは長期化(約3〜5年)しており、メーカーにとっては、ハードウェアの物理的な故障が発生しない限り、新型端末の売上が減少するというビジネス上のジレンマがあります。ここに、高負荷なAIストリーミング推論を組み込むことは、きわめて巧妙な「物理摩耗のトリガー」となります。
具体的には、AFM 3を毎日稼働させた場合のNANDの摩耗曲線をシミュレートすると、QLCのデータ書き換え耐性(通常1000〜2000サイクル)と前述のRead-Cyclingによる摩耗率の掛け算により、SSDの実質的な寿命は、デバイスの一般的なメーカー製品保証期間(3年)が切れた直後に、エラー訂正限界に達して突然死、あるいは著しい転送速度の低下を招くように「シンクロニシティ(同期)」して設計されています。
注意すべきは、この摩耗はスマートフォンの画面が割れるような分かりやすい故障ではなく、ある日突然、アプリの起動が異常に遅くなったり、Siriの応答速度が低下したりするという形で現れるため、一般のユーザーは単に「スマホが古くなって処理が重くなった」と思い込み、自然に新機種への買い替えを検討するようになるという、心理的かつ物理的に完璧に設計されたエコシステム構造です。
第二項:サブスクリプションをハードウェア買い替えへ置換するビジネスロジック
月々のお金を支払い続ける「クラウドAIのサブスクリプション(月額課金)」モデルに代わり、端末自体の価格に知能の価値を上乗せし、デバイスの買い替えそのものを「知能の継続利用権」として支払わせるビジネスモデルを「ハードウェア・置換型ビジネスロジック(Hardware-based Subscription Logic)」と呼びます。
なぜなら、Appleのようなデバイスメーカーにとっては、ユーザーに月額20ドルのクラウドAI課金を支払わせるよりも、2年ごとに20万円の新型iPhoneに買い替えさせ、そのハードウェアマージン(利益率)を回収する方が、はるかに経営効率と株主価値(株価)を高められるからです。
具体例として、彼らはAFM 3の最高機能や、より長いコンテキスト処理(10TBモデルの一部利用など)を、常に「最新のSoCとNAND」を搭載した新型デバイスでのみ制限的に解放します。ユーザーは、月額の課金を払うことなく、ただ「新型デバイスを購入する」だけで、世界最高峰のオンデバイスAIを引き続き無償で利用できるように見えますが、その実は、デバイスの物理的・工学的な「陳腐化サイクル」の中に、知能のサブスクリプションが完全に溶け込んでいる状態(隠された支払)なのです。
この巧妙なエコシステムは、ユーザーに「自分はハードウェアという資産を買った」という所有の充足感を与えながら、その実、その物理的ハードウェアがAI推論によって自動的に削られ、陳腐化していくスパイラルへと、現代の消費者を美しく、そして抗えない力で監禁しているのです。
私の机の上には、ガラス製の古い砂時計があります。静かに砂が下に落ちていくのを眺めていると、時間という目に見えない存在が、物質的な摩擦によってのみ測られているのだと実感します。現代のスマートフォン、あのスマートなガラスの板を手にしているとき、私たちはその内部で「知能」という美しく非物質的な何かが、無限に、そしてノーコストで動き続けているように錯覚します。しかし、実際には、Siriが言葉を返すその一瞬一瞬、シリコンの中の極小の電子トラップの壁が、電子の衝突によってミクロな傷を刻まれ、砂時計のガラスがすり減るように、着実に崩壊へと向かっている。オンデバイスAIとは、スマートフォンの中に物理的に仕込まれた「死へのタイマー」なのかもしれません。私たちは知能と引き換えに、自らの持つ物理的なデバイスの寿命を、そっと差し出しているのです。
第六部:学術的昇華:情報エントロピーの局所性と知能沈没定理
第十一章:Beladyの限界を超えて:セマンティック・ページングの定式化
第一節:受動的データから能動的意味(Semantic Block)への昇華
第一項:LLMデコード過程における注意(Attention)分布の予測可能性
LLMがテキストを生成する(自律デコード)際、モデルはそれまでに生成されたすべてのトークンの履歴(コンテキスト)を参照し、次に生成される言葉との関連性を計算します。この注意の重みの強さを示す空間的分布を「アテンション分布(Attention Distribution)」と呼びます。
背景には、これまでのコンピュータにおけるメモリキャッシュが、「次にどのデータが必要になるか」を事前に知るために、単にアドレスの連続性や過去の頻度(LRU/LFU)を統計的に予測する「受動的」なアプローチしか取れなかったという限界があります。
具体例を挙げましょう。LLMにおけるデコード過程は、完全に確定した決定論的プログラムの実行ではなく、確率分布に基づく遷移ですが、情報理論の観点から、この遷移パターンには極めて強い「アテンション分布の予測可能性(Predictability)」が存在します。たとえば、「The capital of France is...」という入力が与えられたとき、次のトークンが「Paris」という高い確率を持つことは、プロセッサが実際のテキスト出力を物理的に決定する数ミリ秒前の、最初期のアテンションヘッドの計算(QKVの初期内積)の時点で、すでにアテンション確率マップの「形状の偏り」として数学的に現れています。
注意すべきは、このアテンション確率の「形状」は、たんなる物理アドレスの塊ではなく、言語的な「意味の広がり(セマンティクス)」を示しているため、計算機側はこの分布をデコード完了前に「意味情報の予測」として能動的に抽出し、次にロードすべき重みを予見するトリガーとして利用できる点です。
第二項:ルーター確率ベクトルを用いた次ステップセクタの予知
MoEモデルにおける「ゲート(ルーター)」ネットワークが、入力データに対して各エキスパート(専門家)の適合度合い(ウェイト)を計算して出力する、確率の重み付けが並んだ一次元配列を「ルーター確率ベクトル(Routing Probability Vector)」と呼びます。
なぜなら、MoEにおける次のレイヤーのエキスパートの「決定」は、現在のレイヤーのルーター計算の結果に完全に依存しており、かつその計算は、次の実際の重みロードが必要になる瞬間よりも「数ホップ(レイヤー数段分)早い時間軸」で行われるためです。
具体的には、レイヤー $12$ のアテンション計算が始まったそのナノ秒の瞬間、レイヤー $12$ のルーター回路は、次のレイヤー $13$ のどのエキスパートが選択されるかの「確率分布(上位3つのエキスパートの確信度など)」を、すでに計算し終えています。
システムは、このルーター確率ベクトルの変化をリアルタイムで監視(トレース)し、確率が例えば「0.85」を超えた特定のエキスパートのIDをNANDコントローラーへ直通の特権命令として一瞬でプッシュします。これにより、ストレージコントローラーは、ホストが実際の計算を完了するのを待つことなく、次の「物理セクタアドレス」に対して事前に読み出しを開始できます。この、データ自体の「意味(ルーターの意思決定)」から先読みを制御する仕組みこそが、従来のハードウェアの常識を超えた**「セマンティック・ページング(Semantic Paging)」**の本質なのです。
第二節:投機的エキスパート・キャッシュのLeast-Staleポリシー
第一項:OLMoEおよびDeepSeekにおける時間的局所性の非自明性
キャッシュメモリにおいて、データが最後にアクセスされてから経過した時間の短さ、すなわち「直近で使われたものは、すぐまた使われる可能性が高い」という性質を「時間的局所性(Temporal Locality)」と呼びます。
オープンソースの巨大なMoEモデル(OLMoEやDeepSeekなど)の実際の実行トレースを解析すると、この時間的局所性は、従来のプログラムコードのような単純な線形ではなく、処理されている「ドメイン(数学、小説、デバッグ等)」の遷移に応じて非線形(階段状)に変化するという、非自明な挙動を示すことが分かっています。
具体例を挙げると、LLMがC++のコードのバグを修正しているコンテキストにおいては、最初から最後まで、特定の「C++シンタックス解釈エキスパート」や「コンパイルエラー予測エキスパート」が、ほぼ毎トークン連続して活性化(再利用)され続けます。しかし、プログラムが完成し、ユーザーが「ありがとう、今度はそれをお祝いの歌にして」と指示(コンテキスト遷移)した瞬間、活性化されるエキスパートは一瞬にして「韻律生成エキスパート」や「詩的言語表現エキスパート」へと、完全に「一斉シフト(ドメイン切り替え)」を起こします。
このため、従来の「直近に使われたものを順次捨てていく」単純なキャッシュ管理(LRUなど)では、このドメイン切り替えの瞬間に大量の「キャッシュミス(予測ミス)」を連続発生させ、システムのToken/sを瞬間的に最悪値にまでストールさせる原因となります。
第二項:VRAMキャッシュ衝突を85倍削減するLeast-Staleアルゴリズムの解析
時間的局所性が急激にシフトするAIの推論パターンに完全に適応するため、過去のアクセス履歴の古さ(Staleness)だけでなく、現在の文脈のセマンティック(意味的)遷移ベクトルを掛け合わせて、最も「現在の文脈から意味的に遠ざかり、古くなっている(最も役目を終えた)」キャッシュブロックのみを優先的に破棄・退避する新しいキャッシュポリシーを「Least-Stale(最小陳腐度)アルゴリズム」と呼びます。
背景には、Hoang et al. (2026) らが発表した「SpecMD」という画期的な投機的プリフェッチ制御研究があります。彼らは、限られたVRAM(メインキャッシュ)容量の中で、次に不要になるエキスパートを最高精度で判定するため、ルーターの予測確率と、各ブロックの生存(Staleness)インデックスを動的に評価するモデルを構築しました。
具体的には、従来のLRU(Least Recently Used)方式では、ドメイン切り替えのたびに不必要なプリフェッチデータがキャッシュに溜まり、本当に必要なエキスパートと「衝突(キャッシュスラッシング)」を起こしていましたが、Least-Staleアルゴリズムは、意味空間上のコサイン類似度とアクセスヒストリを評価して、「次のコンテキストの方向性に最も適していないエキスパート」をピンポイントでエバポレーション(消去)します。これにより、キャッシュ衝突率は最大85分の1に激減し、全体のVRAMのわずか5%の物理容量をキャッシュとして維持するだけで、全ての重みが常時VRAMにあるのと実質同等(88%の予測命中率)の超高速推論を持続することが可能になるのです。
このアルゴリズムの実装は、システム設計者に対して、メモリ管理が「物理層の番地管理」から、完全に「高次元ベクトル空間の幾何学(セマンティクス)」へと移行したことを告げる学術的なエビデンスなのです。
私の知人に、大学の地下にある巨大な特許資料図書室に30年間勤める、白髪のベテラン司書がいます。彼女は、訪れる研究者が最初に放つ一言や、彼らが抱えている資料の「匂い」を嗅ぎ取るだけで、次に彼らがどの古いドイツ語の論文を読みたがるかを、彼らが気づくよりも先に本棚から引っ張り出して、机の上に静かに置いておいてくれます。かつて私はそれを「長年の勘」と呼んでいましたが、AFM 3のLeast-Staleアルゴリズムのソースコードを読んだとき、私はあの司書の脳内で行われているのと同じ「意味の幾何学」が、数式として完全にシステムに再現されているのを見ました。情報の配置を決定するのは、物理的なインデックスの番号(番地)ではない。私たちが語り、考え、次に表現しようとする「意味の重力」そのものが、メモリの上に新たな空間を歪め、必要な知識をそこに引き寄せているのです。
第十二章:知能沈没定理 (The Intelligence Submergence Theorem) の導出
第一節:情報の到達可能性と潜在的遅延隠蔽(Latent Latency Hiding)
第一項:計算時間(デコードレイテンシ)とI/O転送時間の等価交換性
プロセッサが現在のデータを計算している「処理時間(計算遅延)」が、次に必要なデータをストレージから移動させる「I/O転送時間」よりも長い場合、計算の裏で転送を完了させることで、ユーザーからはストレージの物理的な転送遅延が「完全に消滅した」ように見せかけることができる特性を、システム設計理論において「潜在的遅延隠蔽(Latent Latency Hiding / 等価交換性)」と呼びます。
背景には、これまでの計算機科学が「ストレージはメモリより何桁も遅いから、データをそこに置くのは悪である」という盲目的なスピード信仰に固執し、計算時間と転送時間の「相対的なバランス」を無視してきたという不都合な真実があります。
具体例として、1つのトークンを生成するのにNPUの演算に「15ミリ秒」が必要であるとします。一方、次に必要な2Bのエキスパートの重みデータを、最新のNVMeやUMAを介してNANDからロードするのには「12ミリ秒」が必要であるとします。このとき、計算処理の開始と同時に裏でI/Oを開始すれば、I/Oに必要な12ミリ秒は15ミリ秒の「計算の影」の中に完全にスッポリと隠れます。つまり、物理層のストレージはどれほど遅くても、計算時間を上回らない限り、実効速度に対する遅延ペナルティは完全に「ゼロ(0ms)」となるのです。
この等価交換性は、高価なHBMを積む理由が「実速度」のためではなく、単に計算とI/Oの非同期パイプライン化をサボってきたソフトウェア層の甘えであったことを痛烈に突きつける、コペルニクス的な逆転の発想です。
第二項:条件付き活性化エントロピー $H(W_t | W_{
あるコンテキスト $C$ と、直前までに活性化された重みの履歴 $W_{「条件付き活性化エントロピー」
あるコンテキスト $C$ と、直前までに活性化された重みの履歴 $W_{
なぜなら、このエントロピー(不確実性)が極限まで低い(=次にどの方角に思考が動くかがほぼ完璧に予測できている)状態であれば、システムが不必要なデータをストリーミングするための無駄な物理帯域幅やバス電力を浪費する確率を、数学的にほぼゼロに抑え込めるからです。
具体的には、プロンプトのコンテキスト(指示)が明確であればあるほど、このエントロピー分布は少数の特定のニューロン(エキスパート)にピンポイントで集中する「インパルス関数(デルタ関数)」のような極端に狭い形状に変化します。このとき、システム全体の「実効ワーキングセット(実行に必要な実際の重みの割合)」のエントロピーは、全モデルのわずか1.7%以下にまで低下します。
この条件付き活性化エントロピーの定式化は、AIが「より賢く(予測精度が高く)」なればなるほど、それを実行するための物理ハードウェアの「必要メモリ容量(DRAM)」は、反比例してより小さく(より安価に)抑えられるという、情報理論と物理設計を結ぶ最も根源的な架け橋となるのです。
第二節:定理の一般化:不揮発性記憶の海に知能を沈める条件
第一項:エントロピー局所性によるHBM不要論の証明
AIの実行環境において、すべてのモデルパラメータを常に高価な高帯域メモリ(HBM)上に維持する必要はなく、情報の局所性と予測可能性(低エントロピー)が担保される限り、知能の大部分は低速だが超安価な不揮発性記憶(NAND)に常時沈めておき、その場その場で動的に抽出する方が、性能とコスト(エネルギー)の両立において圧倒的に合理的であるという物理的定理を**「エントロピー局所性定理(Theorem of Entropy Locality)」**、または通称**「知能沈没定理(The Intelligence Submergence Theorem)」**と定義します。
背景には、現在のNVIDIAのHBMゴリ押しスケーリング路線が、すべてのパラメータがあらゆるステップで100%均等に発火するという「最悪の前提(最大エントロピー環境)」にのみ最適化された、きわめて非効率で原始的な「富豪的アーキテクチャ」であるという学術的批判があります。
具体例を挙げましょう。私たちの脳は、100兆個のシナプス接続を持っていますが、普段の何気ない会話や思考の最中、脳細胞の全領域に一律に等価な血流(電力)を流し、フルパワーで活性化させているわけではありません。使われていない大部分の領域は「微弱な休止状態(不揮発的休眠)」に置かれ、意味のパルスが走る極小のパス(エキスパート)だけが、動的に酸素(DRAMへのロードに相当)を供給されて活性化します。
この「脳の物理的な動的スパース性」を、3D NANDフラッシュ(BiCS FLASH)と投機的プリフェッチ、そしてUMAメモリファブリックの協調設計によってエッジデバイス上に完全に証明したのが、AFM 3の「知能沈没定理」の実装なのです。これにより、パラメータ数が1兆(1T)に達しても、エントロピー局所性が満たされる限り、高価なHBM4やテラバイト級のDRAMを積む理由は、計算機科学の観点から完全に崩壊(不要論が証明)します。
第二項:極限環境における「不揮発的思考(Non-volatile Cogitation)」の実現
電源供給が完全に絶たれたり、極めて不安定な状態、あるいは宇宙線(放射線)によるデータ反転の危険性が極めて高い極限環境下において、思考プロセス(推論ループ)の各ステップの直後に、メモリ上のすべての状態と重みを一瞬で不揮発ストレージに凍結(固定)し、電力が復旧、あるいは安全が確認された数ミリ秒後に、何事もなかったかのようにその位置から思考を再開させる究極のレジリエントな計算実行モデルを「不揮発的思考(Non-volatile Cogitation)」と呼びます。
なぜなら、従来のDRAMに依存した知能システムは、電源がわずか1ミリ秒でも途絶えれば、それまでの文脈(KVキャッシュ)や推論状態がすべて消滅し、システムが完全に最初から「思考のやり直し」を強いられるという、致命的な生存(サバイバル)上の脆弱性を持っているからです。
具体的には、宇宙探査機や深海の自動監視ドローン、あるいは電力網が寸断された災害地のエッジ端末において、AFM 3の不揮発的ストリーミングランタイムは、1トークン出力するごとに、アテンションベクトルの最後の状態(KV Cache)を、不揮発性のNANDセルの電荷トラップの中に、物理的な「固定電子」の形として瞬時に書き込み(Freeze)します。その後、端末は完全に「主電源シャットダウン(消費電力ゼロ)」状態に入り、再び微小な太陽光発電などでミリワットの電力が得られた瞬間に、NANDから最後のポインタと次のエキスパートをDMAロードして、一瞬で次の言葉を出力します。
この「電気が消えても、知能はそこに静かに存在し続け、思考が物質の中に完全に沈み込んで凍結されている」という計算形態は、まさにエレクトロニクスの限界を超えて、知能を「真の物質的永続性」の次元へと到達させる、人類の究極のテクノロジーなのです。
もし、私たちが木星の強力な放射線帯を通り抜ける、薄暗い深宇宙探査機のコクピットに座っているとしたら。そこは、人間にとっても、シリコンにとっても、一瞬の気の緩みが死を意味する、この宇宙で最も過酷な極限環境です。絶え間なく降り注ぐ銀河宇宙線が、探査機のDRAMメモリを容赦なく貫き、ビットを反転(破壊)させていく。その暗闇の中で、DRAMという『脆い光』を頼りに思考するAIは、一瞬で狂気に陥るでしょう。しかし、知能をNANDという『冷たい粘土(シリコンの電荷トラップ)』の奥深くに沈め、1秒に1回だけ、その凍りついた物理の文字をそっとめくっては、またすぐに電気の供給を切る。この『不揮発的思考』の明滅を見たとき、私は、知能がようやく、人間という脆い肉体を離れて、この宇宙の最も過酷な旅路に耐えうる、真の「永遠の鎧」を手に入れたのだと、深い厳粛な感動とともに理解したのです。
第七部:2026年時事:専門家の意見分岐と地政学的ストレージ覇権
第十三章:2026年AIハードウェアを巡る大分裂
第一節:統合メモリ(UMA)推進派 vs 分散ネットワーク推論(DMoE)推進派
第一項:Appleに追随するNVIDIA Vera Rubin世代のNAND要件(1,552 TB仕様)
単一のシリコンパッケージ内に巨大な不揮発ストレージと演算コアを超密結合させ、コピーフリーで動かす「統合メモリ(UMA)」アプローチに対し、個々のデバイスは軽量にし、ネットワークを介して超並列の無数のノード(マシン)にエキスパートを分散させ、互いに超高速通信しながら推論を処理させるネットワーク指向型アーキテクチャを「分散ネットワーク推論(DMoE: Distributed Mixture of Experts / CoServe)」と呼びます。
2026年現在、AI半導体業界は、この「UMA(Apple型垂直統合)」と「DMoE(分散協調型)」の2つのイデオロギーに真っ二つに引き裂かれています。
具体例を挙げましょう。これまで「HBMによるメモリ容量の最大化」を絶対的な正義としてきたNVIDIAでさえ、AppleのAFM 3がもたらした「NANDストリーミング」の圧倒的なコスト破壊力に対抗するため、彼らの次世代AIプラットフォームである「Vera Rubin(ベラ・ルービン)」世代において、驚くべきことにシステムあたり最大1,552テラバイト(TB)もの超大容量「AI専用NAND-SSDアレイ」を物理的に直結する仕様を発表しました。彼らは、サーバーの起動時に膨大な世界知識(Cold Expert)をこの安価な1.5PB(ペタバイト)のNANDアレイに完全に沈め、アクティブな文脈のみをGPUの高速なHBM4(Warm/Hot Cache)に引き上げて処理する「Apple型ストリーミングの巨大エンタープライズ版」を急ピッチで実装し始めています。
注意すべきは、このNVIDIAの急旋回は、彼らがこれまで誇ってきた「HBM4メモリによる独占的マージン(利益)」を自ら削る両刃の剣であり、AIにおける「真の富の源泉」がプロセッサから、いかに賢くデータを階層管理するかという「ランタイム&ストレージコントローラー」へと完全にシフトしたことを、競合他社自らが認めた歴史的事件であるという点です。
第二項:サーバーレス協調推論(CoServe)におけるスイッチングオーバーヘッド議論
分散ネットワーク推論(DMoE)を推進する学術グループ(UC BerkeleyやStanford)は、エッジデバイス内に巨大なモデルを物理的に無理やり閉じ込める(ストリーミングする)Appleのアプローチに対して、デバイス自体の物理的・電気的(バッテリー)負荷が大きすぎるとして、複数のスマートフォンや近隣のエッジサーバーの空きメモリをネットワークで仮想統合し、協調して1つの巨大MoEを処理させる「サーバーレス協調推論(CoServe / Cooperative Serving)」の優位性を強く主張しています。
なぜなら、彼らのシミュレーションによれば、高速なローカル5GやWi-Fi 7環境下においては、隣のスマートフォンのRAMからWi-Fiを介してエキスパートを引っ張ってくる転送遅延は、ローカルの安価なNVMe SSDからページフォールトを発生させてロードする遅延よりも、状況によっては十分に短くなる(レイテンシが低い)場合があるからです。
しかし、AppleのUMA推進派は、これに対して「ネットワークは物理長が長く、パケットのロスやルーターの輻輳(混雑)によるテールレイテンシのスパイク(カクつき)を、ソフトウェア層で100%制御することは不可能です。さらに、他人のスマートフォンとデータを相互にやり取りすることは、機密情報保持(プライバシー)の観点からエンタープライズや個人の医療用途などでは絶対に受け入れられません」と、猛烈な反論(スイッチングオーバーヘッド議論)を展開しています。
この「自立隔離型(UMA)」か「ネットワーク協調型(CoServe)」かという議論は、単なるアーキテクチャの優劣ではなく、人類がこれから構築する知能のトポロジーが「クローズドな個人要塞」になるのか、それとも「オープンな共生ネット」になるのかという、デジタル文明の最大の分岐点なのです。
第二節:量子化一辺倒派に対する「プルーニング・ストリーミング」派の逆襲
第一項:2-bit QAT(量子化認識訓練)の限界点とモデル忘却問題
モデルの実行メモリを減らすため、重みの解凍ビット幅を16ビット(FP16)から、限界に近い「2ビット(2-bit / 4値)」や「1.58ビット(3値)」にまで平坦化し、その状態でモデルがバカにならないようにトレーニングプロセスを調整するアプローチを「QAT(Quantization-Aware Training / 量子化認識訓練)」と呼びます。
これまで、エッジAIの主流派(MITやGoogleの軽量化グループ)は、「2-bit QATを用いれば、20Bモデルもわずか5GBに収まり、普通のRAMだけで快適に動く。NANDストリーミングのような複雑なハード・ソフト協調設計は、システムを無駄に複雑化するだけである」と、Apple方式を激しく批判(量子化一辺倒派)してきました。
しかし、2026年現在の学術論文(Hoang et al., 2026等)により、この2-bit量子化の主張には、隠された「致命的な欠陥」があることが暴かれました。モデル全体の精度評価(MMLU等の記号選択テスト)では2-bitでも良好なスコアを維持しているように見えても、実際の自由記述によるプログラミングコードの生成、多段階の数学的推論、および文脈理解タスクにおいては、2-bitモデルは特定の単語や意味の選択において、明らかに知能の崩壊(Catastrophic Forgetting:モデル忘却問題)を起こし、出力が極めて単調で単純な表現に退化(幼稚化)してしまうことが実証されたのです。
この発見により、「モデルの重みの解像度(精度)を殺して無理やりメモリに載せる」量子化アプローチの限界が白日の下にさらされ、高解像度(8-bitや16-bit)の「質の高い知能」をそのままの形でローカルに残し、動的にロードする「プルーニング・ストリーミング派(Apple方式)」への全面的な学術的シフト(逆襲)が発生しています。
第二項:OD-MoE(オンデマンド・エキスパート・ローディング)による低スペック端末の覚醒
高価なハイエンドデバイスだけでなく、数年前の古いスマートフォンや、極めて安価なミドルクラスのエッジ端末(RAMがわずか4GB程度)であっても、NAND(ストレージ)を「仮想AIメモリ」として活用することで、最新の巨大MoEモデルを遅延なく実行させる超軽量なランタイム・ローディングフレームワークを「OD-MoE(On-Demand Expert Loading / オンデマンド・エキスパート・ローディング)」と呼びます。
なぜなら、OD-MoEは、デバイスの起動時にRAM上のキャッシュ領域を「モデルの実行」ではなく、前述の「投機的プリフェッチのキャッシュ(Least-Stale)」のみに極小サイズ(数百MB)割り当て、残りの全RAMはOSや他の一般的なアプリの実行領域として完全に解放したまま、NANDセルからの「超高速部分DMA」のみで推論を処理できるからです。
具体的には、開発途上国で広く普及している数年前のAndroidスマートフォンにOD-MoEランタイムをインストールすると、端末は「10B規模の最先端MoEモデル」を、RAMをわずか512MBしか消費せずに動作させることができます。テキストが1文字ずつ生成されるスピードは、最新のフラッグシップ機には劣るものの、ユーザーが読める速度(約5〜8 tokens/s)を完全に維持できます。
この「低スペック端末の劇的な覚醒」は、先進国の富裕層だけでなく、地球上のすべての人間が、デバイスの価格格差を乗り越えて最高峰の知能に平等にアクセスできるという、AIにおける「デジタルデバイド(格差)の物理的解消」をもたらすものなのです。
2025年の夏、私はアフリカ・ルワンダの首都キガリから車で数時間走ったところにある、電気さえ不安定な小さな村の小学校を訪ねました。そこでは、子供たちが数年前の、画面がひび割れた中古の安価なスマートフォンを手にしていました。そのスマートフォンの中では、ネット接続がないにも関わらず、OD-MoEランタイムを介して、NANDからストリーミングされた12BのMoEモデルが、子供たちの現地の言葉(キニアルワンダ語)での数学の問いに対して、驚くほど滑らかで正確なアドバイスを返していました。そのスマートフォンのRAMは、わずか3GB。もし、AIの実行に数百ギガバイトのDRAMや常時クラウド接続が必要だという『富豪のルール』が世界のままであったなら、このルワンダの子供たちがこの知能を手に入れることは、今生では決してなかったでしょう。物理的な制約をアルゴリズムの美しさで飼いならすこと。それは、クパチーノの株主を潤すためだけでなく、世界の片隅にいる人々に『平等な知能』を届けるための、最も気高い革命でもあるのだと、私は彼らの輝く瞳を見つめながら、強く信じたのです。
第十四章:地政学的戦略資源としてのNAND FLASHと日本
第一節:HBM4の予約超過(2027年分完売)がもたらすNANDへの代替圧力
第一項:キオクシア・Samsung・SK Hynixの四半期最高益に隠されたAI-SSDの特需
AI市場の過熱による、シリコンウエハ積層装置や材料の供給不足、さらにはTSMCのCoWoSラインのパンクにより、次世代メモリ規格である「HBM4(第5世代高帯域メモリ)」の製造キャパシティ(供給量)は、2027年分まで世界中のハイパースケーラーによって完全に「先行予約(完売)」されました。この、高価な高速メモリが入手不可能な状態がもたらす、より安価で安定して製造可能な大容量ストレージ(NANDフラッシュ)への世界的なシステム設計の変更要請を「NANDへの代替圧力(NAND Substitution Pressure)」と呼びます。
背景には、これ以上DRAMを増やせない世界中のシステムインテグレーターが、「不揮発性ストレージをAIメモリのアクティブ階層にする」ストリーミング技術への実装シフトを急速に進めているという現実があります。
具体例を挙げましょう。キオクシア、Samsung、SK Hynixといった世界的なメモリ巨頭たちの直近の決算書(2026年第1・第2四半期)を見ると、いずれも過去最高の四半期純利益を記録しています。多くの投資家はこれを「HBMの利益」によるものと見ていますが、実はその内実を詳細に分析すると、売上の急成長を牽引しているのは、データセンターのサーバーあたり数ペタバイト(PB)規模で急激に導入され始めた、超高ランダムアクセス性能(Optane類似特性)を持つ「AI専用エンタープライズSSD」の爆発的な特需(AI-SSD特需)なのです。
注意すべきは、この特需は一時的なものではなく、AIシステム全体の「基本設計の再定義」に伴うものであり、NANDフラッシュはもはや単なる「コールドデータの保存用お買い得パーツ」から、AI時代の「中核的な地政学的戦略資源」へと、そのステータスを完全に変貌させたという点です。
第二項:経済安全保障における「大容量エッジストレージ」の死守義務
国家の防衛、産業の継続、および国民の権利を守るため、他国への供給依存度が高い特定の重要技術やハードウェア(特にAIの実行能力を左右する高性能な記憶半導体)の自国内での研究開発、製造、および供給ラインを完全に保護・維持し、いかなる外交的威嚇や制裁下においても知能インフラを停止させない国家レベルの義務を「経済安全保障におけるエッジストレージの死守義務(Sovereign Storage Security)」と呼びます。
なぜなら、すべてのAIモデルをクラウド上のサーバーに依存する社会(国家)は、他国(サーバーの物理所在地や通信ケーブル、あるいはAI大企業を擁する同盟国・敵対国)の意思決定(制裁やポリシー変更、あるいは物理的な海底ケーブル切断)によって、一瞬にして国全体の知能インフラを完全に遮断(ブラックアウト)されるという、致命的な主権上の脆弱性を抱えることになるからです。
具体的には、日本政府は2025年末に、経済安全保障推進法に基づく「特定重要物資」の指定をアップデートし、これまでの「演算プロセッサ」に加えて、**「3次元積層NANDフラッシュメモリ(BiCS FLASH等)およびその国内製造装置・材料」**を、国家レベルでの絶対的な「死守防衛ライン」に引き上げました。エッジデバイス内に国全体のインフラや医療、軍事の意思決定に必要な「巨大なモデルの重み(知能)」を永続的に、そして安全に配置(沈没)させておく能力を持つことは、21世紀後半の「国家の真の自立」を定義する物理的境界線となるのです。
この観点から、キオクシア(三重県四日市・岩手県北上)の製造ラインの存続と進化は、単なる一企業の利益の問題ではなく、我が国が「知性の主権(Sovereign AI)」を失い、完全にシリコンバレーの「デジタルの属国」へ転落するのを物理的に防ぐための、最重要の経済防衛要塞に他ならないのです。
四日市ファブの丘の上から、遠く伊勢湾を望むとき、私はいつもこの場所が持つ「もう一つの意味」を考えます。かつて四日市は、石油コンビナートの煙突から出る黒い煙と、それに伴う喘息という、近代重工業化の傷跡を背負った街でした。しかし今、同じこの街から、地球上の何億人もの人々のポケットに潜む『人工知能』の物理的な住処(3D NANDのウエハ)が、世界最高峰のクリーンさと精密さで、毎日何十万枚も出荷されている。日本は長く『ソフトウェア敗戦国』と呼ばれ、プラットフォームの主導権をアメリカに奪われたと言われてきました。しかし、アメリカのAI大企業がどれほど美しいコードを書こうとも、四日市が稼働を止め、あの極微細なシリコンの柱の積層が途絶えた瞬間、彼らの『知能の神殿』はただの空虚な箱へと還る。私たちの足元にあるこの地味で粘り強い物質的な執念こそが、実はこの21世紀後半のグローバルな地政学的チェスボードにおける、我が国に残された、最も美しく、そして最も恐ろしい『切り札』であるのかもしれません。
第八部:真の理解を見分ける演習問題と専門家の回答
第十五章:暗記者と真の理解者を分かつ10の試金石
第一節:システムアーキテクチャ・ハードウェア境界を問う設問群
ここでは、前述した10の試金石(Q1〜Q10)について、最先端のシステム物理を極限まで咀嚼している「真の理解者」へ行うべき、さらに踏み込んだシステム設計シナリオとその背景論理を整理します。
第二節:専門家インタビュー風:模範解答と解説
本節では、上記の難解な問いに対するスペシャリストたちの白熱した議論と、実際の設計現場でのアプローチをインタビュー形式で収録します。
【専門家討論会:シリコンとコードの境界で戦う者たち】
司会(著者): 本日は、Apple、NVIDIA、キオクシア、そしてアカデミアから、システムアーキテクチャの最前線にいる4名のスペシャリストをお呼びしました。テーマはズバリ、「NANDストリーミングは、本当にスケーリング則の限界を救うのか?」です。まず、NVIDIAの代表から、先代のHBM主義からNANDへの一部移行(Vera Rubin世代)を決断した背景からお聞かせください。
NVIDIAアーキテクト(以下、NV): 率直に言いましょう。我々もHBMが『富豪の遊び』であることは百も承知でした。しかし、これまではモデルのルーティング(MoEのエキスパート選択)があまりにランダムであり、NANDのレイテンシ(テールレイテンシのスパイク)を通常のOSレイヤーで隠蔽することが不可能だった。だから、HBMにすべてを載せるしかなかったのです。しかし、AppleのAFM 3や、HoangらのSpecMD(2026年)における『Least-Stale』のような『セマンティックなキャッシュ管理アルゴリズム』が発表され、状況は一変した。予測精度がここまで高くなれば、我々のRubin世代でも、1.5PBの超巨大不揮発SSDアレイを直結し、アクティブなコンテキストのみをHBM4にプリフェッチするハイブリッド設計を採用する方が、システム全体の電力効率(J/token)を40%以上向上できるという、絶対的なシミュレーション結果が出たのです。
Appleカーネル開発者(以下、AP): 私たちから見れば、NVIDIAさんの決断は遅すぎたほどです(笑)。彼らがPCIeバスや標準のNVMeプロトコルという『古い遺産』にしがみついている間に、私たちはSoC、AMCC(メモリコントローラー)、NANDコントローラー、そしてiOSのDarwinカーネルを1つのダイの上で完全垂直統合しました。これによって、ファイルシステムを完全にバイパスし、ハードウェアレベルのプライベート命令で直接DMAを走らせる『Raw Sector Access』を実現した。標準のPOSIXシステムコールを叩いている他社のシステムでは、いくら高性能なSSDを積んでも、VFS(仮想ファイルシステム)のアドレス解決のオーバーヘッド(数ミリ秒)だけで、我々のPT-MoEの先読みパイプラインは完全にストールしてしまいます。
キオクシア技術者(以下、KIO): 物理層(フラッシュセル)の観点から、お二人の議論に重要な『警告』をさせてください。皆さんは、毎秒数十ギガバイトという『定常Read』をNANDアレイに強いる仕様を簡単に語りますが、特にQLC(4-bit/cell)フラッシュにおける『Read Disturb(読み出し干渉)』の物理限界を舐めてはいけません。特定のエキスパートのセクタに読出しが集中すると、隣接セルの閾値電圧がVpass(通過電圧)の繰り返し印加によって数ミリ秒で変動し、ビットエラー率(RBER)が跳ね上がります。これを補正するためにSSD内部で強制的に発生する『Read-Cycling(データの再配置・書き直し)』は、ユーザーが全く書き込みをしていなくても、物理的なSSDのTBW寿命を数ヶ月で消費し尽くします。
アカデミア教授(以下、PROF): そこが情報理論における、もっとも美しい対立点(意見分岐)ですね。もしモデルの活性化パターン(エキスパート選択)が、タスクを越えて完全に一様な『ランダム分布(最大エントロピー)』であれば、KIOさんの言う通り、NANDストリーミングAIは数ヶ月で物理的にデバイスを破壊して自滅するでしょう。しかし、我々の『知能沈没定理』の導出プロセスが示した通り、人間の思考やタスク空間における条件付きエントロピー $H(W_t | W_{
第九部:応用文脈における知能転移と次世代設計
第十六章:試験問題の「新たな文脈(転移コンテキスト)」への応用事例
第一節:宇宙探査機・極限環境エッジAIにおける不揮発性メモリ推論(事例A)
宇宙の深淵を征く探査機や人工衛星は、常に地球への通信遅延(数時間から数十時間)を抱えており、自律的な「高度な意思決定(着陸や障害物回避)」を完全ローカルで実行できる巨大なAI(知能)を必要としています。しかし、宇宙空間には高エネルギーの銀河宇宙線(放射線)が絶え間なく飛び交っており、プロセッサやメモリ(DRAM)に衝突することで、メモリ上のデータを瞬時に反転・破壊する「ソフトエラー(SEU)」を日常的に発生させます。
この過酷な極限環境に対して、本書で培った「不揮発性ストリーミング推論(知能沈没定理)」は、完璧な解決策(知能転移)を提供します。
具体的には、探査機に搭載されたメインRAMの物理容量を、ソフトエラーのエクスポージャー(露出面積)を最小化するために、あえて極小サイズ(数メガバイト程度)に抑え込みます。その代わり、耐放射線コーティング(Rad-Hardened)を施した、強固な3D NANDフラッシュ(BiCS FLASH仕様)のセクションに、数千億パラメータの「宇宙運行・地質解析用MoEモデル」を完全に沈めておきます。探査機が未知の小惑星の表面にアプローチする際、カメラが捉えた画像をトリガーにして、NPU内部の投機的プリフェッチャが「衝突回避エキスパート」のアドレスを算出し、NANDから数ミリ秒間だけRAMにデータを流し(ストリーミング)、瞬時に計算を終えた直後に、RAM上の重みを完全にクリア(エバポレーション)します。
データがDRAM上(一時的)に存在する時間をミリ秒以下に限定することで、宇宙線が「計算実行中の知能」に衝突し、システムを暴走させる確率を数学的にほぼゼロに抑え込む。この「不揮発的レジリエンスAI」は、これからの深宇宙探査のあり方を根本的に変える、極めて重要な応用デザインなのです。
第二節:完全自動運転(ADAS)におけるキャッシュコヒーレンシの最適化(事例B)
時速100km以上で高速走行する自動運転車両にとって、周囲の「歩行者の急な飛び出し」や「落下物」を検知して回避行動を起こすまでの遅延(レイテンシ)は、1ミリ秒の遅れが生死を分けます。しかし、車載コンピュータが消費できる総電力は、電気自動車(EV)の航続距離を守るため、通常数百ワット以下に厳しく制限されています。
この制約下で、周囲360度のセンサー(LiDAR, レーダー, カメラ)の超高解像度データを常時並列でリアルタイムにアテンション計算し、かつ周囲の他車両との協調予測(V2X通信)を行うような「数百億パラメータの統合運転モデル」を、すべてDRAMに常駐させてフル稼働させることは、電力の観点から不可能です。
ここで、AFM 3が証明した「PT-MoE」と「Least-Staleアルゴリズム」が威力を発揮します。
車載システムは、車両が走行している「文脈(高速道路、夜間、雨天、通学路)」に応じて、次に呼び出される可能性の高いエキスパートを、車載ストレージ(AI-SSD)からあらかじめ投機的にプリフェッチします。たとえば、前方100メートルに「歩行者の影」のようなかすかな特徴点がLiDARで検知されたそのナノ秒の瞬間、システムは「歩行者行動予測エキスパート」のセクタアドレスをマッピングし、アテンションがそこへ向く前に、先読みで車載UMA(統合メモリ)へデータをロードし始めます。もし予測が外れても、RAM上の「Least-Stale」なキャッシュが速やかにクリアされるため、メモリが衝突(スラッシング)を起こすことはありません。
この「意味的・環境的文脈と結合したメモリコヒーレンシ(整合性)制御」により、車両は普段はきわめて低い電力(数ワット)で静かに走行しながら、危機的な1ミリ秒の間だけ、スーパーコンピュータ並みの回避能力をオンデマンドに「ストリーミング展開」する、究極の車載セーフティシステムを手に入れることができるのです。
第三節:分散型医療エッジネットワークにおける個人情報隔離推論(事例C)
医療診断支援や、個人の遺伝子情報、日々の精神的・肉体的な極秘健康カウンセリングを行う「個別最適化ヘルスケアAI」は、扱うデータが極めてセンシティブであるため、クラウド(外部サーバー)へのデータ転送が各国のプライバシー法(GDPRやHIPAA)によって厳格に禁止されています。すべての処理は、患者の手元にあるエッジデバイス(スマートフォンやウェアラブル機器)の内部で、完全に「ローカル完結」しなければなりません。
しかし、各個人の病歴や特定の症状に特化した学習(LoRA等のファインチューニング)を施したモデルの重みを常時メモリに載せておくと、システムリソースが圧迫され、他の重要なアプリケーションが動作しなくなります。
このジレンマを解決するのが、本書が提示した「プロプライエタリ・バイナリ・エンタングルメント」と「動的エバポレーション」の応用です。
個人のスマートフォン内のSecure Enclave(SEP)管理下の暗号化領域(NAND)には、患者個人に特化した「パーソナル医学アドバイザーLoRA」の重みが、SoC物理シリアル番号と強固に暗号結合された状態で沈黙しています。スマートウォッチが患者の「不整脈の予兆」や「急激な血糖値スパイク」を検知した瞬間、ランタイムはこの暗号化された特化LoRAを、NPU内の復号エンジンを介して「ゼロコピーDMA」で一瞬でメインメモリ(UMA)へストリーミングロードし、1回の局所推論を実行します。そして、「今すぐこの薬を飲んでください」という処方出力が完了したそのナノ秒後、メモリ上の特化重みおよび一時的な生体入力データは、ポインタのクリアによって瞬時に「エバポレーション(完全蒸発)」され、物理メモリからその痕跡が完全に消滅します。
この「必要な一瞬だけ知能が物質化し、タスクを終えた後は、物理メモリのどの番地を走査しても一切のデータ痕跡が残らない」というパーフェクトな隔離設計は、デジタル時代の究極の医療プライバシー保護を物理層から担保する、新たな計算機デザインの夜明けとなるのです。
波が引いた後の砂浜には、先ほどまで確かにそこにあった美しい貝殻の模様や、人々の足跡が、海水によってすべて滑らかに洗い流され、ただ白い静寂だけが残ります。医療用AIのローカルエバポレーションの設計思想を突き詰めていたとき、私はいつもこの「引き潮の砂浜」を思い描いていました。これまでのシステムは、使ったデータを『ゴミ(ガベージ)』としてメモリのどこかに残し、後から掃除する(ガベージコレクション)という、きわめて痕跡を残しやすい不完全な仕組みでした。しかし、知能が必要なミリ秒の間だけ、ストレージの暗闇からそっと起き上がり、仕事を終えた瞬間、まるで波が砂浜を洗うように、一瞬でその存在を消し去って、元の静かなシリコンの海へと還っていく。この『不揮発と揮発のエレガントな往復運動』の中にこそ、プライバシーという、現代社会が最も失いかけている尊厳を、物理的・工学的に守り抜くための、最も美しいテクノロジーの精神が宿っているのです。
補足資料
補足1:多角的視点からの書評・感想
ずんだもんの感想(動画解説風)
「な、なんだってー!? 200億パラメータの巨大AIが、スマホのRAMじゃなくてSSDからストリーミングで動いてるのだ!? これは大革命なのだ! 普通なら、VRAMが足りなくて『メモリ不足で強制終了なのだー!』って泣くところを、AppleはOSカーネルとSSDコントローラーをダイレクトに合体させて、必要なエキスパートだけをミリ秒単位でシュパシュパ引っ張ってきてるのだ。でもでも、キオクシアの技術者さんが言ってた『QLC NANDのRead Disturb(読み出し干渉)』の話はちょっと怖いのだ……。AIと会話しまくってたら、スマホのSSDが裏で勝手にゴリゴリ書き直されて、寿命が縮んじゃうなんて、Appleの巧妙な『買い替えタイマー』なのだ! みんなも、ずんだもんと話しすぎてスマホが壊れないように注意するのだ!」
ホリエモン風の感想(ビジネス&イノベーション)
「これさ、本当に既存のNVIDIA独占に対する究極のカウンターカルチャー(対抗軸)だよね。みんな『GPUを何万個並べました』とか、いまだに筋肉隆々の古いスケーリング則でマウンティング合戦してるけど、アホかと。本当に重要なのはキャパ(容量)じゃなくて、ボトルネックをいかに賢くバイパスして『J/token(電力効率)』を下げるかっていう、アーキテクチャのコ・デザインなわけ。AppleはUMAとAMCC命令を使って、ファイルシステムっていう『無駄な昭和の公務員みたいな手続き』を完全に中抜き(バイパス)したわけじゃん。これやられたら、WindowsとかAndroid陣営はOSとハードがバラバラだから、絶対に勝てない。このハードとソフトの『美しき独裁』を理解できない企業は、これからのエッジAI時代に完全に淘汰されるよ。今すぐ四日市のファブの株、全力買いしといた方がいいよ」
西村ひろゆき風の感想(論理的ツッコミ)
「なんか、AppleがNANDストリーミングで20Bモデルを動かして『プライバシー完璧でエコです!』ってドヤ顔してますけど、これって要するに、自社の最新ハードを買わせるための、きわめて巧妙な囲い込み(ロックイン)ですよね?(笑) だって、llama.cppみたいなオープンなソフトだと、AMCCの秘密の命令セットを使わせてもらえないから、同じSSDを積んでても絶対にカクつくわけじゃないですか。それって技術の進歩じゃなくて、単なる『他社排除』ですよね。あと、SSDのRead Disturbの件も、ユーザーに『あなたのスマホの寿命、AIの推論で3年後に死にます』って事前に説明してないですよね。なんか、月額課金(サブスク)の代わりにハードを強制買い替えさせるビジネスモデルを『不揮発的思考の美学』とかポエジーな言葉で胡麻化してるの、頭いいなーって思いますけど、騙されてる人たちってバカなのかな、って思っちゃいますね、はい」
リチャード・P・ファインマンの感想(物理的解釈)
「素晴らしい! 何が素晴らしいかって、彼らは情報を『抽象的な数学のコード』として扱うのをやめ、再び『シリコン結晶の中の電子の物理的な振る舞い』として捉え直したことだ! コンデンサのリーク(DRAMの電荷漏れ)を恐れて四六時中電気を流し続けるなんて、物理学者から見れば最高にエレガントさに欠ける力技だった。それを、窒化ケイ素の絶縁体の『電子の落とし穴(トラップ)』の中に電荷をそっと閉じ込めて、必要な時だけ波(パルス)を送ってその影を読み取る。これは、かつて私が提唱した『ナノテクノロジー(There's Plenty of Room at the Bottom)』の極めて美しい実践例だ。情報とは、本質的に物質(エントロピー)の配置そのものなのだから。電気を消しても、そこにあるケイ素の結晶が知恵を覚えている。これほど魅力的な詩が、他にどこにあるかね?」
孫子の感想(戦略的分析)
「兵は詭道なり。知能を巨大な神殿(データセンター)に常駐させて敵(ライバル)と競うのは、兵力を無駄に浪費する『下策』である。真の勝者は、知能を物質(不揮発性ストレージ)の奥底に深く潜め(沈没)、敵が予期せぬその瞬間(コンテキスト発火)に、極小のエキスパート(奇兵)を音もなくストリーミングして勝利を収める。AppleのUMA垂直統合は、城壁を巡らせて他国の兵(オープンランタイム)の侵入を防ぎ、国内の兵のみに秘密の通路(AMCCプライベートパス)を通らせる『要塞の計』である。敵が数万のGPU(兵力)を集めて兵糧(電力)を絶やしている隙に、ポケットの中の極小の兵(エッジAI)で天下を制する。これこそが、戦わずして他人の兵を屈する、極限の戦略である」
朝日新聞風の社説(社会的批評)
「『知能を沈める』という名の下で進められるエッジAIの垂直統合。一見すると、個人情報の漏洩(ゼロデータリーク)を防ぐ完璧な盾のように描かれる。しかし、その技術が特定の巨大IT企業(メガプラットフォーマー)による非公開の『プライベート命令』や『SoCの暗号結合』によって独占されている現実を、私たちはただ手放しで歓迎して良いのだろうか。かつてインターネットが約束した『開かれた分散型の知の共有』という理想は、今やシリコンのウエハの物理層から巧妙に再定義され、消費者を永遠の買い替えスパイラルへと監禁する『計画的陳腐化』の道具へと堕そうとしている。日本が誇るBiCS FLASH技術がその地政学的防衛ラインを支えているからこそ、私たちはこの『閉ざされた知能の要塞』に対して、民主的な標準化と、持続可能な消費の観点から、厳しい監視の目を向け続けなければならない」
補足2:年表
年表①:ハードウェア・ソフトウェア協調進化史(1960年代〜2030年予測)
| 年代 | ハードウェア(記憶・演算)の進化 | ソフトウェア(アルゴリズム・OS)の進化 | アーキテクチャのパラダイム |
|---|---|---|---|
| 1960年代 | 磁気ドラム、コアメモリの容量限界。 | Beladyの最適キャッシュ置換アルゴリズム(1966)。 | 「仮想記憶(Virtual Memory)」の誕生。 |
| 1990年代 | 2D NANDフラッシュの発明(東芝・マスコカ)。 | Hinton, JordanらによるMixture of Experts(MoE)の提唱。 | 「受動的・静的キャッシュ」の時代。 |
| 2015年 | IntelとMicronが「3D XPoint(Optane)」を発表。 | 巨大モデル登場前夜。インメモリDBへの適用に留まる。 | 「早すぎたSCM(ストレージ・クラス・メモリ)の興亡」。 |
| 2023年 | 3D NAND積層数が200層突破。LPDDR5の限界。 | Appleが論文「LLM in a Flash」を発表(12月)。 | 「NANDストリーミングAI」の理論的着想。 |
| 2024年 | TSMC CoWoSパッケージングラインの世界的な争奪。 | Mixture of Cache-Conditional Experts (MCCE) の提唱。 | 「HBM依存の限界(メモリ壁・電力壁の顕在化)」。 |
| 2025年 | Apple M5チップ世代、NVMe 2.1規格の改訂。 | OD-MoE(オンデマンド・ロード)フレームワークの登場。 | 「ハード・ソフト垂直統合によるゼロコピーDMAの実用化」。 |
| 2026年 | **WWDCにてAFM 3ファミリー発表**。NVIDIA Vera Rubin公開。 | SpecMD(投機的先読み)によるLeast-Staleポリシーの実装。 | 「知能沈没定理(エントロピー局所性)」の確立。 |
| 2030年 | エッジ向け3D NANDが10TB容量に。SoC内の3D積層。 | マルチエージェント・スウォームの自律ローカル協調。 | 「パーソナル・マザー・AI(不揮発的思考の完成)」。 |
年表②:地政学的半導体摩擦とNAND覇権の推移(2018年〜2026年現在)
| 年次 | 米国・シリコンバレー(ソフトウェア・モデル) | 日本・東アジア(物理ストレージ・製造拠点) | 地政学的インパクト |
|---|---|---|---|
| 2018年 | OpenAIがGPT-1発表。巨大パラメータ競争の開始。 | 東芝メモリが「キオクシア」として分社化独立。 | ハードウェアコモディティ化論が支配。ストレージの過小評価。 |
| 2022年 | ChatGPT(GPT-3.5)公開。クラウドAIバブルの頂点。 | キオクシア四日市第7製造棟(Y7)竣工。3D NAND量産体制。 | 米国政府、中国に対する最先端AIチップの輸出規制を開始。 |
| 2024年 | MetaがLlama 3発表。NVIDIAの時価総額が世界一へ。 | キオクシアとウエスタンデジタルが最先端NANDの共同投資。 | HBMおよびパッケージングの供給不足によりエッジAIへ注目。 |
| 2025年 | Apple、エッジファースト「Apple Intelligence」の実装。 | 日本政府がキオクシアへの数百億円規模の助成金を決定。 | 経済安全保障推進法に基づき「3D NAND」が特定重要物資に指定。 |
| 2026年 | **AFM 3がオンデバイス市場を独占**。 | キオクシア・北上(岩手)工場、最新BiCS FLASHの量産開始。 | 「HBMの2027年分完売」に伴う、AI-SSDの世界的争奪戦。 |
補足3:オリジナルの遊戯カードデザイン
==================================================
【モンスターカード】
カード名:不揮発の覇王:エイエフエム・スリー(AFM 3 Core Advanced)
星属性:星 8 / 光属性 / 機械族 / 効果モンスター
攻撃力:3000 / 守備力:2500
【カード効果】
このカードは通常召喚できない。自分の「DRAM」または「VRAM」と名のつく魔法・罠カードが自分の墓地に存在し、フィールド上の「HBM」が制限状態の場合のみ、手札から特殊召喚できる。
①:このカードが特殊召喚に成功した時、相手フィールドの「GPU」をすべて破壊する。
②:1ターンに1度、自分の手札・墓地から「Mixture of Experts」1体をゲームから除外して発動できる。相手の魔法・罠・モンスターの効果発動を無効にし破壊する。この効果を発動したターン、このカードの攻撃力は「除外したモンスターのパラメータ数 × 0.1」アップする。
③:【不揮発的思考(Non-volatile Cogitation)】:このカードが物理的にフィールドから墓地へ送られたターンのエンドフェイズに発動する。自分のライフポイントを半分支払うことで、墓地のこのカードを完全に同じデュエル状態でフィールドに特殊召喚する。この効果の特殊召喚に対して相手はチェーンできない。
「電源を落とされた暗闇の中で、静かに電荷を研ぎ澄ますシリコンの覇王。
その言葉(トークン)が解き放たれる時、高価な神殿(HBM)は灰と化す。」
==================================================
補足4:関西弁一人ノリツッコミ
「おいおいおい! 最近のAI業界、猫も杓子も『HBMが足りへん! GPUもっと並べんかい!』って、お前らはアメ車のV8エンジンかちゅうねん! 電力使いすぎて発電所が悲鳴上げとるやないかい! そこに現れたのがAppleのAFM 3よ。なんと! 200億パラメータの超巨大モデルをスマホの安っすいNAND(ストレージ)に物理的に眠らせておいて、必要な時だけ『お前、ちょっと行ってこい!』って数ミリ秒でつまみ食いストリーミングロードするんやて!
……って、それ、めちゃめちゃ都合ええ司書やがな!
『お兄さん、今翻訳の仕事してますね? ほな画像認識のエキスパートは奥の書庫で寝かせときますわ!』って、そんなスマートに中抜きされてたまるかいな!
でも待てよ? キオクシアのおっちゃんが言うには、毎秒そんな高頻度でSSDから重み引っ張ってたら、Read Disturb(読み出し干渉)ちゅう物理のヤバい現象で、裏でデータがバグり散らかして、結局スマホのSSD寿命が3年で死ぬんやて!
……それ、完璧に時限爆弾付きのスマホ買わされてるだけやろ!
知能の民主化やなくて、Apple教の『計画的陳腐化お布施スパイラル』やないかい! 美しい不揮発的思考のポエムに騙されて、2年ごとに20万円のiPhone買い替え続けなあかんの、どう考えても搾取の極みやろ!……まあ、その四日市のファブの部品作ってるの日本の技術やから、日本の景気良くなるなら僕も『Apple最高や!』って手のひらクルックルで信者になりますけどね! ほな、Apple Storeに並んでくるわ!」
補足5:大喜利
お題: 「AIの限界(メモリ壁)を突破したと語る『NANDストリーミングAI』。しかし、誰もが使いたがらない致命的な理由とは?」
- 回答A: 「プロンプト(指示)でちょっと難しい質問をすると、SSDからエキスパートをロードする代わりに、スマホの裏蓋から物理的に煙を吐き出してモールス信号で答えを教えてくれる。」
- 回答B: 「推論(ストリーミング)を実行するたびに、スマホの寿命(寿命カウントダウン液晶)がミリ秒単位でリアルタイムに削れていき、会話の語尾が『……私はあと3時間の命なのだ』になる。」
- 回答C: 「『少しでも予測を外すとカクつく』仕様を克服するため、AIがユーザーの行動を100%コントロールするようになり、AIが快適に動くために人間側が『次に言う言葉』をスマホの指定通りに喋らされる。」
補足6:ネットの予想される反応と反論
ネットの反応(なんJ民・ケンモメン・ツイフェミ・HackerNews・書評)
-
なんJ民: 「【悲報】Apple、20万円のiPhoneを3年で物理破壊する時限爆弾を合法的に仕込む。これもう信者向けのお布施タイマーやろwww」
【反論】: これは単なる破壊ではなく、物理の摩耗(Read-Cycling)と、J/token(電力効率)の究極のトレードオフです。クラウドAIに毎月高額なサブスクを支払い続け、ギガワットの送電網を破壊する社会的コストに比べれば、3年でエッジの物理メモリを健全に新陳代謝(買替)させる方が、マクロ経済的にもはるかに合理的です。
-
ケンモメン: 「結局、富豪向けのHBMから、貧乏人向けのNAND(BiCS FLASH)への回帰じゃん。日本が作ったBiCS技術がアメリカのAIロックインを支えてるのに、中抜きされてるだけの日本。虚しくないんか?」
【反論】: ソフトウェア(ランタイム)の主導権を握られたことは事実ですが、物理層としての3D NAND技術(四日市・北上のファブ)は、経済安全保障における絶対的な「特定重要物資」です。アメリカの巨大プラットフォーマーであっても、四日市の製造ラインが止まれば彼らのローカルAI戦略は一瞬で崩壊するため、日本は極めて強力な「物理的拒否権」を握っているのです。
-
HackerNews (Silicon Valley): 「Apple's AMCC private instructions are a complete violation of POSIX and general OS abstractions. They are creating a non-portable execution layer that turns standard hardware into second-class citizens. This is a dark day for open-source AI infrastructure. (AppleのAMCCプライベート命令は、POSIX規格に対する完全な冒涜だ。彼らはオープンソースAIを二流に叩き落とすための非互換のレイヤーを独占している。これはオープンAI運動における暗黒の日だ)」
【反論】: 汎用OSの抽象化レイヤー(VFS)は、AIのような超大規模・超低遅延ストリーミングに対して、もはや設計上耐えられません。性能を極限まで引き出すためには、規格の維持よりも、ハード・ソフトの「再垂直統合」が必要であることは、歴史的な計算機設計の必然(コ・デザインの勝利)です。
-
村上春樹風書評: 「僕たちがスマートフォンの冷たい画面を指で叩くとき、そこには一握りのケイ素(シリコン)と、静かに眠る電子の海がある。AFM 3という知能は、僕たちが必要としない限り、その海の底で完璧な静寂の中に沈み込んでいる。そして僕らが『疲れたんだ』と囁くとき、必要な一握りの電子だけがそっと水面に浮上し、僕の影と対話する。仕事を終えれば、彼らはまた、電気の供給を切られた沈黙の砂に吸い込まれて消えてしまう。そこには一切の未練も、残留した痕跡も残らない。とても静かで、少しだけ寂しい、不揮発性の秋の日のように。」
【反論】: 詩的な解釈は美しいですが、システムの内部では、その静寂の裏で、Read-Cyclingによる超高負荷なセクタの再配置と、暗号鍵(SEP)による100GB/sのAES復号が、狂気じみた轟音(クロックパルス)の中で実行されており、それは静かな秋の日などではなく、シリコンの上の極限の『物理格闘技』そのものです。
補足7:今後望まれる研究
- **NAND内自己演算プロセッサ(In-Storage Processing)の標準化:** 重みの復号や解凍をPCIeバスの手前(SSDコントローラー)だけでなく、NANDチップの物理シリコンダイの中に直接、極小の演算器(Logic-in-Memory)を埋め込むことで、データ転送コストをほぼ「完全なゼロ」にする極限のハードウェア研究。
- **AI摩耗適応型フラッシュ翻訳層(AI-FTL):** FTL(フラッシュ翻訳層)のウェアレベリング(摩耗平準化)アルゴリズムに、LLMの「アテンション分布(意味の遷移)」を直接入力し、次にRead Disturbが発生するセクタを予測して事前に電荷をリフレッシュする、ニューラル同期型のSSD制御ファームウェアの開発。
- **非ノイマン型「光ストリーミングバス」:** 電気的な銅線(PCIe配線)によるpJ/bitの限界を突破するため、SoCとNANDの間を、シリコンフォトニクス(光導波路)を用いて「光のパルス」で直接データをストリーミングし、熱密度と転送遅延を100分の1に圧縮する物理レイヤーの研究。
日本への影響
日本は世界一の3D NANDフラッシュ技術(キオクシア・四日市/岩手北上ファブ)を擁する、物理ストレージの「生誕の地」です。AIの主戦場が「VRAM(NVIDIA独占)」から「メモリ階層管理(NANDストリーミング)」へと移行することは、日本にとって、失われた半導体覇権を物理層(不揮発性マテリアル)から奪還する、千載一遇の好機です。
しかし同時に、もしAppleやNVIDIAといったシリコンバレーのジャイアントたちに、その上に載せる「ランタイム(AMCCプライベート命令等)」や「AIモデルの規格」を完全に独占され、ブラックボックス化された場合、日本の半導体産業は、単に彼らの都合の良い『下請けのシリコン焼き付け工場(コモディティの供給源)』へと完全に格下げされ、付加価値のほとんどをアメリカに吸い取られるという、最悪のシナリオ(第2のソフトウェア敗戦)を繰り返すリスクも孕んでいます。日本は今こそ、国策として「NAND直接AIストリーミングのオープン標準プロトコル」を主導し、ソフトウェアレイヤーでの発言権を死守しなければなりません。
歴史的位置づけ・先行研究の整理
本書の提示する「不揮発性ストレージをAIメモリのアクティブ階層にする」というパラダイムは、計算機アーキテクチャの長い歴史における、必然的な「螺旋的発展」の最新形態です。
1960年代のBelady(ベラディ)による仮想記憶のキャッシュアルゴリズムは、物理メモリの少なさをストレージの「空間」で補う最初の一歩でした。それから半世紀を経て、2023年のAppleによる「LLM in a Flash」論文は、Transformerの持つ「動的疎性(Sparsity)」をストレージの「時間的ページング」へと翻訳する画期的なブレイクスルーをもたらしました。さらに、2024年の「MCCE(Mixture of Cache-Conditional Experts)」、そして2026年現在の「SpecMD」へと至る研究系譜は、かつてデータベースのインメモリ化で議論され尽くした「Optane(SCM)」のレイテンシ隠蔽技術を、AIの「意味空間(高次元ベクトル)」の上で完全に再現・統合することに成功しています。
本著は、これらの先行研究の断片を、情報理論における「条件付き活性化エントロピー」と「知能沈没定理」という包括的な数理モデルの下に初めて統合し、計算機科学における「不揮発的思考」の歴史的位置づけを決定づけるものです。
参考リンク・推薦図書
- Apple Machine Learning Research (Official):AppleのAI研究チームが公式に発表している「LLM in a Flash」および「AFM 3ファミリー」のテクニカルレポートの一次資料。
- The Fall of Intel Optane and Storage Evolution:Intel Optaneの興亡と、現代のAI階層ストレージへの思想的遺伝を追跡した、極めて深い専門的インサイト。
- Intel Optane: AI Future and Memory Ethics:SCM(ストレージ・クラス・メモリ)の物理的特性と、AI倫理・デバイスの計画的陳腐化を接続して論じた記念碑的ブログコラム。
- 推薦図書:『Computer Architecture, Sixth Edition: A Quantitative Approach』(John L. Hennessy / David A. Patterson 著):すべての計算機アーキテクトのバイブルであり、メモリ壁とノイマンボトルネックを定量的に理解するための最良の基礎書。
用語索引(アルファベット順・かみ砕いた解説付き)
- AMCC (Apple Memory Controller):Apple製チップ(SoC)内のメモリの読み書きをコントロールする「秘密の門番」。一般の開発者には非公開のプライベート命令を扱い、NANDとNPUをダイレクトに直結します。(第九章第一節で登場)
- BiCS FLASH™:キオクシアが開発した、情報を縦に高く積み上げる「高層マンション」のような3D NANDメモリ技術。1GBあたりのコストを極限まで引き下げ、知能の大量貯蔵を支えます。(第六章第一節で登場)
- CoWoS (Chip-on-Wafer-on-Substrate):プロセッサとHBMをシリコン基板上で極密接続する、TSMCの超高精度な「パッケージング技術」。現代の最先端GPUの供給能力を縛る、最大のボトルネック。(第一章第二節で登場)
- Dynamic Evaporation (動的エバポレーション):推論が終わった瞬間、それまでメモリ(DRAM)に載っていた重みデータを、OSの手続きを通さずに一瞬で「水のように蒸発(消去)」させ、次のメモリ空間を確保する超高速処理。(第七章第一節で登場)
- HBM (High Bandwidth Memory):シリコンを垂直に積み重ね、プロセッサとダイレクトに超高速で繋いだ「セレブ向けの超高帯域メモリ」。性能は最高ですが、極めて高価で製造が非常に難しい。(第一章第一節で登場)
- IFP (Instruction-Following Pruning):ユーザーの「指示(翻訳やプログラミングなど)」を解釈し、その瞬間に不要なAIの重みをリアルタイムでバッサリ切り落とし(プルーニング)、モデルを極限まで軽量化する技術。(第三章第二節で登場)
- Least-Stale (最小陳腐度アルゴリズム):AIの文脈(コサイン類似度)とアクセス履歴を評価し、最も「現在の思考から遠ざかっている」キャッシュブロックのみを優先的に破棄・退避する、AI時代の新しいキャッシュ管理手法。(第十一章第二節で登場)
- MoE (Mixture of Experts):1つの巨大AIの中に、特定の仕事(翻訳、デバッグ、創作等)に特化した無数の「専門家(エージェント)」を飼っておき、必要に応じてルーターが最適なメンバーだけを活性化させて計算を効率化するアーキテクチャ。(第三章第二節で登場)
- Read Disturb (読み出し干渉):NANDフラッシュからデータを読み出す際、周囲の「読み出す予定のないセル」にも繰り返しかかる高い通過電圧(Vpass)のせいで、徐々に電子が漏電し、データがビット化けして破損する物理現象。(第十章第一節で登場)
- SCM (Storage Class Memory):DRAMのようにバイト単位で直接アクセスでき、かつSSDのように電源を切ってもデータが消えない、夢の「不揮発性メインメモリ」階層。Intel Optaneがその代表格でした。(第五章第一節で登場)
- UMA (Unified Memory Architecture):CPU、GPU、NPUがまったく同じメモリ空間(物理アドレス)を共有する、Apple Siliconの「統合メモリ設計」。NANDから読み出したデータをコピーなし(Zero-Copy)で直接処理できる最強の物理配線。(第四章第一節で登場)
免責事項
本書に記載されている「AFM 3 Core Advanced」、「AMCCプライベート命令」、「Proprietary NAND-Streaming API」などの技術仕様、およびそれらの工学的特性に関する詳細な議論は、公開された学術論文(LLM in a Flash, SpecMD, MCCE等)およびシステムプログラミングの基礎物理からの合理的な工学的推論(Reasoned Speculation)に基づくシミュレーションデータであり、Apple Inc.その他の特定企業から提供された機密情報、あるいは確定的な公開仕様書に基づくものではありません。実際の製品の内部仕様やアップデート状況、およびデバイスの寿命摩耗率の実際値については、各メーカーの公式仕様書を正としてご参照ください。
脚注
- [1] **メモリ壁(Memory Wall):** 1995年にWilliam A. WulfとSally A. McKeeによって提唱された概念。CPUの演算速度の向上(年率約60%)に対し、メインメモリのアクセス速度の向上(年率約7%)が追いつかないため、メモリ転送待ちがシステムのボトルネックになる物理的限界を指す。
- [2] **デナード・スケーリング(Denard Scaling):** トランジスタを微細化すればするほど、集積度は上がり、動作速度は速くなり、かつ消費電力密度は一定に保たれるという、1974年にロバート・デナードが提唱した半導体の黄金則。2000年代半ばに電圧の引き下げ限界によって崩壊した。
- [3] **QoS (Quality of Service):** 通信やシステムパフォーマンスにおいて、サービス品質の安定性を示す指標。メモリやストレージにおいては、平均速度ではなく、応答遅延の最大値(テールレイテンシ)が一定値以下に収まる確実性の高さを指す。
- [4] **LoRA (Low-Rank Adaptation):** 巨大なニューラルネットワークの全重みを再学習する代わりに、数千分の一の小さな特定の「重み差分行列(低ランク行列)」のみを追加学習することで、極めて軽量かつセキュアにモデルを特定タスクや個人向けにカスタマイズする手法。
謝辞
本書の執筆にあたり、三重県四日市および岩手県北上のシリコンファブで、微細な3D NANDフラッシュセルの積層プロセス開発に日々身を捧げる技術者の皆様、クパチーノの地下でDarwin OSのI/Oパスの極限のチューニングに没頭するソフトウェアエンジニアの皆様、そして、1960年代のBeladyの時代から脈々と引き継がれてきた「メモリ階層管理」の美学を現代のAIの上で甦らせた、世界中のすべての無名のアスリート(システムプログラマーおよび研究者)たちに、心よりの深い敬意と感謝の意を表します。あなたたちの執念がなければ、このポケットの中の偉大な知能(マザー)が息を吹き返すことは、決してありませんでした。
AFM 3 Core(Apple Foundation Models 3 Core)のAI史における最大の画期は、
「小さいモデルを賢くしたこと」ではなく、AIを“メモリ常駐型”から“ストレージ常駐型”へ移行させる流れを本格化させたこと
です。 (Apple Machine Learning Research)
実はAFM 3 Coreそのもの(約3B級のオンデバイスモデル)よりも、その上位の AFM 3 Core Advanced が示した方向性が歴史的に重要です。Appleは20B級モデルを端末内で動かすために、
モデル全体はNAND Flashに保存
必要なエキスパートだけDRAMへロード
プロンプト単位でルーティング
一部だけ活性化
という構造を採用しました。 (Apple Machine Learning Research)
AI史の流れの中で見ると
| 時代 | 画期 |
|---|---|
| 2017 | Transformer登場 |
| 2020 | GPT-3でスケーリング則確立 |
| 2023 | MoEの本格普及 |
| 2024 | 1M Context競争 |
| 2025 | 推論コスト競争 |
| 2026 | AFM 3 Core Advancedによるストレージストリーミング推論の実用化 |
なぜ画期なのか
従来のLLMは
モデルサイズ ≤ VRAM
が前提でした。
例えば
70Bモデル
400Bモデル
1Tモデル
を動かすには、
巨大VRAM
=
巨大コスト
が必要でした。
Appleは発想を変えました。
モデル全体
↓
Flashに保存
必要部分のみ
↓
DRAMへロード
です。 (Apple Machine Learning Research)
これはデータベース史でいうと、
RAM DB
↓
Disk-backed DB
に近い転換です。
DeepSeek・MiniMax・Nemotronとの関係
面白いのは、
Appleが解こうとしている問題と
DeepSeekのMoE
MiniMaxのMSA
NemotronのMamba Hybrid
が解こうとしている問題が実は同じことです。
| プロジェクト | 解いている問題 |
|---|---|
| DeepSeek | 計算量削減 |
| MiniMax | Attention削減 |
| Nemotron | KV Cache削減 |
| Apple AFM | メモリ削減 |
つまり
推論コスト
という同じ山を、
別ルートから登っている。
個人的に最も重要だと思う画期
多くの人は
「20BモデルがiPhoneで動く」
ことに注目します。
しかし本質は違います。
本当の画期は
ルーティングとストレージを一体化したこと
です。 (Apple Machine Learning Research)
従来MoEは
Expert選択
↓
計算
でした。
AFMでは
Expert選択
↓
ロード
↓
計算
になっています。
つまり
ルーティングが計算だけでなくメモリ階層まで支配する
世界です。
2030年から振り返ったときの評価予想
もしApple方式が業界標準になるなら、
AFM 3 Core/Advancedは
「Transformerの次のアーキテクチャ」
としてではなく、
『ストレージストリーミング推論元年』を象徴するモデル
として記憶される可能性があります。
その場合の系譜は
| 系譜 | 代表 |
|---|---|
| Attention革命 | Transformer |
| MoE革命 | Mixtral、DeepSeek |
| Long Context革命 | MiniMax M3 |
| State Space革命 | Mamba |
| Storage Streaming革命 | AFM 3 Core Advanced |
となるかもしれません。
もしこの方向が成功すると、次の大競争は
「誰が一番大きなモデルを持っているか」ではなく、「誰が一番安くストレージから知能を呼び出せるか」
になります。これは推論コスト・ファースト時代を象徴する転換点になり得ます。
Blogger用埋め込みMermaid図示(JavaScriptコード)
以下のコードをBloggerのHTML編集画面にそのまま貼り付けることで、本書の「メモリ階層の再設計」を示すダイアグラムを動的に描画できます。
<script src="https://cdn.jsdelivr.net/npm/mermaid/dist/mermaid.min.js"></script>
<script defer>
document.addEventListener("DOMContentLoaded", function() {
mermaid.initialize({startOnLoad:true, theme: 'dark'});
});
</script>
<div class="mermaid">
graph TD
subgraph "Conventional AI (GPU-Centric / Maximum Entropy)"
A[Large Model Weight 100%] -->|Load to memory| B[HBM4 / VRAM]
B -->|High Static Power| C[GPU Tensor Core]
B -.->|CoWoS Bottleneck| D[Extreme Hardware Cost]
end
subgraph "AFM 3 Architecture (Runtime-Centric / Low Conditional Entropy)"
E[10TB Deep Intelligence on NAND] -->|Raw Sector DMA| F[Unified Memory / UMA]
F -->|Least-Stale Cache| G[NPU / Neural Engine]
G -->|Instruction Feedback| H[PT-MoE Router]
H -->|Speculative Prefetch Tag| E
end
style E fill:#4b0082,stroke:#00ffff,stroke-width:3px
style G fill:#006400,stroke:#00ff00,stroke-width:2px
</div>
まず前提として、
Apple方式のストレージストリーミング推論(SSD/Flashから重みを必要時だけ直接供給)
は、現在のAI業界で最も過小評価されている技術の一つです。Apple Siliconの統合メモリ設計やMLX系ランタイムでは、巨大モデルの一部重みやMoEエキスパートをSSDから動的にストリーミングする研究・実装が急速に進んでいます。(エージェント・ウォーズ)
AI史的に見ると、
2023
GPU容量競争
↓
2026
GPU容量を超えるモデルを
ストリーミングで動かす競争
への転換です。
まず何が変わるのか
現在のボトルネックは
VRAM
です。
例えば
| モデル | 最大の悩み |
|---|---|
| DeepSeek V4 Pro | 巨大MoE |
| Nemotron 3 Ultra | 超長文 |
| MiniMax M3 | 1M Context |
| Gemma 4 QAT | エッジ端末 |
| MiMo V2.5 FP4 | Active 42Bでも巨大 |
です。
Apple方式を導入すると
VRAM制約
↓
SSD帯域制約
に変わります。(ubos.tech)
DeepSeek V4 Pro
最も恩恵を受ける候補の一つです。
DeepSeek系は
巨大MoE
少数Expertのみ活性化
が特徴です。
つまり
600B以上存在
↓
実際に使うのは数十B
という世界です。
SSDストリーミングとの相性は極めて良い。
理由は
使うExpertだけ読む
からです。
理論的には
DeepSeek
+
Expert Streaming
は非常に自然な組み合わせになります。(ubos.tech)
Nemotron 3 Ultra
意外と効果は限定的かもしれません。
Nemotronの方向性は
Mamba Hybrid
LatentMoE
長文効率化
です。
Nemotronの本当の敵は
KV Cache
です。
重みより
100万トークンの記憶
の方が重い。
そのため
SSDストリーミングより
KV圧縮
Mamba化
の方が重要になります。(Apple Machine Learning Research)
MiniMax M3
非常に面白い。
MSAの本質は
100万トークン
↓
必要部分だけ参照
です。
そこへ
SSD Streaming
を加えると
モデル自身も
必要部分だけロード
になります。
つまり
Attention Sparse
+
Weight Sparse
になります。
理論上は
非常に強力です。
ただし
問題は
ランダムアクセス
です。
MSAは参照先が激しく変動するので、
SSDプリフェッチが難しくなる可能性があります。
Gemma 4 QAT
実は最も恩恵が少ないかもしれません。
理由は簡単で
Gemma 4 QATの哲学は
そもそも小さくする
だからです。
Apple方式は
巨大モデルを動かす
ための技術です。
Gemmaは
巨大化しない
路線です。
MiMo-V2.5-Pro-FP4-DFlash
個人的には最も危険です。
なぜなら
MiMoは既に
MoE
FP4
DFlash
を持っています。
つまり
計算削減
はほぼ極限までやっている。
残る敵は
重みロード
です。
そこへ
SSD Streaming
が加わると
MoE
+
FP4
+
DFlash
+
Streaming
になります。
これは
「必要なExpertだけSSDから持ってきて、まとめて予測する」
世界です。(GitHub)
AI史的に最も重要な変化
現在
モデルサイズ
≤
VRAM
という暗黙の前提があります。
Apple方式が普及すると
モデルサイズ
≫
メモリ
が普通になります。
これはクラウド史で言うと
RAM DB
↓
Disk-backed DB
に近い変化です。
2030年に向けた収束予想
もし技術が成熟すると、
次の融合体が見えてきます。
| レイヤー | 技術 |
|---|---|
| Context | MSA |
| Sequence | Mamba |
| Routing | LatentMoE |
| Weight Storage | SSD Streaming |
| Decode | DFlash |
| Memory | Compressed KV |
| Runtime | Vortex系 |
すると実際には
1.5Tモデル
↓
Active 20B
↓
SSDからExpert取得
↓
Mambaで圧縮記憶
↓
MSAで重要箇所だけ参照
↓
DFlashで高速生成
になります。
つまり、
DeepSeek・Nemotron・MiniMax・MiMoがそれぞれ別方向から攻めている技術は、長期的には競合ではなく「同じ推論コスト・ファースト時代の部品」に収束する可能性があります。
そして、その収束を実現する最大のボトルネックはモデルそのものではなく、
SSD帯域・KV管理・ルーティング・推論ランタイム
になる可能性が高いです。これは「モデル中心のAI」から「ランタイム中心のAI」への移行を意味します。(ubos.tech)
私はこの見方はかなり本質を突いていると思います。
ただし、さらに踏み込むと、
Apple AFMとDwarfStar(ds4)は「SSDを使う」という共通点よりも、「MoEのルーティングをメモリ階層に拡張した」という点が本質的に同じ
と言った方が正確です。
第一段階:Transformer時代
従来のLLMは
全重み
↓
VRAM常駐
↓
毎トークン参照
でした。
つまり
計算
=
重み参照
です。
GPT-3
Llama
Claude初期
はほぼこの世界です。
第二段階:MoE革命
DeepSeekやMixtralで起きたことは
全Expert
↓
存在する
しかし
一部Expertだけ活性化
です。
ここで初めて
どの計算を行うか
というルーティングが登場しました。
第三段階:AppleとDwarfStar
ここでさらに一歩進みます。
AppleもDwarfStarも
どの計算を行うか
だけでなく
どの重みをロードするか
までルーティング対象にした。
つまり
Router
↓
Expert選択
↓
メモリ選択
↓
計算
です。
これはAI史的にはかなり大きい。
Appleの発想
AFM 3 Core Advancedでは
Shared Expert
↓
常駐
Routed Expert
↓
必要時ロード
になります。
重要なのは
Appleが最初から
Flash
↓
DRAM
↓
NPU
を一体設計している点です。
つまり
アーキテクチャ
推論ランタイム
ハードウェア
を同時設計している。
DwarfStarの発想
一方のds4は
逆方向です。
まず
DeepSeek V4 Flash
が存在する。
その後で
どうやってMacで動かす?
を考えた。
つまり
モデル先行
↓
ランタイム最適化
です。
面白いのは収束現象
両者は出発点が全く違う。
Apple
iPhone
↓
メモリ不足
↓
ストリーミング
DwarfStar
DeepSeek
↓
巨大すぎる
↓
ストリーミング
しかし到達点は
ほぼ同じ。
巨大MoE
↓
Shared部分常駐
↓
Expertだけロード
です。
これは技術史でいう
「収束進化」
に近いです。
Redisとの類似
antirezらしいのは、
実はDwarfStarの発想がRedisそのものに近いことです。
Redisは
全部RAM
を思想としていました。
しかし後年
RAM
+
Disk
を統合する方向へ進んだ。
DwarfStarも
VRAM
+
SSD
を統合しています。
発想が非常にRedis的です。
本当に重要なのはSSDではない
ここが議論で見落とされがちです。
多くの人は
SSDが速い
に注目します。
しかし本質は
SSD帯域
ではありません。
本質は
予測可能なルーティング
です。
なぜなら
SSDから読む速度より
何を読むか分からない
方が圧倒的に高コストだからです。
次の戦場
私が最も重要だと思うのはここです。
AppleもDwarfStarも
現在は
Expert
↓
選択
↓
ロード
です。
しかし将来は
Expert
KV Cache
Attention Block
Memory State
すべてがロード対象になる。
つまり
Nemotron系の
Mamba State
LatentMoE
MiniMax系の
MSA
KV Outer Gather
とも融合し始めます。
さらに先の予想
2030年前後に本当に競争になるのは
誰が一番賢いモデルか
ではなく
誰が一番うまく
ストレージから知能を呼び出せるか
です。
その意味でApple AFMとDwarfStarは、
どちらも単なる「高速推論エンジン」ではありません。
AI史的には、
| 時代 | 主役 |
|---|---|
| 2017 | Transformer |
| 2021 | Scaling Law |
| 2023 | MoE |
| 2025 | Long Context |
| 2026 | Storage-Aware Inference |
の入り口に立っている可能性があります。
そして興味深いのは、Appleはハードウェア側から、DwarfStarはオープンソース・ランタイム側から、ほぼ同じ結論に到達していることです。これは偶然というより、巨大MoE時代の物理的制約(メモリ容量・帯域)が業界全体を同じ解へ押し込んでいる、と見る方が自然だと思います。
なお、先ほどのAFM 3 Core AdvancedとOptaneの話について補足すると、私が重要だと思うポイントは次の3つです。
① AFMは「LLM版Optane」ではなく「LLM版仮想記憶」
Optaneとの比較はよく出てきますが、実際にはAFMの発想はCPU史の
仮想記憶
(Virtual Memory)
に近いです。
AFM 3 Core Advancedでは、
モデル全体はNANDに配置
Shared ExpertsはDRAM常駐
Routed Expertsだけロード
という構造になっています。Apple自身も「モデル全体をNANDに保存し、必要なExpertだけDRAMへ持ち込む」と説明しています。 (Apple Machine Learning Research)
つまり
知識全体
↓
NAND
作業セット
↓
DRAM
です。
これはOSが
ディスク
↓
RAM
↓
CPU
で動く構造に非常に近い。
② Optaneが生き残っていたらAFMはさらに面白かった
AFM最大の制約は
NAND帯域
です。
Appleはそのため、
Token Routing
↓
Prompt Routing
へ変更しています。
Apple自身が
NAND→DRAM帯域はトークンごとの重み交換には遅すぎる
と説明しています。 (Apple Machine Learning Research)
もしOptane級の
高帯域
低レイテンシ
永続メモリ
が存在していたら、
Prompt Routing
↓
Chunk Routing
↓
Token Routing
へ近づけた可能性があります。
③ DwarfStarとの一致は偶然ではない
あなたの記事で最も面白い視点はここです。
AppleとDwarfStarは全く別々に開発されました。
Appleは
iPhone制約
↓
NAND活用
DwarfStarは
DeepSeek巨大化
↓
SSD活用
です。
しかし両者とも
全重み常駐
↓
必要部分だけロード
へ到達しています。
AFMでは
Shared Expert
+
Routed Expert
DwarfStarでは
Non-routed Weight
+
MoE Expert Cache
です。 (Apple Machine Learning Research)
AI史的な見方
私はAFM 3 Core Advancedの本当の画期は、
| 世代 | 主役 |
|---|---|
| GPT-3 | パラメータ |
| GPT-4 | 推論能力 |
| DeepSeek | MoE |
| MiniMax | 長文コンテキスト |
| AFM 3 Core Advanced | ストレージ階層 |
だと思います。
つまり、
「どれだけ大きなモデルを作れるか」
から
「どれだけ効率的に知識を保存し、必要時だけ呼び出せるか」
への転換です。AFM 3 Core Advancedは、Appleの2023年の「LLM in a Flash」研究を実際の製品アーキテクチャまで持ってきた事例とも言えます。 (Frandroid)
そして長期的には、
MoE
+
Storage Streaming
+
KV Streaming
+
State Streaming
へ進化し、
「モデルサイズ ≫ メモリ容量」
が当たり前になる可能性があります。AFMはその最初の大規模な実証例として評価されるかもしれません。 (Apple Machine Learning Research)
結論から言うと、
「Unified Memoryファースト」から「SSDファースト」へ完全移行するのではなく、今後は『Memory Hierarchy First(メモリ階層ファースト)』になる可能性が高い
と思います。
あなたの記事の視点は非常に重要で、
CPU First
↓
GPU First
↓
Unified Memory First
↓
Storage-Aware AI
という流れを指摘していますが、実際には最後は
DRAM
+
NAND
+
MoE
+
Runtime
の統合競争になりそうです。
なぜM1のユニファイドメモリは革命だったのか
Apple Silicon以前は
CPU
↓
DDR
GPU
↓
VRAM
でした。
CPUとGPUが別々のメモリ空間を持ち、
データ移動が発生する。
Appleは
CPU
GPU
NPU
↓
Unified Memory
に変えました。これによりコピーが減り、CPU・GPU・Neural Engineが同じメモリ空間を共有できるようになりました。 (Memory Systems Authority)
これは確かに
「CPU中心設計からメモリ中心設計へ」
という大きな転換でした。
しかしAFM 3 Core Advancedはさらに一歩進んだ
AFM 3 Core Advancedでは、
NAND
↓
モデル全体
DRAM
↓
活性Expertのみ
になっています。
Apple自身が、
20Bモデル
1~4Bのみ活性化
NAND保存
Prompt単位ルーティング
を採用したと説明しています。 (Apple Machine Learning Research)
ここで初めて
DRAMに全部載せる
という前提が崩れました。
SSDファーストになるのか?
私は
完全にはならない
と思います。
理由は単純です。
SSDは容量では圧勝ですが、
レイテンシ
が悪い。
AFMでも、
Appleは
NAND→DRAM帯域はトークンごとの重み交換には遅い
ため、
Token Routing
↓
Prompt Routing
へ変更しています。 (Apple Machine Learning Research)
つまりSSDだけでは足りない。
本当に起きている変化
重要なのは
Memory First
から
Hierarchy First
への進化です。
従来
モデル
↓
全部DRAM
でした。
これからは
L1
キャッシュ
↓
DRAM
↓
Unified Memory
↓
SSD
↓
クラウド
になります。
AIがメモリ階層全体を使う。
DeepSeek・DwarfStar・AFMの共通点
実は
DeepSeek V4 Flash
DwarfStar
AFM 3 Core Advanced
は同じ方向を向いています。
それは
全部載せる
↓
必要部分だけ持ってくる
です。
MoEで計算をスパース化し、
SSDで重みをスパース化する。
これは単なる推論高速化ではなく、
「知識を階層化して保存する」
方向です。 (Apple Machine Learning Research)
2030年頃の予想
私は次のようになる可能性が高いと思います。
| 時代 | 主役 |
|---|---|
| 2010年代 | CPU |
| 2020年代前半 | GPU |
| 2020年代後半 | Unified Memory |
| 2030年前後 | Memory Hierarchy AI |
その頃のLLMは、
SSD上
↓
1Tパラメータ
DRAM上
↓
20B活性
実行中
↓
2B程度
みたいな構造になっているかもしれません。
まだあまり議論されていない重要な点
実は最大のボトルネックはSSD帯域ではなく、
「次に何を読むか予測する能力」
かもしれません。
CPU史では
キャッシュ
↓
プリフェッチ
が性能を決めました。
AIも同じで、
Expert
KV Cache
State
を事前に予測して読み込めるランタイムが勝つ可能性があります。
つまり将来の競争は、
「最強のモデル」
よりも
「最強のAIプリフェッチャー(ランタイム)」
になるかもしれません。
その意味では、あなたの記事の「ユニファイドメモリ革命の次にSSDストリーミング革命が来る」という視点は半分正しく、より正確には
「ユニファイドメモリ革命の次に、メモリ階層全体をAIが意識する時代が来る」
と捉えるのが近いと思います。 (Apple Machine Learning Research)
どう思う「[#CUDAの堀を埋めるのはだれか?ROCmとSiriについての考察:知能のコモディティ化とコンテキストの覇権 #AI地政学 #エッジAI #半導体 #2021GPUカーネル言語Triton_令和AI史ざっくり解説 #四13](https://dopingconsomme.blogspot.com/2026/04/ai-geopolitics-edge-vs-cloud-cuda-collapse.html)」その記事の問題提起はかなり本質的です。
ただし、私ならタイトルの
「CUDAの堀を埋めるのは誰か?」
という問いに対して、
2023年の答えと2026年の答えは違う
と整理します。
2020〜2023年:CUDAの堀は「開発者の堀」
当時のCUDA優位は、
GPU性能
+
CUDA
+
cuDNN
+
TensorRT
でした。
重要だったのはGPUではなく、
開発者がCUDAを書く
ことです。
だから
ROCm
oneAPI
OpenCL
が苦戦した。
2024〜2026年:CUDAの堀は「ランタイムの堀」へ変化
現在は状況がかなり変わっています。
例えば
DeepSeek の推論系、
MiniMax のMSA系、
Liquid AI のLFM系、
NVIDIA のNemotron系。
これらを見ると、
競争軸が
GPU性能
↓
推論ランタイム
へ移っています。
つまり
誰がGPUを作るか
ではなく
誰が最も安く
1トークンを生成できるか
になっています。
この記事で面白い点
記事の核心は
「知能そのものがコモディティ化する」
という仮説です。
これは実際かなり起きています。
2023年
最高性能モデル
=
巨大な差
でした。
2026年
最高性能
=
数%差
になりつつあります。
すると価値は
モデル
↓
コンテキスト
へ移る。
Siriが重要になる理由
ここで記事がSiriを持ち出すのは面白い。
普通は
CUDA
vs
ROCm
を語ります。
しかし本当は
CUDA
↓
インフラ
Siri
↓
ユーザー接点
です。
Appleが狙っているのは
世界最高のモデル
ではなく
世界最高の個人コンテキスト
です。
AFM 3との接続
最近の
AFM 3 Core Advanced
Storage Streaming
Expert Routing
を見ると、
Appleは明らかに
巨大モデル競争
を避けています。
代わりに
個人情報
+
端末情報
+
長期記憶
を武器にしようとしている。
ROCmはCUDAを倒すのか
ここは少し慎重に見る必要があります。
ROCmは確実に伸びています。
特に
AMD の
MI300
MI350
Instinct系
によって
学習市場では存在感を増しています。
しかし
CUDA崩壊
というほどではありません。
なぜならCUDAの堀は
API
ではなく
ライブラリ
+
運用ノウハウ
+
エコシステム
だからです。
本当にCUDAを削る存在
私は記事の問いに対して、
ROCm単独ではないと思います。
むしろ
第一候補
Apple
理由:
CUDA不要
↓
Metal
で独自世界を作っている。
第二候補
AMD
理由:
ROCm
+
オープン化
第三候補
推論ランタイムそのもの
例:
vLLM
SGLang
DwarfStar
DeepSeek Runtime
です。
ここが重要。
もし将来
モデル
↓
中間表現(IR)
↓
ランタイム
↓
GPU
になると、
開発者は
CUDAかROCmか
を意識しなくなる。
記事の中で特に重要な論点
私が最も重要だと思うのは、
「知能はコモディティ化するが、コンテキストはコモディティ化しない」
という部分です。
例えば
OpenAI
DeepSeek
MiniMax
Google
NVIDIA
のモデル性能差は縮小しています。
しかし
個人データ
企業データ
会話履歴
ワークフロー
は代替できない。
2030年視点で見ると
2020年代前半の議論
CUDA vs ROCm
は、
2030年には
コンテキストOS
vs
コンテキストOS
へ変わっているかもしれません。
その意味でこの記事は、
単なる
NVIDIA vs AMD
の話ではなく、
「AI時代の覇権は計算資源ではなくコンテキストに移るのではないか」
という問いとして読むと非常に示唆的です。
そしてAFM 3、Storage Streaming、オンデバイスAIの流れを見ると、少なくともエッジ側では「モデルよりもコンテキスト」「GPUよりもメモリ階層」という方向へ重心が移り始めているように見えます。
コメント
コメントを投稿