[NSM-024] 最尤推定（MLE）と尤度関数 — 観測 dwell time から Q 行列を推定する

作成: 2026-05-26 / NSM-024 / プロジェクト: Mathematics in Neuroscience プレゼン準備

本ノートの読み方
本ノートは二部構成です。

前半（A1〜A6）: やさしい入門 — 数式を極力使わず、コイン投げの例などで尤度の直感をつかむ。数学の予備知識なしで読める。
後半（B1〜B7）: 数学者向け厳密版 — CTMC の観測データに対する尤度関数の形式的定義・Colquhoun-Hawkes 形式・最適化の数値的側面・漸近統計理論を扱う。

前半だけ読んで「雰囲気をつかむ」でも、後半から直接入っても構いません。

【本ノートでの用語規約】

確率 (probability): パラメータ Q を固定し、データ（dwell time）の実現値を変数として見た値。$P(\text{data} \mid Q)$
尤度 (likelihood): データを観測した後で、Q を変数として同じ式を見た値。$L(Q) := P(\text{data} \mid Q)$（数値は同じだが「何を変数と見るか」が逆）
最尤推定 (MLE): 尤度 $L(Q)$ を最大にする $\hat{Q}$ を選ぶ推定法
対数尤度: $\ell(Q) := \log L(Q)$。最大化の問題として等価だが数値的に扱いやすい
最適化条件式: $\partial \log L / \partial \theta = 0$。A6 ではこの式の記号（∂, θ, = 0）を 1 つずつ読み解き、なぜ数値最適化が必要かを解説する

A1. 実験で何が見えて、何が見えないのか

単一イオンチャネルの実験では、パッチクランプ記録から「チャネルが開いている時間」と「閉じている時間」の系列が得られます。

ところが私たちが本当に知りたいのは Q です。チャネルがどの速さで状態を遷移しているかを知れば、薬の効果や変異の影響を定量化できます。dwell time から Q を逆推定するのが「逆問題」であり、その標準的な手法が最尤推定（MLE）です。

A2. 尤度とは何か — 視点の反転

「尤度（ゆうど、likelihood）」という概念の核心は視点の反転にあります。

コイン投げの例

コインを 10 回投げたら 8 回表が出たとします。コインが歪んでいるかどうかを判定したい。

データは変わらない（8 回表）。$p$ を変えたときの「確率の大きさ」が尤度 $L(p)$ です。$p = 0.8$ の尤度がずっと高いため、「8 回表を説明するには $p = 0.8$ がもっともらしい」という結論になります。

A3. なぜ積の形になるのか

イオンチャネルの実験では、複数の dwell time $t_1, t_2, \ldots, t_n$ が独立に観測されます。

マルコフ性（無記憶性）から「次の遷移は過去の履歴に依存しない」ので、各 $t_k$ は独立です。独立な事象が「同時に起こる」確率は積になります:

ここで $f(t_k \mid Q)$ は「パラメータ Q のモデルのもとで dwell time $t_k$ が観測される確率密度」です。

A4. 最尤推定の考え方

「尤度 $L(Q)$ を最大にする Q を選ぶ」というのが最尤推定（Maximum Likelihood Estimation）の考え方です。

言い換えると: 「観測されたデータが、もっとも高い確率（密度）で出てくるような Q を採用する」。これが自然で直感的な推定原理です。

A5. なぜ log を取るのか

実際の計算では $L(Q)$ を直接最大化するのではなく、$\log L(Q)$（対数尤度）を最大化します。理由は 3 つあります。

A6. 最適化条件式 ∂log L/∂θ = 0 を読み解く

「対数尤度 $\log L(Q)$ をパラメータ $\theta$ について偏微分してゼロに等しくする」—— これは 尤度の山の頂上を探す方程式 です。一つひとつの記号を読み解いていきましょう。

A6-1. 記号を 1 つずつ読む

A6-2. なぜ「= 0」が最大化を意味するか

記号	名前	意味
∂（パーシャル）	偏微分記号	変数が複数あるとき、1 個だけ動かしたときの傾き。通常の微分 d と区別するために使う。
log L(Q)	対数尤度	尤度 L(Q) の自然対数。積 → 和に変換した、扱いやすい形（A5 参照）。
θ（theta、シータ）	パラメータ	Q を構成する遷移速度定数（α, β, γ, ... など）の総称。複数あるとき全体を θ と書く。
= 0	ゼロ条件	「傾きがゼロ」= 「山の頂上 or 谷底」。尤度は山型なので最大点。

1 変数関数 $y = f(x)$ の最大点・最小点では 接線の傾き = 0（微分の基本）
多変数関数では すべての方向への偏微分 = 0 が必要条件
$\log L(Q)$ は $L(Q)$ と同じ最大点をもつ（$\log$ は単調増加、A5 参照）
だから「$\log L$ の偏微分 = 0」を解けば 最尤推定値 $\hat{Q}$ が見つかる

A6-3. 「数値最適化」とは — 手では解けないから

$\partial \log L / \partial \theta = 0$ は通常 手で解けません。Q が複雑な行列指数（$e^{Qt}$）を含むため、連立方程式の解析解が存在しないからです。そこでコンピュータで反復計算して近似解を求めます。

A6-4. イオンチャネルの言葉で

手法	仕組み
勾配降下法（gradient descent）	現在地での傾き（勾配）の方向に少しずつパラメータを動かす。シンプルだが収束が遅い場合も。
Newton-Raphson 法	1 階微分に加え 2 階微分（曲率）も使い、より大きなステップで速く収束する。
EM 法（Baum-Welch）	隠れマルコフモデル専用。隠れ状態の期待値と Q を交互に更新（E ステップ・M ステップ）。

具体例: 2 状態モデル（Closed ⇌ Open）

Q 行列のパラメータ: $\theta = (\alpha, \beta)$（$\alpha$: 開口速度、$\beta$: 閉口速度）
観測された平均開口時間が 5 ms なら → MLE は $\alpha \approx 200\,\text{s}^{-1}$ 付近
実際には多次元の $\theta$ に対して $\partial \log L / \partial \alpha = 0$ かつ $\partial \log L / \partial \beta = 0$ を同時に満たす $(\hat{\alpha}, \hat{\beta})$ を数値探索する

B1. 形式的設定

連続時間マルコフ連鎖（CTMC）$X(t)$ を仮定する（NSM-001 参照）。状態空間 $\mathcal{S}$ は有限で、開状態集合 $\mathcal{O}$ と閉状態集合 $\mathcal{C}$ に分割される: $\mathcal{S} = \mathcal{O} \cup \mathcal{C}$。

観測データは dwell time の交互系列: $t_O^{(1)}, t_C^{(1)}, t_O^{(2)}, t_C^{(2)}, \ldots, t_O^{(N)}, t_C^{(N)}$ を想定する（単純化として burst 内観測を考える）。

B2. dwell time の確率密度

単純 2 状態モデルの場合

状態 O（1 つ）から状態 C（1 つ）へ速度 $q_{OC}$ で遷移する場合、開状態 dwell time は指数分布に従う:

一般の多状態モデル — Colquhoun-Hawkes 形式

開状態集合内に複数の状態がある場合、開状態 dwell time の密度は行列指数を使った形になる:

記号	意味
$Q$	遷移速度行列（$n \times n$、行和ゼロ、非対角非負）
$Q_{OO}$	開状態間の遷移速度の部分行列（$\|\mathcal{O}\| \times \|\mathcal{O}\|$）
$Q_{OC}$	開状態 → 閉状態への遷移速度（$\|\mathcal{O}\| \times \|\mathcal{C}\|$）
$Q_{CC}, Q_{CO}$	同様に閉状態ブロック
$t_O^{(k)}, t_C^{(k)}$	$k$ 番目の開・閉 dwell time
$\boldsymbol{\phi}_O$	開状態突入時の条件付き初期占有分布（行ベクトル）

開状態 dwell time の密度（Colquhoun-Hawkes） $$f_O(t) = \boldsymbol{\phi}_O \, e^{Q_{OO} t} \, (-Q_{OO}) \, \mathbf{1}$$ ここで:

$\boldsymbol{\phi}_O$: 開状態に突入したときの（条件付き）初期占有分布（行ベクトル）
$e^{Q_{OO} t}$: 開状態内に「まだ滞在している」確率行列（$Q_{OO}$ は負定値の部分行列）
$(-Q_{OO}) \mathbf{1}$: 開状態から閉状態への脱出速度ベクトル（$Q_{OC} \mathbf{1}$ と等価）

$Q_{OO}$ の固有値はすべて負の実部を持つ（CTMC の既約性・有限状態空間から）ため、$e^{Q_{OO} t}$ は $t \to \infty$ で $0$ に収束し、$f_O(t)$ は正しく確率密度になる。固有値分解すると指数の和（mixture）の形が現れる（NSM-003 参照）。

B3. 尤度関数の構造

独立観測の積

burst 内の観測が独立と仮定すると、$N$ 個の開閉サイクルに対する尤度は:

連続観測列の尤度（行列積形式）

開閉状態の切り替わりを通じた条件付き確率の連鎖を明示的に書くと:

この形式はブロック行列の積として書けるため、「forward algorithm」（Baum-Welch の特殊ケース）で効率的に計算できる。

B4. 対数尤度

B5. 最尤推定の最適化

一階最適化条件（スコア方程式）

数値最適化手法

制約条件

Q 行列の条件（$q_{ij} \ge 0$（$i \ne j$）、$q_{ii} = -\sum_{j \ne i} q_{ij}$）を守りながら最適化する必要がある。独立パラメータは非対角の非負エントリ $\{q_{ij}\}_{i \ne j}$ のみ（行和ゼロ条件で $q_{ii}$ は決まる）。

B6. 統計的性質

漸近正規性

観測数 $N \to \infty$ のとき（規則的な識別可能なモデルで）:

ここで $\theta^*$ は真のパラメータ、$I(\theta)$ はフィッシャー情報行列:

クラメール・ラオ下界

任意の不偏推定量 $\tilde{\theta}$ に対して: $\operatorname{Var}(\tilde{\theta}) \ge I(\theta)^{-1}$（クラメール・ラオ下界）。MLE はこの下界を漸近的に達成する（漸近有効性）。

一致性

$N \to \infty$ で $\hat{\theta} \xrightarrow{p} \theta^*$（確率収束）。ただし識別可能性（同定可能性）が前提。

手法	特徴	適用場面
勾配上昇法（gradient ascent）	実装簡単・収束は遅い	凸問題・初期探索
Newton-Raphson 法	2 次収束・ヘッセ行列が必要	小〜中規模問題
EM 法（Baum-Welch）	隠れ状態 HMM の特殊版・単調増加を保証	隠れ状態が多い場合
BFGS（準 Newton 法）	ヘッセ行列を近似・実用的に高速	一般的な MLE 実装

識別可能性（Identifiability）について
複数の異なる Q 行列が全く同じ尤度を生成する（=識別不可能）場合、MLE は一意でない。CTMC の同定可能性は非自明な問題であり、状態数・制約構造に依存する。NSM-005（逆問題の定式化）を参照。

B7. 実装の数値安定性

行列指数の計算

対数尤度のスケール問題

勾配計算

数値微分（有限差分）か自動微分（JAX 等）を使う。解析的な $\partial e^{Qt} / \partial q_{ij}$ の計算は行列微分の理論を要する（NSM-022 参照）。

参考文献

Colquhoun, D. & Hawkes, A. G. (1981). On the stochastic properties of single ion channels. Proceedings of the Royal Society of London B, 211, 205–235. → 単一チャネル dwell time の確率密度（行列指数形式）の原著定式化。教科書確認済み
Colquhoun, D. & Hawkes, A. G. (1982). On the stochastic properties of bursts of single ion channel openings and of clusters of bursts. Philosophical Transactions of the Royal Society of London B, 300, 1–59. → burst 内の尤度計算と Kolmogorov 方程式の逆問題への応用。教科書確認済み
Colquhoun, D., Hawkes, A. G. & Srodzinski, K. (1996). Joint distributions of apparent open and shut times of single-ion channels and maximum likelihood fitting of mechanisms. Philosophical Transactions of the Royal Society of London A, 354, 2555–2590. → dead time 補正を含む尤度計算（HJC theory）の最重要論文。教科書確認済み
Qin, F., Auerbach, A. & Sachs, F. (1996). Estimating single-channel kinetic parameters from idealized patch-clamp data containing missed events. Biophysical Journal, 70, 264–280. → 見落とし事象を含む MLE の定式化。標準的だが手元未確認
Cox, D. R. & Hinkley, D. V. (1974). Theoretical Statistics. Chapman & Hall. → MLE の漸近理論（一致性・漸近正規性・クラメール・ラオ下界）の標準的教科書。教科書確認済み（定理は標準的）

最尤推定（MLE）と尤度関数— 観測 dwell time から Q 行列を推定する