INFORMATION CONTENT

SAXS曲線は帯域制限された関数の測定値である。Shannonの情報理論はPeterMoore(1982)とD.taupin、V.Luzzati(1982)が洞察したようにSAXSデータセットに適用できる。SAXSにおける帯域制限関数は P(r) 分布で、あるレベルの精度(すなわち分解能)でのSAXS実験によって測定しようとする信号である。ShannonはShannon-Whittakerの補間式を通して、帯域制限関数が離散した等間隔の点(Shannon点)で信号をサンプリングすることで完全に再現されることを示した。PeterMooreはこの枠組みを小角散乱実験に拡張し、 q ベクトル範囲で定義されたSASデータセットが、 n を整数 d max を粒子の最大寸法とする n=q max × d max π によって定義される点の離散サンプリングにより完全に特定できることを示した(図1)。最近のSAXS実験で、観測数 I(q)n を大幅に超えている。例えば、現代の検出器は500ポイントまでを q max の0.32に集め、30Sリボソームサブユニットでは、指定された分解限界で粒子を完全に記述するためにたった23の等距離観測 I(q) しか必要としない。これは現代機器での典型的なSAXS曲線が高度にオーバーサンプリングされることを示す。

図1

\[I(q)= \sum_{n=1}^{\infty} I (\frac {n\pi} {d_{max}}) \cdot \frac{ \sin (qd_{max} -n\pi)} {qd_{max} -n\pi}\]

PeterMooreによるアプローチはMoore関数と呼ばれるものを確立した。粒子の相関関数、 I(0)R gP(r) と分子内の平均距離を計算するために様々な方法で組み合わせられる一組の係数(Moore係数)まで散乱曲線を効果的に縮退させた。Moore関数はScatterで示されたデータを合わせたり改良したりするためのターゲット関数を与える。SAXS曲線での重複を利用してそのデータセットがどれほど一致しているかをテストする。

Shannonポイントは π/d max の周波数で発生する等間隔のサンプル点である。サンプリングレートが π/d max より小さい場合、信号は追加した独立の情報なしでは復元できない。実際にSAS信号から情報を完全に復元させるのに必要な最小のサンプリングレートは、データセットの信号対ノイズ比(S/N比)にも依存する(図2)。実験の角度範囲はSAS信号を観測するための”通信”チャネルを定義する。ここでノイズ存在下で通信できる情報の最大比CはShannon-Hartley定理によって与えられる。詳しくはRamboとTainer(Supporting Information)を参照。

図2

\[\begin{split}R < C = \frac{2\pi} {d_{max}} \cdot \log_{2} (1+\frac{S} {N})\end{split}\]

C は粒子の d max に比例し、SASデータのÅあたりの情報ビットにより定義される。ノイズ符号化チャネル定理はサンプリングレート ΔqC 未満である限りほとんどエラーのない信号の復元を確立する。より重要なことに、 Δq < C である限り1未満の S/N 比が有用な情報を含むことを示している。キシラナーゼについて d max =43Å 及び S/N 比0.9は、 Δq0.006Å -1 << C の最新のビームラインサンプリング周波数よりも低い、 0.068bit/Å -1C を与える。上記の導出はノイズデータセットからSAS信号を修復するための最低要件を示しているが、その導出は復号アルゴリズムすなわちGNOM, GIFT, FOXS, CRYSOLなどに大きく依存するために必ずしも実用限界を表さない。

現代のSAXS曲線は、曲線内の情報が冗長であることを意味する信号の高度にオーバーサンプリングされた値である。Shannon-Whittaker補間式の適用は、観測の大部分が相関していることと、SAXS実験から得る情報が単一の I(q) 観測ではなく、 Δq << C の最低制限での実験チャネルによって限られた観測の集合を通して伝えられることを示している。