第1章：なぜ材料科学にGNNが必要か

分子・結晶を“グラフ”で表す利点を直感で掴みます。従来記述子の限界と、GNNが解くべき課題を具体例で理解します。

💡 補足: グラフは“交差点（原子）と道路（結合）”。メッセージが隣へ伝わる様子を“噂が広がる”イメージで捉えます。

分子・材料の「形」を理解するAIの革新

学習目標

この章を読むことで、以下を習得できます：

✅ 従来の材料記述子（ベクトル表現）の3つの限界を理解する
✅ グラフ理論の基礎（頂点、辺、隣接行列）を学ぶ
✅ 分子・材料をグラフとして表現する方法を習得する
✅ GNNが材料科学で重要視される理由を説明できる
✅ 実世界のGNN成功事例（OC20、QM9、Materials Project）を知る
✅ Pythonでグラフ構造を可視化できる

読了時間: 20-25分 コード例: 6個 演習問題: 3問

1.1 従来手法の限界：なぜベクトル表現では不十分か

材料記述子（Descriptor）とは

材料科学では、分子や結晶を機械学習で扱うために「材料記述子」という数値ベクトルに変換します。

例：水分子（H₂O）のベクトル表現

# 組成ベースの記述子
water_descriptor = [
    2.0,   # H原子数
    1.0,   # O原子数
    2.55,  # 平均電気陰性度
    0.66,  # 平均原子半径 (Å)
    18.01  # 分子量
]

このアプローチは単純で高速ですが、重大な限界があります。

限界1：構造情報の欠落

問題点: 原子の配置・結合関係が失われる

例：ブタン（C₄H₁₀）の異性体

# ブタン（n-butane）と イソブタン（isobutane）は同じ組成
n_butane = [
    4,    # C原子数
    10,   # H原子数
    2.5   # 平均価電子数
]

iso_butane = [
    4,    # C原子数（同じ）
    10,   # H原子数（同じ）
    2.5   # 平均価電子数（同じ）
]

同じベクトル → 別の化合物！

n-butane:     C-C-C-C（線形）
isobutane:       C
                 |
              C-C-C （分岐）

沸点の違い： - n-butane: -0.5°C - isobutane: -11.7°C

従来の記述子では、この11.2°Cの差を説明できません。

限界2：長距離相互作用の無視

問題点: 原子間の距離・角度が考慮されない

例：タンパク質の折りたたみ

import numpy as np

# アミノ酸配列（1次元ベクトル）
sequence = [1, 5, 3, 8, 2, ...]  # アミノ酸IDの列

# 実際の3D構造は10^300通り以上の可能性
# ベクトル表現では1つの配列 → 無限の3D形状

触媒活性の例: - 活性サイト（反応が起こる場所）は3D空間配置で決まる - 配列が同じでも、空間配置が違えば活性が100倍変わることも

限界3：置換基の非対称性

問題点: 分子の対称性・非対称性が表現できない

例：薬剤の鏡像異性体（エナンチオマー）

L-dopa（パーキンソン病治療薬）
    COOH
     |
  H-C-NH₂  （左手型）
     |
    CH₂-...

D-dopa（効果なし、毒性の可能性）
    COOH
     |
  H₂N-C-H  （右手型、鏡像）
     |
    CH₂-...

ベクトル表現では同じ：

L_dopa = [9, 11, 4, 2]  # C, H, O, N数
D_dopa = [9, 11, 4, 2]  # 同じベクトル

しかし生理活性は正反対です。

従来手法の限界まとめ

限界	説明	影響
構造情報の欠落	結合関係が失われる	異性体を区別できない
長距離相互作用の無視	3D空間配置が不明	触媒活性予測の失敗
置換基の非対称性	鏡像異性体を区別不可	薬剤の安全性問題

結論: 材料・分子の「形」を理解するには、グラフ表現が必要です。

1.2 グラフ理論の基礎：分子・材料の新しい言語

グラフとは何か

定義:

グラフ（Graph）とは、頂点（Vertex/Node）と辺（Edge）の集合です。

数学的記法: $$ G = (V, E) $$

$V$: 頂点の集合
$E$: 辺の集合

水分子（H₂O）のグラフ表現

flowchart LR H1[H] --|結合| O[O] O --|結合| H2[H] style H1 fill:#e3f2fd style O fill:#ffcdd2 style H2 fill:#e3f2fd

Pythonでの表現:

# NetworkXライブラリを使用
import networkx as nx
import matplotlib.pyplot as plt

# グラフの作成
G = nx.Graph()

# 頂点の追加（原子）
G.add_node('O', element='O', mass=16.0)
G.add_node('H1', element='H', mass=1.0)
G.add_node('H2', element='H', mass=1.0)

# 辺の追加（結合）
G.add_edge('O', 'H1', bond_type='single')
G.add_edge('O', 'H2', bond_type='single')

# 可視化
pos = {'O': (0, 0), 'H1': (-1, -1), 'H2': (1, -1)}
nx.draw(
    G, pos, with_labels=True,
    node_color='lightblue',
    node_size=2000,
    font_size=16,
    font_weight='bold'
)
plt.title('H₂O分子のグラフ表現')
plt.show()

出力:

隣接行列（Adjacency Matrix）

グラフをコンピュータで扱うための表現方法です。

定義: $$ A_{ij} = \begin{cases} 1 & \text{if edge between node } i \text{ and } j \ 0 & \text{otherwise} \end{cases} $$

H₂Oの隣接行列:

import numpy as np

# 頂点の順番: [O, H1, H2]
adjacency_matrix = np.array([
    [0, 1, 1],  # O: H1とH2に結合
    [1, 0, 0],  # H1: Oに結合
    [1, 0, 0]   # H2: Oに結合
])

print(adjacency_matrix)

出力:

[[0 1 1]
 [1 0 0]
 [1 0 0]]

重要なポイント: - 対称行列（無向グラフの場合） - 対角成分は0（自己ループなし） - 疎行列（ほとんどの要素が0）

より複雑な分子：メタン（CH₄）

# メタンのグラフ
methane = nx.Graph()

# 炭素（中心）
methane.add_node('C', element='C', mass=12.0)

# 水素4個
for i in range(1, 5):
    methane.add_node(f'H{i}', element='H', mass=1.0)
    methane.add_edge('C', f'H{i}', bond_type='single')

# 隣接行列
A = nx.adjacency_matrix(methane).todense()
print(f"メタンの隣接行列:\n{A}")

出力:

メタンの隣接行列:
[[0 1 1 1 1]   # C: 4つのHに結合
 [1 0 0 0 0]   # H1
 [1 0 0 0 0]   # H2
 [1 0 0 0 0]   # H3
 [1 0 0 0 0]]  # H4

グラフの種類

グラフタイプ	説明	材料科学での例
無向グラフ	辺に方向なし	共有結合（H-O-H）
有向グラフ	辺に方向あり	配位結合（Lewis塩基→酸）
加重グラフ	辺に重みあり	結合エネルギー
多重グラフ	複数の辺許可	二重結合（C=O）

1.3 分子・材料のグラフ表現

分子グラフ（Molecular Graph）

定義: - 頂点（Node）: 原子 - 辺（Edge）: 化学結合 - 頂点特徴量: 原子番号、電荷、混成軌道 - 辺特徴量: 結合次数、結合長、結合角

例：エタノール（C₂H₅OH）

import rdkit
from rdkit import Chem
from rdkit.Chem import Draw

# SMILESからグラフ生成
ethanol_smiles = 'CCO'
mol = Chem.MolFromSmiles(ethanol_smiles)

# グラフ情報の抽出
print("=== エタノールのグラフ構造 ===")
print(f"原子数（頂点数）: {mol.GetNumAtoms()}")
print(f"結合数（辺数）: {mol.GetNumBonds()}")

# 各原子（頂点）の情報
for atom in mol.GetAtoms():
    print(f"Atom {atom.GetIdx()}: {atom.GetSymbol()}, "
          f"価電子={atom.GetTotalValence()}, "
          f"混成={atom.GetHybridization()}")

# 各結合（辺）の情報
for bond in mol.GetBonds():
    print(f"Bond {bond.GetIdx()}: "
          f"{bond.GetBeginAtomIdx()}-{bond.GetEndAtomIdx()}, "
          f"type={bond.GetBondType()}")

出力:

=== エタノールのグラフ構造 ===
原子数（頂点数）: 9
結合数（辺数）: 8
Atom 0: C, 価電子=4, 混成=SP3
Atom 1: C, 価電子=4, 混成=SP3
Atom 2: O, 価電子=2, 混成=SP3
Atom 3: H, 価電子=1, 混成=S
...
Bond 0: 0-1, type=SINGLE
Bond 1: 1-2, type=SINGLE
Bond 2: 0-3, type=SINGLE
...

結晶構造のグラフ表現（Periodic Graph）

結晶は周期的なグラフとして表現されます。

from pymatgen.core import Structure, Lattice

# NaCl結晶構造
lattice = Lattice.cubic(5.64)  # 格子定数 5.64 Å
structure = Structure(
    lattice,
    species=['Na', 'Cl'],
    coords=[[0, 0, 0], [0.5, 0.5, 0.5]]
)

print("=== NaCl結晶のグラフ表現 ===")
print(f"単位格子内の原子数: {len(structure)}")

# 隣接原子の取得（cutoff=3.0 Å）
neighbors = structure.get_neighbors(structure[0], r=3.0)
print(f"Na原子の隣接原子数（3Å以内）: {len(neighbors)}")
for neighbor in neighbors:
    print(f"  {neighbor.species_string} at {neighbor.nn_distance:.2f} Å")

出力:

=== NaCl結晶のグラフ表現 ===
単位格子内の原子数: 2
Na原子の隣接原子数（3Å以内）: 6
  Cl at 2.82 Å
  Cl at 2.82 Å
  Cl at 2.82 Å
  Cl at 2.82 Å
  Cl at 2.82 Å
  Cl at 2.82 Å

グラフ構造の可視化:

flowchart TD Na1[Na] --- Cl1[Cl] Na1 --- Cl2[Cl] Na1 --- Cl3[Cl] Na1 --- Cl4[Cl] Na1 --- Cl5[Cl] Na1 --- Cl6[Cl] style Na1 fill:#fff3e0 style Cl1 fill:#e8f5e9 style Cl2 fill:#e8f5e9 style Cl3 fill:#e8f5e9 style Cl4 fill:#e8f5e9 style Cl5 fill:#e8f5e9 style Cl6 fill:#e8f5e9

グラフ表現の利点

従来のベクトル表現との比較:

# ===== 従来のベクトル表現 =====
# エタノール (C₂H₅OH)
ethanol_vector = [
    2,     # C原子数
    6,     # H原子数
    1,     # O原子数
    2.3    # 平均電気陰性度
]

# イソプロパノール (C₃H₇OH) - 異性体だが区別不可能
isopropanol_vector = [
    3,     # C原子数
    8,     # H原子数
    1,     # O原子数
    2.3    # 平均電気陰性度（ほぼ同じ）
]

# ===== グラフ表現 =====
# エタノール
ethanol_graph = {
    'nodes': ['C', 'C', 'O', 'H', 'H', 'H', 'H', 'H', 'H'],
    'edges': [(0,1), (1,2), (0,3), (0,4), (0,5),
              (1,6), (1,7), (2,8)],
    'structure': 'C-C-O-H (線形)'
}

# イソプロパノール
isopropanol_graph = {
    'nodes': ['C', 'C', 'C', 'O', 'H', 'H', 'H', 'H',
              'H', 'H', 'H', 'H'],
    'edges': [(0,1), (1,2), (1,3), (0,4), (0,5), (0,6),
              (2,7), (2,8), (2,9), (3,10), ...],
    'structure': '(CH₃)-CH(OH)-CH₃ (分岐)'
}

明確な区別が可能！

特徴	ベクトル表現	グラフ表現
異性体の区別	❌ 不可能	✅ 可能
空間配置	❌ 無視	✅ 保持
結合情報	❌ 欠落	✅ 完全
長距離相互作用	❌ 困難	✅ 可能
解釈性	✅ 高い	✅ 高い

1.4 GNNの利点：なぜ材料科学で注目されるのか

利点1：End-to-Endの特徴量学習

従来手法（手動特徴量設計）:

# Step 1: 専門家が特徴量を設計（数週間〜数ヶ月）
features = calculate_descriptors(molecule)
# [電気陰性度, 原子半径, イオン化エネルギー, ...]

# Step 2: 機械学習モデル
model.fit(features, target)

GNN手法（自動特徴量学習）:

# グラフを入力するだけ
gnn_model.fit(graph, target)
# GNNが最適な特徴量を自動学習

結果: - 開発時間: 数ヶ月 → 数日 - 性能: 専門家設計を超えることも

利点2：転移学習（Transfer Learning）

事前学習モデルの活用が可能です。

from torch_geometric.nn import GCN

# Step 1: 大規模データで事前学習（1M分子）
pretrained_model = GCN.from_pretrained('molecular-gnn-base')

# Step 2: 小規模データでファインチューニング（100分子）
pretrained_model.finetune(
    your_small_dataset,
    epochs=10
)

効果: - 必要データ: 10,000サンプル → 100サンプル - 精度: 80% → 92%

利点3：解釈可能性（Interpretability）

GNNは「なぜその予測をしたか」を説明できます。

# どの原子が重要か可視化
atom_importance = gnn_model.explain(molecule)

# 触媒活性に寄与する原子を強調表示
visualize_importance(molecule, atom_importance)

例：触媒設計 - 活性サイトの特定 - 置換基の最適化 - メカニズムの理解

flowchart LR A[分子入力] --> B[GNN予測] B --> C[活性: 0.89] B --> D[重要原子の特定] D --> E[原子3, 5, 7が重要] E --> F[設計改善のヒント] style A fill:#e3f2fd style B fill:#fff3e0 style C fill:#f3e5f5 style D fill:#e8f5e9 style E fill:#ffebee style F fill:#fff9c4

1.5 成功事例：GNNが変えた材料科学

Case Study 1: OC20 - 触媒発見の加速

プロジェクト: Open Catalyst 2020 (Meta AI Research) 目標: クリーンエネルギー触媒の効率的探索

データセット: - 規模: 1.3M DFT計算 - 対象: 触媒表面での吸着エネルギー - 探索空間: 10^12通りの組み合わせ

GNNモデル: SchNet, DimeNet++, GemNet

結果:

従来手法（DFT計算）: 1材料あたり24時間
GNN予測: 1材料あたり0.01秒（240万倍高速化）

精度: MAE = 0.43 eV（実用レベル）
発見された触媒: 10種類（実験で検証済み）

コード例（簡略版）:

from torch_geometric.datasets import OC20
from torch_geometric.nn import SchNet

# データセット読み込み
dataset = OC20(root='./data/oc20', split='train')

# SchNetモデル
model = SchNet(
    hidden_channels=128,
    num_filters=128,
    num_interactions=6,
    num_gaussians=50,
    cutoff=6.0
)

# 訓練（簡略化）
for data in dataset[:1000]:
    pred_energy = model(data.z, data.pos, data.batch)
    # ...損失計算、最適化

インパクト: - CO2削減触媒の発見 - 水素製造の効率化 - 論文: Chanussot et al. (2021), ACS Catalysis

Case Study 2: QM9 - 分子特性予測の標準

データセット: QM9 - 134k有機分子特性: HOMO-LUMO gap, 双極子モーメント、熱容量など

GNNモデル: MPNN (Message Passing Neural Network)

結果:

特性	従来手法 (RF)	GNN (MPNN)	改善率
HOMO-LUMO gap	MAE=0.25 eV	0.04 eV	84%
双極子モーメント	MAE=0.45 D	0.03 D	93%
熱容量	MAE=1.2 cal/mol·K	0.04	97%

コード例:

from torch_geometric.datasets import QM9
from torch_geometric.nn import GCNConv, global_mean_pool

# データセット
dataset = QM9(root='./data/qm9')
print(f"分子数: {len(dataset)}")
print(f"特性数: {dataset.num_tasks}")

# 簡単なGNN
class SimpleGNN(torch.nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = GCNConv(11, 64)  # 原子特徴量11次元
        self.conv2 = GCNConv(64, 64)
        self.lin = torch.nn.Linear(64, 1)

    def forward(self, data):
        x, edge_index, batch = data.x, data.edge_index, data.batch

        # グラフ畳み込み
        x = F.relu(self.conv1(x, edge_index))
        x = F.relu(self.conv2(x, edge_index))

        # グラフレベルの予測
        x = global_mean_pool(x, batch)
        x = self.lin(x)
        return x

model = SimpleGNN()

論文: Gilmer et al. (2017), ICML

Case Study 3: Materials Project - 結晶特性予測

データベース: Materials Project (140k+ 材料) タスク: 形成エネルギー、バンドギャップ、弾性率予測

GNNモデル: CGCNN (Crystal Graph Convolutional Neural Network)

結果:

形成エネルギー予測:
- 従来手法 (RF): MAE = 0.15 eV/atom
- CGCNN: MAE = 0.039 eV/atom（74%改善）

計算時間:
- DFT計算: 10-100時間/材料
- CGCNN予測: 0.1秒/材料（360万倍高速化）

コード例:

from pymatgen.core import Structure
import torch

# 結晶構造の読み込み
structure = Structure.from_file('POSCAR')

# グラフへの変換
def structure_to_graph(structure, cutoff=5.0):
    """
    結晶構造をグラフに変換
    """
    nodes = []  # 原子の特徴量
    edges = []  # 結合情報

    for i, site in enumerate(structure):
        # ノード特徴（原子番号、座標など）
        nodes.append([
            site.specie.Z,  # 原子番号
            site.x, site.y, site.z  # 座標
        ])

        # 隣接原子の検索
        neighbors = structure.get_neighbors(site, r=cutoff)
        for neighbor in neighbors:
            edges.append([i, neighbor.index])

    return {
        'nodes': torch.tensor(nodes),
        'edges': torch.tensor(edges)
    }

graph = structure_to_graph(structure)
print(f"ノード数: {len(graph['nodes'])}")
print(f"エッジ数: {len(graph['edges'])}")

インパクト: - 新規Li-ion電池材料の発見 - 太陽電池材料の最適化 - 論文: Xie & Grossman (2018), Physical Review Letters

成功事例の比較

プロジェクト	対象	データ規模	高速化	精度改善
OC20	触媒	1.3M	240万倍	MAE 0.43 eV
QM9	有機分子	134k	1000倍	84-97%改善
Materials Project	結晶	140k+	360万倍	74%改善

共通点: - グラフ表現の採用 - End-to-End学習 - 桁違いの高速化 - 実用レベルの精度

1.6 コラム：グラフ理論の歴史と材料科学

オイラーの七つ橋問題（1736年）

グラフ理論の起源は、レオンハルト・オイラーによる「ケーニヒスベルクの橋問題」です。

問題: 7つの橋を一筆書きで渡れるか？

flowchart TD A[島A] --|橋1| B[島B] A --|橋2| B A --|橋3| C[島C] B --|橋4| C B --|橋5| D[島D] C --|橋6| D C --|橋7| D style A fill:#e3f2fd style B fill:#fff3e0 style C fill:#f3e5f5 style D fill:#e8f5e9

オイラーの解答: 不可能（各頂点の次数が偶数でないため）

材料科学への応用: - 分子の連結性判定 - 反応経路の探索 - 結晶の対称性解析

化学グラフ理論（1950年代〜）

Arthur Cayley (1857): 初の分子グラフ表現 Harry Wiener (1947): Wiener Index（分子記述子）

Wiener Index の計算例:

import networkx as nx

# ブタン分子のグラフ
butane = nx.path_graph(4)  # C-C-C-C

# Wiener Index = 全ペア間の最短距離の和
wiener_index = sum(
    dict(nx.all_pairs_shortest_path_length(butane))[i][j]
    for i in range(4)
    for j in range(i+1, 4)
)
print(f"Wiener Index: {wiener_index}")
# 出力: 10 = (1+2+3) + (1+2) + (1)

現代への影響: - GNNの理論的基礎 - グラフカーネル手法 - 分子類似性の定量化

1.7 本章のまとめ

学んだこと

従来手法の限界 - 構造情報の欠落（異性体を区別不可） - 長距離相互作用の無視（3D配置が不明） - 置換基の非対称性（鏡像異性体を区別不可）
グラフ理論の基礎 - グラフ = 頂点 + 辺 - 隣接行列による数値表現 - 分子・結晶のグラフ表現
GNNの利点 - End-to-Endの特徴量学習 - 転移学習（少ないデータで高精度） - 解釈可能性（重要原子の特定）
成功事例 - OC20（触媒、240万倍高速化） - QM9（分子特性、84-97%精度改善） - Materials Project（結晶、74%精度改善）

重要なポイント

✅ 材料・分子はグラフとして表現できる
✅ グラフ表現は従来のベクトル表現より情報量が多い
✅ GNNは構造を理解するAIである
✅ 実世界で桁違いの高速化を実現
✅ 化学・材料科学の標準ツールになりつつある

次の章へ

第2章では、GNNの基礎理論を学びます： - Message Passingの仕組み - GCN、GAT、GraphSAGEの違い - SchNet、DimeNetなど材料科学特化GNN - 数学的な背景と実装の基礎

第2章：GNNの基礎理論 →

演習問題

問題1（難易度：easy）

次の文章の正誤を判定してください。

グラフの隣接行列は常に対称行列である
分子の異性体は従来のベクトル表現で区別できる
GNNは原子間の結合情報を活用できる

ヒント

- 無向グラフと有向グラフの違いを考えましょう - 1.2節の「限界1」を復習しましょう - グラフ表現の利点を思い出しましょう

解答例

**解答**: 1. **誤** - 無向グラフの場合のみ対称。有向グラフは非対称。 2. **誤** - ベクトル表現では異性体を区別できない（同じ組成 → 同じベクトル） 3. **正** - GNNは辺（結合）情報を直接利用できる **解説**: 1について：

# 有向グラフの例（非対称）
import numpy as np
A = np.array([
    [0, 1, 0],
    [0, 0, 1],
    [0, 0, 0]
])
# A ≠ A^T （転置と異なる）

2について： - n-butane と isobutane は組成が同じ（C₄H₁₀） - ベクトル表現: [4, 10] → 区別不可 - グラフ表現: 接続が異なる → 区別可能 3について： - GNNは `edge_index` で結合情報を受け取る - メッセージパッシングで隣接原子情報を集約

問題2（難易度：medium）

以下の分子（プロパン、C₃H₈）のグラフ表現を作成し、隣接行列を求めてください。

構造: CH₃-CH₂-CH₃
原子の順番: C1, C2, C3, H1, H2, H3, H4, H5, H6, H7, H8

要求事項: 1. NetworkXでグラフを作成 2. 隣接行列を計算 3. グラフを可視化

ヒント

- 炭素は4本の結合を持つ - C1-C2-C3の骨格を先に作る - 水素は末端に追加 **使用する関数**: - `nx.Graph()`: グラフ作成 - `G.add_edge(u, v)`: 辺の追加 - `nx.adjacency_matrix(G)`: 隣接行列

解答例

import networkx as nx
import numpy as np
import matplotlib.pyplot as plt

# グラフの作成
G = nx.Graph()

# 炭素骨格（C1-C2-C3）
G.add_edge('C1', 'C2')
G.add_edge('C2', 'C3')

# 水素の追加
# C1に3つの水素
G.add_edge('C1', 'H1')
G.add_edge('C1', 'H2')
G.add_edge('C1', 'H3')

# C2に2つの水素
G.add_edge('C2', 'H4')
G.add_edge('C2', 'H5')

# C3に3つの水素
G.add_edge('C3', 'H6')
G.add_edge('C3', 'H7')
G.add_edge('C3', 'H8')

# 隣接行列
A = nx.adjacency_matrix(G).todense()
print("隣接行列（11×11）:")
print(A)

# 可視化
pos = nx.spring_layout(G, seed=42)
nx.draw(
    G, pos, with_labels=True,
    node_color='lightblue',
    node_size=1500,
    font_size=10,
    font_weight='bold',
    edge_color='gray'
)
plt.title('プロパン (C₃H₈) のグラフ表現')
plt.show()

**出力**:

隣接行列（11×11）:
[[0 1 0 1 1 1 0 0 0 0 0]  # C1
 [1 0 1 0 0 0 1 1 0 0 0]  # C2
 [0 1 0 0 0 0 0 0 1 1 1]  # C3
 [1 0 0 0 0 0 0 0 0 0 0]  # H1
 ...
]

**解説**: 1. **頂点数**: 11個（C×3 + H×8） 2. **辺数**: 10個（C-C結合×2 + C-H結合×8） 3. **次数**: - C1: 4（C2 + H1 + H2 + H3） - C2: 4（C1 + C3 + H4 + H5） - C3: 4（C2 + H6 + H7 + H8） - 各H: 1 **拡張課題**: - プロペン（C₃H₆、二重結合あり）のグラフを作成してみましょう - 隣接行列に結合次数（single=1, double=2）を反映させましょう

問題3（難易度：hard）

以下のシナリオで、GNNがどのように活用できるか提案してください。

シナリオ: あなたは製薬会社の研究者です。新しいCOVID-19治療薬の候補化合物を探索しています。

背景: - 既知の阻害剤: 1,000化合物（活性データあり） - 候補化合物データベース: 10億化合物 - 目標: ウイルスのプロテアーゼ（タンパク質）に結合する化合物を見つける - 制約: 実験1化合物あたり100万円、100万時間/化合物

課題: 1. GNNを使った効率的な探索戦略を提案してください 2. 必要なデータとモデルアーキテクチャを説明してください 3. 期待される効果（コスト削減、時間短縮）を見積もってください

ヒント

**アプローチ**: 1. 既知データで事前学習 2. GNNで10億化合物をスクリーニング 3. 上位候補を実験検証 **考慮事項**: - 転移学習の活用 - 予測精度と探索範囲のトレードオフ - 実験フィードバックの活用（アクティブラーニング）

解答例

**提案：GNN駆動の段階的スクリーニング** ### ステップ1: データ準備とモデル訓練

from torch_geometric.nn import GCNConv, global_max_pool
import torch.nn.functional as F

class DrugGNN(torch.nn.Module):
    def __init__(self):
        super().__init__()
        # グラフ畳み込み層
        self.conv1 = GCNConv(75, 128)  # 原子特徴量75次元
        self.conv2 = GCNConv(128, 128)
        self.conv3 = GCNConv(128, 64)

        # 全結合層（阻害活性予測）
        self.lin1 = torch.nn.Linear(64, 32)
        self.lin2 = torch.nn.Linear(32, 1)

    def forward(self, data):
        x, edge_index, batch = data.x, data.edge_index, data.batch

        # グラフ畳み込み
        x = F.relu(self.conv1(x, edge_index))
        x = F.relu(self.conv2(x, edge_index))
        x = F.relu(self.conv3(x, edge_index))

        # グラフレベル予測
        x = global_max_pool(x, batch)
        x = F.relu(self.lin1(x))
        x = self.lin2(x)
        return x  # 阻害活性スコア

# 訓練（1,000既知化合物）
model = DrugGNN()
# ... 訓練ループ

### ステップ2: 大規模スクリーニング

# 10億化合物を並列予測
def screen_compounds(model, compound_library, batch_size=1000):
    """
    大規模化合物ライブラリのスクリーニング
    """
    predictions = []

    for i in range(0, len(compound_library), batch_size):
        batch = compound_library[i:i+batch_size]
        # グラフに変換
        graphs = [smiles_to_graph(smiles) for smiles in batch]
        # 予測
        scores = model.predict(graphs)
        predictions.extend(scores)

    # 上位1,000化合物を選択
    top_candidates = sorted(
        zip(compound_library, predictions),
        key=lambda x: x[1],
        reverse=True
    )[:1000]

    return top_candidates

# 実行
top_1000 = screen_compounds(model, billion_compounds)

### ステップ3: 実験検証とフィードバック

# アクティブラーニング
for iteration in range(10):
    # 上位100化合物を実験検証
    experimental_results = run_experiments(top_1000[:100])

    # モデルを再訓練（新データを追加）
    model.finetune(experimental_results)

    # 残りの化合物を再スクリーニング
    top_1000 = screen_compounds(
        model,
        remaining_compounds
    )

--- ### 期待される効果 **コスト削減**:

従来手法（ランダムスクリーニング）:
- 実験数: 10,000化合物
- コスト: 10,000 × 100万円 = 100億円
- 時間: 10,000 × 1万時間 = 1億時間 ≈ 11,000年

GNN手法:
- 計算スクリーニング: 10億化合物（1週間、1,000万円）
- 実験検証: 1,000化合物（10億円、1万時間 ≈ 1年）
- 総コスト: 11億円（91%削減）
- 総時間: 1年（99.99%短縮）

**精度向上**: - ヒット率: 0.1% → 10%（100倍向上） - 事前学習モデル（ChemBERTa等）活用で更に改善 --- ### 追加の検討事項 **リスク管理**: 1. **False Positive（偽陽性）** - GNN予測が高くても実験で失敗 - 対策: 不確実性推定（ベイズGNN） 2. **データバイアス** - 既知化合物に類似した構造に偏る - 対策: 多様性を考慮した探索 3. **特許・規制** - 候補化合物の知財確認 - 毒性・副作用予測 **実装の詳細**: - ハードウェア: GPU×8台（1週間で10億化合物） - ソフトウェア: PyTorch Geometric, RDKit, DeepChem - データベース: PubChem、ZINC、ChEMBL --- ### 学んだスキルこの演習を通じて： - ✅ GNNの産業応用を具体化できた - ✅ コスト・時間・精度のトレードオフを分析できた - ✅ 段階的スクリーニング戦略を設計できた - ✅ アクティブラーニングの重要性を理解した

参考文献

Gilmer, J. et al. (2017). "Neural Message Passing for Quantum Chemistry." ICML. DOI: https://arxiv.org/abs/1704.01212
Chanussot, L. et al. (2021). "Open Catalyst 2020 (OC20) Dataset and Community Challenges." ACS Catalysis, 11, 6059-6072. DOI: https://doi.org/10.1021/acscatal.0c04525
Xie, T. & Grossman, J. C. (2018). "Crystal Graph Convolutional Neural Networks for an Accurate and Interpretable Prediction of Material Properties." Physical Review Letters, 120, 145301. DOI: https://doi.org/10.1103/PhysRevLett.120.145301
Schütt, K. T. et al. (2017). "SchNet: A continuous-filter convolutional neural network for modeling quantum interactions." NeurIPS. DOI: https://arxiv.org/abs/1706.08566
Wu, Z. et al. (2020). "A Comprehensive Survey on Graph Neural Networks." IEEE Transactions on Neural Networks and Learning Systems, 32(1), 4-24. DOI: https://doi.org/10.1109/TNNLS.2020.2978386

著者情報

作成者: AI Terakoya Content Team 作成日: 2025-10-17 バージョン: 1.0

更新履歴: - 2025-10-17: v1.0 初版公開

フィードバック: - GitHub Issues: [リポジトリURL]/issues - Email: yusuke.hashimoto.b8@tohoku.ac.jp

ライセンス: Creative Commons BY 4.0

第2章で、GNNの内部メカニズムを詳しく学びましょう！