第3章:報酬設計と最適化目的 - AIエージェントによる自律プロセス運転

3.1 報酬設計の重要性

強化学習エージェントの行動は、報酬関数によって決定されます。「何を報酬とするか」が最も重要な設計判断です。プロセス制御では、収率最大化だけでなく、安全性・エネルギー効率・製品品質など複数の目的を同時に考慮する必要があります。

💡 報酬設計の原則

明確性: エージェントが何を最適化すべきか明確に定義
測定可能性: リアルタイムで計算可能な指標を使用
バランス: 複数の目的間のトレードオフを考慮
安全性: 危険な行動に対して強いペナルティ

Example 1: Sparse vs Dense報酬の比較

Sparse報酬（目標達成時のみ報酬）とDense報酬（各ステップで報酬）の違いを理解します。

import numpy as np
import matplotlib.pyplot as plt
import gymnasium as gym
from gymnasium import spaces

# ===================================
# Example 1: Sparse vs Dense報酬の比較
# ===================================

class ReactorEnvironmentSparseReward(gym.Env):
    """Sparse報酬: 目標温度達成時のみ報酬を与える反応器"""

    def __init__(self, target_temp=350.0, temp_tolerance=5.0):
        super().__init__()

        self.target_temp = target_temp  # 目標温度 [K]
        self.temp_tolerance = temp_tolerance  # 許容誤差 [K]

        # 状態空間: [現在温度, 目標温度との差]
        self.observation_space = spaces.Box(
            low=np.array([250.0, -150.0]),
            high=np.array([450.0, 150.0]),
            dtype=np.float32
        )

        # 行動空間: 加熱量 [-50, +50] W
        self.action_space = spaces.Box(
            low=-50.0, high=50.0, shape=(1,), dtype=np.float32
        )

        self.reset()

    def reset(self, seed=None):
        super().reset(seed=seed)
        # 初期温度: 目標から遠い位置
        self.current_temp = 300.0 + np.random.uniform(-20, 20)
        self.steps = 0
        return self._get_obs(), {}

    def _get_obs(self):
        temp_error = self.target_temp - self.current_temp
        return np.array([self.current_temp, temp_error], dtype=np.float32)

    def step(self, action):
        heating_power = float(action[0])

        # 温度ダイナミクス（1次遅れ系）
        tau = 10.0  # 時定数
        dt = 1.0    # 時間ステップ

        temp_change = (heating_power - 0.1 * (self.current_temp - 298)) * dt / tau
        self.current_temp += temp_change
        self.current_temp = np.clip(self.current_temp, 250, 450)

        # Sparse報酬: 目標範囲内に入った時のみ+1
        temp_error = abs(self.target_temp - self.current_temp)
        reward = 1.0 if temp_error <= self.temp_tolerance else 0.0

        self.steps += 1
        terminated = temp_error <= self.temp_tolerance
        truncated = self.steps >= 100

        return self._get_obs(), reward, terminated, truncated, {}


class ReactorEnvironmentDenseReward(gym.Env):
    """Dense報酬: 各ステップで目標への近さに応じた報酬"""

    def __init__(self, target_temp=350.0):
        super().__init__()

        self.target_temp = target_temp

        self.observation_space = spaces.Box(
            low=np.array([250.0, -150.0]),
            high=np.array([450.0, 150.0]),
            dtype=np.float32
        )

        self.action_space = spaces.Box(
            low=-50.0, high=50.0, shape=(1,), dtype=np.float32
        )

        self.reset()

    def reset(self, seed=None):
        super().reset(seed=seed)
        self.current_temp = 300.0 + np.random.uniform(-20, 20)
        self.steps = 0
        self.prev_error = abs(self.target_temp - self.current_temp)
        return self._get_obs(), {}

    def _get_obs(self):
        temp_error = self.target_temp - self.current_temp
        return np.array([self.current_temp, temp_error], dtype=np.float32)

    def step(self, action):
        heating_power = float(action[0])

        tau = 10.0
        dt = 1.0

        temp_change = (heating_power - 0.1 * (self.current_temp - 298)) * dt / tau
        self.current_temp += temp_change
        self.current_temp = np.clip(self.current_temp, 250, 450)

        # Dense報酬: 誤差に基づく連続報酬
        temp_error = abs(self.target_temp - self.current_temp)

        # 報酬 = 誤差削減 + 小さい誤差へのボーナス
        error_reduction = self.prev_error - temp_error
        proximity_bonus = -0.01 * temp_error  # 誤差が小さいほど高報酬
        reward = error_reduction + proximity_bonus

        self.prev_error = temp_error
        self.steps += 1

        terminated = temp_error <= 5.0
        truncated = self.steps >= 100

        return self._get_obs(), reward, terminated, truncated, {}


def compare_reward_types(n_episodes=5):
    """Sparse vs Dense報酬の学習効率を比較"""
    envs = {
        'Sparse Reward': ReactorEnvironmentSparseReward(),
        'Dense Reward': ReactorEnvironmentDenseReward()
    }

    results = {}

    for env_name, env in envs.items():
        episode_rewards = []
        episode_lengths = []

        print(f"\n=== {env_name} ===")

        for episode in range(n_episodes):
            obs, _ = env.reset(seed=episode)
            total_reward = 0
            steps = 0

            # ランダムエージェント（学習前のベースライン）
            for _ in range(100):
                action = env.action_space.sample()
                obs, reward, terminated, truncated, _ = env.step(action)
                total_reward += reward
                steps += 1

                if terminated or truncated:
                    break

            episode_rewards.append(total_reward)
            episode_lengths.append(steps)

            print(f"Episode {episode+1}: Reward={total_reward:.2f}, Steps={steps}")

        results[env_name] = {
            'rewards': episode_rewards,
            'lengths': episode_lengths
        }

    # 可視化
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

    # 累積報酬比較
    ax1.bar(results.keys(), [np.mean(r['rewards']) for r in results.values()],
            color=['#3498db', '#2ecc71'], alpha=0.7, edgecolor='black', linewidth=1.5)
    ax1.set_ylabel('Average Total Reward')
    ax1.set_title('Reward Signal Strength Comparison')
    ax1.grid(axis='y', alpha=0.3)

    # エピソード長比較
    ax2.bar(results.keys(), [np.mean(r['lengths']) for r in results.values()],
            color=['#3498db', '#2ecc71'], alpha=0.7, edgecolor='black', linewidth=1.5)
    ax2.set_ylabel('Average Episode Length')
    ax2.set_title('Convergence Speed')
    ax2.grid(axis='y', alpha=0.3)

    plt.tight_layout()
    return fig, results

# 実行
fig, results = compare_reward_types(n_episodes=10)
plt.show()

print("\n=== Summary ===")
print(f"Sparse Reward - Mean: {np.mean(results['Sparse Reward']['rewards']):.2f}")
print(f"Dense Reward  - Mean: {np.mean(results['Dense Reward']['rewards']):.2f}")
print(f"\nDense報酬はより豊かな学習シグナルを提供し、学習効率が向上します")

出力例:
Sparse Reward - Mean: 0.20 (ほとんど報酬なし)
Dense Reward - Mean: 15.34 (各ステップで報酬)

Dense報酬は学習初期段階で有効な勾配情報を提供

💡 実務での選択

Sparse報酬: 目標が明確で、達成/未達成が二値的な場合（バッチ完了、規格合格など）

Dense報酬: 連続的な改善が重要で、中間的な進捗を評価したい場合（温度制御、組成制御など）

3.2 Reward ShapingによるPID風制御

従来のPID制御の考え方を報酬設計に取り入れることで、エージェントに適切な制御挙動を学習させます。比例項（P）・積分項（I）・微分項（D）に相当する報酬コンポーネントを設計します。

Example 2: PID-inspired報酬関数

import numpy as np
import matplotlib.pyplot as plt
import gymnasium as gym
from gymnasium import spaces

# ===================================
# Example 2: PID-inspired報酬関数
# ===================================

class PIDRewardReactor(gym.Env):
    """PID制御理論に基づく報酬設計の反応器環境"""

    def __init__(self, target_temp=350.0, kp=1.0, ki=0.1, kd=0.5):
        super().__init__()

        self.target_temp = target_temp

        # PID報酬の重み
        self.kp = kp  # 比例ゲイン（現在の誤差）
        self.ki = ki  # 積分ゲイン（累積誤差）
        self.kd = kd  # 微分ゲイン（誤差変化率）

        self.observation_space = spaces.Box(
            low=np.array([250.0, -150.0, -1000.0, -50.0]),
            high=np.array([450.0, 150.0, 1000.0, 50.0]),
            dtype=np.float32
        )

        self.action_space = spaces.Box(
            low=-50.0, high=50.0, shape=(1,), dtype=np.float32
        )

        self.reset()

    def reset(self, seed=None):
        super().reset(seed=seed)
        self.current_temp = 300.0 + np.random.uniform(-20, 20)
        self.cumulative_error = 0.0
        self.prev_error = self.target_temp - self.current_temp
        self.steps = 0

        self.temp_history = [self.current_temp]
        self.reward_history = []
        self.reward_components = {'P': [], 'I': [], 'D': [], 'total': []}

        return self._get_obs(), {}

    def _get_obs(self):
        error = self.target_temp - self.current_temp
        return np.array([
            self.current_temp,
            error,
            self.cumulative_error,
            error - self.prev_error
        ], dtype=np.float32)

    def step(self, action):
        heating_power = float(action[0])

        # 温度ダイナミクス
        tau = 10.0
        dt = 1.0
        temp_change = (heating_power - 0.1 * (self.current_temp - 298)) * dt / tau
        self.current_temp += temp_change
        self.current_temp = np.clip(self.current_temp, 250, 450)

        # 誤差計算
        error = self.target_temp - self.current_temp
        self.cumulative_error += error * dt
        error_derivative = (error - self.prev_error) / dt

        # PID風報酬の各成分
        reward_p = -self.kp * abs(error)              # 比例: 誤差が小さいほど高報酬
        reward_i = -self.ki * abs(self.cumulative_error)  # 積分: オフセット誤差にペナルティ
        reward_d = -self.kd * abs(error_derivative)   # 微分: 急激な変化を抑制

        reward = reward_p + reward_i + reward_d

        # 履歴記録
        self.temp_history.append(self.current_temp)
        self.reward_history.append(reward)
        self.reward_components['P'].append(reward_p)
        self.reward_components['I'].append(reward_i)
        self.reward_components['D'].append(reward_d)
        self.reward_components['total'].append(reward)

        self.prev_error = error
        self.steps += 1

        terminated = abs(error) <= 2.0 and self.steps >= 20
        truncated = self.steps >= 100

        return self._get_obs(), reward, terminated, truncated, {}

    def plot_pid_components(self):
        """PID報酬成分の可視化"""
        fig, axes = plt.subplots(2, 1, figsize=(12, 8))

        steps = np.arange(len(self.temp_history))

        # 温度プロファイル
        ax = axes[0]
        ax.plot(steps, self.temp_history, 'b-', linewidth=2, label='Temperature')
        ax.axhline(self.target_temp, color='red', linestyle='--',
                  linewidth=2, label=f'Target ({self.target_temp}K)')
        ax.fill_between(steps,
                       self.target_temp - 5,
                       self.target_temp + 5,
                       alpha=0.2, color='green', label='±5K tolerance')
        ax.set_xlabel('Time Step')
        ax.set_ylabel('Temperature [K]')
        ax.set_title('Temperature Control Profile')
        ax.legend()
        ax.grid(alpha=0.3)

        # 報酬成分の内訳
        ax = axes[1]
        steps_reward = np.arange(len(self.reward_components['P']))
        ax.plot(steps_reward, self.reward_components['P'], 'b-',
               linewidth=2, label=f'Proportional (kp={self.kp})')
        ax.plot(steps_reward, self.reward_components['I'], 'g-',
               linewidth=2, label=f'Integral (ki={self.ki})')
        ax.plot(steps_reward, self.reward_components['D'], 'orange',
               linewidth=2, label=f'Derivative (kd={self.kd})')
        ax.plot(steps_reward, self.reward_components['total'], 'r-',
               linewidth=2.5, label='Total Reward', alpha=0.7)
        ax.axhline(0, color='black', linestyle='-', linewidth=0.5)
        ax.set_xlabel('Time Step')
        ax.set_ylabel('Reward Component Value')
        ax.set_title('PID Reward Components Breakdown')
        ax.legend()
        ax.grid(alpha=0.3)

        plt.tight_layout()
        return fig


def test_pid_reward_tuning():
    """異なるPIDゲインでの報酬挙動を比較"""
    pid_configs = [
        {'kp': 1.0, 'ki': 0.0, 'kd': 0.0, 'name': 'P only'},
        {'kp': 1.0, 'ki': 0.1, 'kd': 0.0, 'name': 'PI'},
        {'kp': 1.0, 'ki': 0.1, 'kd': 0.5, 'name': 'PID (balanced)'},
    ]

    results = {}

    for config in pid_configs:
        env = PIDRewardReactor(
            target_temp=350.0,
            kp=config['kp'],
            ki=config['ki'],
            kd=config['kd']
        )

        obs, _ = env.reset(seed=42)

        # シンプルな制御ルール（報酬を最大化する行動）
        for _ in range(50):
            # 誤差に比例した行動（簡易PID制御）
            error = obs[1]
            action = np.array([np.clip(2.0 * error, -50, 50)])
            obs, reward, terminated, truncated, _ = env.step(action)

            if terminated or truncated:
                break

        results[config['name']] = env

        print(f"\n=== {config['name']} ===")
        print(f"Final temperature: {env.current_temp:.2f}K")
        print(f"Final error: {abs(350 - env.current_temp):.2f}K")
        print(f"Total reward: {sum(env.reward_history):.2f}")

    # 可視化
    for name, env in results.items():
        fig = env.plot_pid_components()
        plt.suptitle(f'{name} Configuration', fontsize=14, y=1.02)
        plt.show()

# 実行
test_pid_reward_tuning()

出力例:
P only - Final error: 3.2K, Total reward: -156.7
PI - Final error: 0.8K, Total reward: -189.3
PID - Final error: 0.5K, Total reward: -198.1

PID報酬は定常偏差を解消し、オーバーシュートを抑制

3.3 多目的報酬関数

実プロセスでは、収率・エネルギー・安全性など複数の目的を同時に考慮する必要があります。重み付き和やパレート最適化の考え方を報酬設計に適用します。

Example 3: 多目的最適化（収率+エネルギー+安全性）

import numpy as np
import matplotlib.pyplot as plt
import gymnasium as gym
from gymnasium import spaces

# ===================================
# Example 3: 多目的報酬関数
# ===================================

class MultiObjectiveReactor(gym.Env):
    """収率・エネルギー・安全性を考慮した反応器環境"""

    def __init__(self, w_yield=1.0, w_energy=0.3, w_safety=2.0):
        super().__init__()

        # 多目的の重み
        self.w_yield = w_yield     # 収率の重要度
        self.w_energy = w_energy   # エネルギー効率の重要度
        self.w_safety = w_safety   # 安全性の重要度

        # 状態空間: [温度, 圧力, 濃度, 収率]
        self.observation_space = spaces.Box(
            low=np.array([300.0, 1.0, 0.0, 0.0]),
            high=np.array([400.0, 5.0, 2.0, 1.0]),
            dtype=np.float32
        )

        # 行動空間: [温度変化, 圧力変化]
        self.action_space = spaces.Box(
            low=np.array([-5.0, -0.2]),
            high=np.array([5.0, 0.2]),
            dtype=np.float32
        )

        self.reset()

    def reset(self, seed=None):
        super().reset(seed=seed)

        # 初期状態
        self.temperature = 320.0  # K
        self.pressure = 2.0       # bar
        self.concentration = 1.0  # mol/L
        self.yield_value = 0.0

        self.cumulative_energy = 0.0
        self.steps = 0

        self.history = {
            'temp': [self.temperature],
            'pressure': [self.pressure],
            'yield': [self.yield_value],
            'reward_yield': [],
            'reward_energy': [],
            'reward_safety': [],
            'reward_total': []
        }

        return self._get_obs(), {}

    def _get_obs(self):
        return np.array([
            self.temperature,
            self.pressure,
            self.concentration,
            self.yield_value
        ], dtype=np.float32)

    def _calculate_yield(self):
        """収率計算（温度・圧力の関数）"""
        # 最適温度: 350K, 最適圧力: 3.0 bar
        temp_factor = np.exp(-((self.temperature - 350) / 20)**2)
        pressure_factor = 1.0 - 0.3 * ((self.pressure - 3.0) / 2)**2

        return 0.9 * temp_factor * pressure_factor * (1 - np.exp(-self.steps / 20))

    def step(self, action):
        temp_change, pressure_change = action

        # 状態更新
        self.temperature += temp_change
        self.temperature = np.clip(self.temperature, 300, 400)

        self.pressure += pressure_change
        self.pressure = np.clip(self.pressure, 1.0, 5.0)

        self.yield_value = self._calculate_yield()
        self.concentration *= 0.95  # 濃度減少

        # 多目的報酬の各成分

        # (1) 収率報酬: 収率が高いほど報酬
        reward_yield = self.w_yield * self.yield_value

        # (2) エネルギー報酬: 温度・圧力変化が小さいほど高報酬
        energy_cost = abs(temp_change) / 5.0 + abs(pressure_change) / 0.2
        reward_energy = -self.w_energy * energy_cost
        self.cumulative_energy += energy_cost

        # (3) 安全性報酬: 危険領域（高温高圧）からの距離
        temp_danger = max(0, self.temperature - 380)  # 380K以上で危険
        pressure_danger = max(0, self.pressure - 4.5)  # 4.5 bar以上で危険
        safety_penalty = temp_danger + 10 * pressure_danger
        reward_safety = -self.w_safety * safety_penalty

        # 総合報酬
        reward = reward_yield + reward_energy + reward_safety

        # 履歴記録
        self.history['temp'].append(self.temperature)
        self.history['pressure'].append(self.pressure)
        self.history['yield'].append(self.yield_value)
        self.history['reward_yield'].append(reward_yield)
        self.history['reward_energy'].append(reward_energy)
        self.history['reward_safety'].append(reward_safety)
        self.history['reward_total'].append(reward)

        self.steps += 1

        # 終了条件
        terminated = self.yield_value >= 0.85 or safety_penalty > 20
        truncated = self.steps >= 50

        return self._get_obs(), reward, terminated, truncated, {}

    def plot_multi_objective_analysis(self):
        """多目的最適化の解析"""
        fig, axes = plt.subplots(2, 2, figsize=(14, 10))

        steps = np.arange(len(self.history['temp']))

        # (1) 温度・圧力プロファイル
        ax = axes[0, 0]
        ax2 = ax.twinx()

        l1 = ax.plot(steps, self.history['temp'], 'r-', linewidth=2, label='Temperature')
        ax.axhspan(380, 400, alpha=0.2, color='red', label='Danger zone (T)')
        ax.set_xlabel('Time Step')
        ax.set_ylabel('Temperature [K]', color='r')
        ax.tick_params(axis='y', labelcolor='r')

        l2 = ax2.plot(steps, self.history['pressure'], 'b-', linewidth=2, label='Pressure')
        ax2.axhspan(4.5, 5.0, alpha=0.2, color='blue', label='Danger zone (P)')
        ax2.set_ylabel('Pressure [bar]', color='b')
        ax2.tick_params(axis='y', labelcolor='b')

        lines = l1 + l2
        labels = [l.get_label() for l in lines]
        ax.legend(lines, labels, loc='upper left')
        ax.set_title('Process Variables with Safety Zones')
        ax.grid(alpha=0.3)

        # (2) 収率推移
        ax = axes[0, 1]
        ax.plot(steps, self.history['yield'], 'g-', linewidth=2.5)
        ax.axhline(0.85, color='orange', linestyle='--', linewidth=2, label='Target yield')
        ax.fill_between(steps, 0, 0.85, alpha=0.1, color='green')
        ax.set_xlabel('Time Step')
        ax.set_ylabel('Yield')
        ax.set_title('Yield Evolution')
        ax.legend()
        ax.grid(alpha=0.3)

        # (3) 報酬成分の内訳
        ax = axes[1, 0]
        reward_steps = np.arange(len(self.history['reward_yield']))
        ax.plot(reward_steps, self.history['reward_yield'], 'g-',
               linewidth=2, label=f'Yield (w={self.w_yield})')
        ax.plot(reward_steps, self.history['reward_energy'], 'b-',
               linewidth=2, label=f'Energy (w={self.w_energy})')
        ax.plot(reward_steps, self.history['reward_safety'], 'r-',
               linewidth=2, label=f'Safety (w={self.w_safety})')
        ax.set_xlabel('Time Step')
        ax.set_ylabel('Reward Component')
        ax.set_title('Multi-Objective Reward Breakdown')
        ax.legend()
        ax.grid(alpha=0.3)

        # (4) 累積総合報酬
        ax = axes[1, 1]
        cumulative_reward = np.cumsum(self.history['reward_total'])
        ax.plot(reward_steps, cumulative_reward, 'purple', linewidth=2.5)
        ax.fill_between(reward_steps, 0, cumulative_reward, alpha=0.3, color='purple')
        ax.set_xlabel('Time Step')
        ax.set_ylabel('Cumulative Total Reward')
        ax.set_title('Overall Performance')
        ax.grid(alpha=0.3)

        plt.tight_layout()
        return fig


def compare_weight_configurations():
    """異なる重み設定での挙動を比較"""
    configs = [
        {'w_yield': 1.0, 'w_energy': 0.0, 'w_safety': 0.0, 'name': 'Yield only'},
        {'w_yield': 1.0, 'w_energy': 0.5, 'w_safety': 0.0, 'name': 'Yield + Energy'},
        {'w_yield': 1.0, 'w_energy': 0.3, 'w_safety': 2.0, 'name': 'Balanced (all)'},
    ]

    results = []

    for config in configs:
        env = MultiObjectiveReactor(
            w_yield=config['w_yield'],
            w_energy=config['w_energy'],
            w_safety=config['w_safety']
        )

        obs, _ = env.reset(seed=42)

        # 簡易制御ルール: 目標温度・圧力に向かう
        target_temp = 350.0
        target_pressure = 3.0

        for _ in range(50):
            temp_error = target_temp - obs[0]
            pressure_error = target_pressure - obs[1]

            action = np.array([
                np.clip(0.5 * temp_error, -5, 5),
                np.clip(0.3 * pressure_error, -0.2, 0.2)
            ])

            obs, reward, terminated, truncated, _ = env.step(action)

            if terminated or truncated:
                break

        results.append({
            'name': config['name'],
            'env': env,
            'final_yield': env.yield_value,
            'total_energy': env.cumulative_energy,
            'max_temp': max(env.history['temp']),
            'total_reward': sum(env.history['reward_total'])
        })

        print(f"\n=== {config['name']} ===")
        print(f"Final yield: {env.yield_value:.3f}")
        print(f"Total energy cost: {env.cumulative_energy:.2f}")
        print(f"Max temperature: {max(env.history['temp']):.1f}K")
        print(f"Total reward: {sum(env.history['reward_total']):.2f}")

    # 各設定の可視化
    for result in results:
        fig = result['env'].plot_multi_objective_analysis()
        plt.suptitle(f"{result['name']} Configuration", fontsize=14, y=1.00)
        plt.show()

    return results

# 実行
results = compare_weight_configurations()

出力例:
Yield only - Yield: 0.892, Energy: 45.6, Max temp: 395K
Yield + Energy - Yield: 0.867, Energy: 28.3, Max temp: 378K
Balanced (all) - Yield: 0.853, Energy: 22.1, Max temp: 368K

重み調整によりトレードオフをコントロール可能

⚠️ 重み設定の実務ガイドライン

安全性: 最も高い重み（w=2.0〜5.0）を設定し、危険領域を強く回避
収率: 主目的として中程度の重み（w=1.0）をベースライン
エネルギー: 補助的な最適化目標（w=0.1〜0.5）

3.4 Intrinsic Motivation（探索ボーナス）

エージェントが未知の状態空間を積極的に探索するように、内発的動機付け（Intrinsic Motivation）を報酬に組み込みます。Curiosity-driven learningの実装例を示します。

Example 4: 探索ボーナス付き報酬

import numpy as np
import matplotlib.pyplot as plt
import gymnasium as gym
from gymnasium import spaces
from collections import defaultdict

# ===================================
# Example 4: Intrinsic Motivation（探索ボーナス）
# ===================================

class ExplorationBonusReactor(gym.Env):
    """探索ボーナスを持つ反応器環境"""

    def __init__(self, exploration_bonus_weight=0.2, state_discretization=10):
        super().__init__()

        self.exploration_bonus_weight = exploration_bonus_weight
        self.state_discretization = state_discretization

        # 状態訪問カウント（探索度合いの記録）
        self.visit_counts = defaultdict(int)

        # 状態空間: [温度, 圧力, 触媒濃度]
        self.observation_space = spaces.Box(
            low=np.array([300.0, 1.0, 0.1]),
            high=np.array([400.0, 5.0, 1.0]),
            dtype=np.float32
        )

        # 行動空間: [温度変化, 圧力変化, 触媒追加量]
        self.action_space = spaces.Box(
            low=np.array([-5.0, -0.2, -0.05]),
            high=np.array([5.0, 0.2, 0.05]),
            dtype=np.float32
        )

        self.reset()

    def reset(self, seed=None):
        super().reset(seed=seed)

        self.temperature = 320.0
        self.pressure = 2.0
        self.catalyst = 0.5
        self.yield_value = 0.0
        self.steps = 0

        self.history = {
            'states': [],
            'extrinsic_rewards': [],
            'intrinsic_rewards': [],
            'total_rewards': [],
            'visit_counts': []
        }

        return self._get_obs(), {}

    def _get_obs(self):
        return np.array([
            self.temperature,
            self.pressure,
            self.catalyst
        ], dtype=np.float32)

    def _discretize_state(self, state):
        """状態を離散化（訪問カウント用）"""
        temp_bin = int((state[0] - 300) / 100 * self.state_discretization)
        pressure_bin = int((state[1] - 1.0) / 4.0 * self.state_discretization)
        catalyst_bin = int((state[2] - 0.1) / 0.9 * self.state_discretization)

        return (
            np.clip(temp_bin, 0, self.state_discretization - 1),
            np.clip(pressure_bin, 0, self.state_discretization - 1),
            np.clip(catalyst_bin, 0, self.state_discretization - 1)
        )

    def _calculate_exploration_bonus(self, state):
        """探索ボーナス計算（訪問回数の逆数）"""
        discrete_state = self._discretize_state(state)
        visit_count = self.visit_counts[discrete_state]

        # Bonus = k / sqrt(N + 1) (訪問回数が少ないほど高ボーナス)
        bonus = 1.0 / np.sqrt(visit_count + 1)

        return bonus

    def _calculate_yield(self):
        """収率計算"""
        temp_factor = np.exp(-((self.temperature - 350) / 25)**2)
        pressure_factor = 1.0 - 0.2 * ((self.pressure - 3.0) / 2)**2
        catalyst_factor = self.catalyst / (0.2 + self.catalyst)

        return 0.9 * temp_factor * pressure_factor * catalyst_factor

    def step(self, action):
        temp_change, pressure_change, catalyst_change = action

        # 状態更新
        self.temperature += temp_change
        self.temperature = np.clip(self.temperature, 300, 400)

        self.pressure += pressure_change
        self.pressure = np.clip(self.pressure, 1.0, 5.0)

        self.catalyst += catalyst_change
        self.catalyst = np.clip(self.catalyst, 0.1, 1.0)

        self.yield_value = self._calculate_yield()

        current_state = self._get_obs()

        # (1) Extrinsic報酬: タスク達成に基づく報酬
        reward_extrinsic = self.yield_value

        # (2) Intrinsic報酬: 探索ボーナス
        exploration_bonus = self._calculate_exploration_bonus(current_state)
        reward_intrinsic = self.exploration_bonus_weight * exploration_bonus

        # 総合報酬
        reward = reward_extrinsic + reward_intrinsic

        # 訪問カウント更新
        discrete_state = self._discretize_state(current_state)
        self.visit_counts[discrete_state] += 1

        # 履歴記録
        self.history['states'].append(current_state.copy())
        self.history['extrinsic_rewards'].append(reward_extrinsic)
        self.history['intrinsic_rewards'].append(reward_intrinsic)
        self.history['total_rewards'].append(reward)
        self.history['visit_counts'].append(len(self.visit_counts))

        self.steps += 1

        terminated = self.yield_value >= 0.88
        truncated = self.steps >= 100

        return current_state, reward, terminated, truncated, {}

    def plot_exploration_analysis(self):
        """探索挙動の分析"""
        fig = plt.figure(figsize=(14, 10))

        # (1) 状態空間の探索軌跡（3D）
        ax = fig.add_subplot(221, projection='3d')
        states = np.array(self.history['states'])

        scatter = ax.scatter(states[:, 0], states[:, 1], states[:, 2],
                           c=range(len(states)), cmap='viridis',
                           s=50, alpha=0.6, edgecolor='black', linewidth=0.5)
        ax.set_xlabel('Temperature [K]')
        ax.set_ylabel('Pressure [bar]')
        ax.set_zlabel('Catalyst [mol/L]')
        ax.set_title('State Space Exploration Trajectory')
        plt.colorbar(scatter, ax=ax, label='Time Step', shrink=0.6)

        # (2) Extrinsic vs Intrinsic報酬
        ax = fig.add_subplot(222)
        steps = np.arange(len(self.history['extrinsic_rewards']))
        ax.plot(steps, self.history['extrinsic_rewards'], 'b-',
               linewidth=2, label='Extrinsic (task reward)', alpha=0.7)
        ax.plot(steps, self.history['intrinsic_rewards'], 'orange',
               linewidth=2, label='Intrinsic (exploration bonus)', alpha=0.7)
        ax.plot(steps, self.history['total_rewards'], 'g-',
               linewidth=2.5, label='Total reward')
        ax.set_xlabel('Time Step')
        ax.set_ylabel('Reward')
        ax.set_title('Reward Decomposition')
        ax.legend()
        ax.grid(alpha=0.3)

        # (3) 探索進捗（ユニーク状態数）
        ax = fig.add_subplot(223)
        ax.plot(steps, self.history['visit_counts'], 'purple', linewidth=2.5)
        ax.fill_between(steps, 0, self.history['visit_counts'], alpha=0.3, color='purple')
        ax.set_xlabel('Time Step')
        ax.set_ylabel('Number of Unique States Visited')
        ax.set_title('Exploration Progress')
        ax.grid(alpha=0.3)

        # (4) 訪問ヒートマップ（温度 vs 圧力、触媒=0.5付近）
        ax = fig.add_subplot(224)

        # グリッドを作成して訪問回数をカウント
        temp_bins = np.linspace(300, 400, 20)
        pressure_bins = np.linspace(1, 5, 20)
        heatmap = np.zeros((len(pressure_bins)-1, len(temp_bins)-1))

        for state in self.history['states']:
            if 0.4 <= state[2] <= 0.6:  # 触媒濃度0.5付近
                temp_idx = np.digitize(state[0], temp_bins) - 1
                pressure_idx = np.digitize(state[1], pressure_bins) - 1
                if 0 <= temp_idx < len(temp_bins)-1 and 0 <= pressure_idx < len(pressure_bins)-1:
                    heatmap[pressure_idx, temp_idx] += 1

        im = ax.imshow(heatmap, extent=[300, 400, 1, 5], aspect='auto',
                      origin='lower', cmap='YlOrRd', interpolation='bilinear')
        ax.set_xlabel('Temperature [K]')
        ax.set_ylabel('Pressure [bar]')
        ax.set_title('State Visitation Heatmap (Catalyst ≈ 0.5)')
        plt.colorbar(im, ax=ax, label='Visit Count')

        plt.tight_layout()
        return fig


def compare_with_without_exploration_bonus():
    """探索ボーナスありとなしを比較"""
    configs = [
        {'bonus_weight': 0.0, 'name': 'No exploration bonus'},
        {'bonus_weight': 0.3, 'name': 'With exploration bonus'}
    ]

    results = []

    for config in configs:
        env = ExplorationBonusReactor(
            exploration_bonus_weight=config['bonus_weight'],
            state_discretization=10
        )

        obs, _ = env.reset(seed=42)

        # ランダムエージェント（探索効果を見るため）
        for _ in range(100):
            action = env.action_space.sample()
            obs, reward, terminated, truncated, _ = env.step(action)

            if terminated or truncated:
                break

        unique_states = len(env.visit_counts)
        final_yield = env.yield_value

        results.append({
            'name': config['name'],
            'env': env,
            'unique_states': unique_states,
            'final_yield': final_yield
        })

        print(f"\n=== {config['name']} ===")
        print(f"Unique states explored: {unique_states}")
        print(f"Final yield: {final_yield:.3f}")
        print(f"Exploration efficiency: {unique_states / env.steps:.3f} states/step")

    # 可視化
    for result in results:
        fig = result['env'].plot_exploration_analysis()
        plt.suptitle(f"{result['name']}", fontsize=14, y=1.00)
        plt.show()

    return results

# 実行
results = compare_with_without_exploration_bonus()

print("\n=== Exploration Bonus Impact ===")
print(f"Without bonus: {results[0]['unique_states']} states explored")
print(f"With bonus: {results[1]['unique_states']} states explored")
print(f"Improvement: {(results[1]['unique_states'] - results[0]['unique_states']) / results[0]['unique_states'] * 100:.1f}%")

出力例:
Without bonus: 78 states explored, Final yield: 0.743
With bonus: 145 states explored, Final yield: 0.812
Improvement: 85.9% more states explored

探索ボーナスにより広範な状態空間を探索し、より良い解を発見

3.5 Curriculum Learning（段階的難易度調整）

複雑なタスクを学習する際、簡単なタスクから徐々に難易度を上げるCurriculum Learningが有効です。報酬関数の目標値を段階的に厳しくする実装を示します。

Example 5: 段階的な目標設定

import numpy as np
import matplotlib.pyplot as plt
import gymnasium as gym
from gymnasium import spaces

# ===================================
# Example 5: Curriculum Learning
# ===================================

class CurriculumReactor(gym.Env):
    """難易度が段階的に上がる反応器環境"""

    def __init__(self, curriculum_level=1):
        super().__init__()

        self.curriculum_level = curriculum_level
        self._update_curriculum_parameters()

        self.observation_space = spaces.Box(
            low=np.array([300.0, -50.0, 0.0, 0]),
            high=np.array([400.0, 50.0, 1.0, 5]),
            dtype=np.float32
        )

        self.action_space = spaces.Box(
            low=-10.0, high=10.0, shape=(1,), dtype=np.float32
        )

        self.reset()

    def _update_curriculum_parameters(self):
        """カリキュラムレベルに応じてパラメータ調整"""
        curricula = {
            1: {  # 初級: 簡単な目標、大きな許容誤差
                'target_yield': 0.60,
                'tolerance': 0.10,
                'disturbance_std': 0.0,
                'time_constant': 5.0,  # 速い応答
                'description': 'Easy: Low target, no disturbance'
            },
            2: {  # 中級: 中程度の目標、通常の許容誤差
                'target_yield': 0.75,
                'tolerance': 0.05,
                'disturbance_std': 1.0,
                'time_constant': 10.0,
                'description': 'Medium: Higher target, small disturbance'
            },
            3: {  # 上級: 高い目標、厳しい許容誤差、外乱あり
                'target_yield': 0.85,
                'tolerance': 0.03,
                'disturbance_std': 2.0,
                'time_constant': 15.0,  # 遅い応答
                'description': 'Hard: High target, large disturbance, slow response'
            },
            4: {  # 専門家級: 最高目標、極めて厳しい条件
                'target_yield': 0.90,
                'tolerance': 0.02,
                'disturbance_std': 3.0,
                'time_constant': 20.0,
                'description': 'Expert: Maximum target, heavy disturbance'
            },
        }

        params = curricula.get(self.curriculum_level, curricula[1])

        self.target_yield = params['target_yield']
        self.tolerance = params['tolerance']
        self.disturbance_std = params['disturbance_std']
        self.time_constant = params['time_constant']
        self.description = params['description']

    def set_curriculum_level(self, level):
        """カリキュラムレベルを変更"""
        self.curriculum_level = np.clip(level, 1, 4)
        self._update_curriculum_parameters()
        print(f"\n📚 Curriculum Level {self.curriculum_level}: {self.description}")

    def reset(self, seed=None):
        super().reset(seed=seed)

        self.temperature = 320.0 + np.random.uniform(-10, 10)
        self.current_yield = 0.0
        self.steps = 0

        self.history = {
            'temp': [self.temperature],
            'yield': [self.current_yield],
            'rewards': [],
            'disturbances': []
        }

        return self._get_obs(), {}

    def _get_obs(self):
        yield_error = self.target_yield - self.current_yield
        return np.array([
            self.temperature,
            yield_error,
            self.current_yield,
            self.curriculum_level
        ], dtype=np.float32)

    def _calculate_yield(self):
        """収率計算（温度の関数）"""
        optimal_temp = 350.0
        temp_factor = np.exp(-((self.temperature - optimal_temp) / 25)**2)
        return 0.95 * temp_factor

    def step(self, action):
        heating_power = float(action[0])

        # 外乱追加（カリキュラムレベルが高いほど大きい）
        disturbance = np.random.normal(0, self.disturbance_std)

        # 温度ダイナミクス（時定数で応答速度が変わる）
        dt = 1.0
        temp_change = (heating_power + disturbance - 0.1 * (self.temperature - 298)) * dt / self.time_constant
        self.temperature += temp_change
        self.temperature = np.clip(self.temperature, 300, 400)

        self.current_yield = self._calculate_yield()

        # 報酬設計: 目標達成度に応じた報酬
        yield_error = abs(self.target_yield - self.current_yield)

        # 段階的報酬: 許容誤差内で大きな報酬
        if yield_error <= self.tolerance:
            reward = 10.0 + (self.tolerance - yield_error) * 50  # ボーナス
        else:
            reward = -yield_error * 10  # ペナルティ

        # アクションのエネルギーコスト
        reward -= 0.01 * abs(heating_power)

        # 履歴記録
        self.history['temp'].append(self.temperature)
        self.history['yield'].append(self.current_yield)
        self.history['rewards'].append(reward)
        self.history['disturbances'].append(disturbance)

        self.steps += 1

        # 成功条件: 目標許容誤差内を10ステップ維持
        recent_yields = self.history['yield'][-10:]
        success = all(abs(self.target_yield - y) <= self.tolerance for y in recent_yields) if len(recent_yields) == 10 else False

        terminated = success
        truncated = self.steps >= 100

        return self._get_obs(), reward, terminated, truncated, {'success': success}

    def plot_curriculum_performance(self):
        """カリキュラム学習の進捗を可視化"""
        fig, axes = plt.subplots(2, 2, figsize=(14, 10))

        steps = np.arange(len(self.history['temp']))

        # (1) 温度プロファイル
        ax = axes[0, 0]
        ax.plot(steps, self.history['temp'], 'r-', linewidth=2)
        ax.axhline(350, color='green', linestyle='--', linewidth=2, label='Optimal temp (350K)')
        ax.set_xlabel('Time Step')
        ax.set_ylabel('Temperature [K]')
        ax.set_title(f'Temperature Control (Level {self.curriculum_level})')
        ax.legend()
        ax.grid(alpha=0.3)

        # (2) 収率プロファイル
        ax = axes[0, 1]
        ax.plot(steps, self.history['yield'], 'b-', linewidth=2, label='Actual yield')
        ax.axhline(self.target_yield, color='green', linestyle='--',
                  linewidth=2, label=f'Target ({self.target_yield:.2f})')
        ax.axhspan(self.target_yield - self.tolerance,
                  self.target_yield + self.tolerance,
                  alpha=0.2, color='green', label=f'Tolerance (±{self.tolerance:.2f})')
        ax.set_xlabel('Time Step')
        ax.set_ylabel('Yield')
        ax.set_title(f'Yield Tracking (Level {self.curriculum_level})')
        ax.legend()
        ax.grid(alpha=0.3)

        # (3) 報酬推移
        ax = axes[1, 0]
        reward_steps = np.arange(len(self.history['rewards']))
        ax.plot(reward_steps, self.history['rewards'], 'purple', linewidth=2, alpha=0.7)
        ax.axhline(0, color='black', linestyle='-', linewidth=0.5)
        ax.set_xlabel('Time Step')
        ax.set_ylabel('Reward')
        ax.set_title('Reward Signal')
        ax.grid(alpha=0.3)

        # (4) 外乱の影響
        ax = axes[1, 1]
        ax.plot(reward_steps, self.history['disturbances'], 'orange', linewidth=1.5, alpha=0.7)
        ax.fill_between(reward_steps, 0, self.history['disturbances'], alpha=0.3, color='orange')
        ax.axhline(0, color='black', linestyle='-', linewidth=0.5)
        ax.set_xlabel('Time Step')
        ax.set_ylabel('Disturbance [W]')
        ax.set_title(f'External Disturbance (σ={self.disturbance_std:.1f})')
        ax.grid(alpha=0.3)

        plt.tight_layout()
        return fig


def progressive_curriculum_training():
    """段階的なカリキュラム学習のデモ"""
    results = {}

    for level in range(1, 5):
        print(f"\n{'='*60}")
        print(f"Training at Curriculum Level {level}")
        print(f"{'='*60}")

        env = CurriculumReactor(curriculum_level=level)

        # 簡易制御ルール（PID風）
        obs, _ = env.reset(seed=42)

        success_count = 0
        episodes = 3

        for ep in range(episodes):
            obs, _ = env.reset(seed=42 + ep)

            for _ in range(100):
                # 目標収率に向けた温度調整
                yield_error = obs[1]  # target - current
                optimal_temp = 350.0
                temp_error = optimal_temp - obs[0]

                # アクション: 温度誤差と収率誤差に基づく
                action = np.array([np.clip(2.0 * temp_error + 5.0 * yield_error, -10, 10)])

                obs, reward, terminated, truncated, info = env.step(action)

                if terminated:
                    if info.get('success', False):
                        success_count += 1
                    break

                if truncated:
                    break

            print(f"Episode {ep+1}: Final yield={env.current_yield:.3f}, "
                  f"Target={env.target_yield:.3f}, "
                  f"Success={'✓' if info.get('success', False) else '✗'}")

        results[level] = {
            'env': env,
            'success_rate': success_count / episodes,
            'final_yield': env.current_yield
        }

        # 可視化
        fig = env.plot_curriculum_performance()
        plt.suptitle(f"Curriculum Level {level}: {env.description}", fontsize=13, y=1.00)
        plt.show()

    # サマリー
    print(f"\n{'='*60}")
    print("Curriculum Learning Summary")
    print(f"{'='*60}")
    for level, result in results.items():
        print(f"Level {level}: Success rate = {result['success_rate']*100:.0f}%, "
              f"Final yield = {result['final_yield']:.3f}")

    return results

# 実行
results = progressive_curriculum_training()

出力例:
Level 1: Success rate = 100%, Final yield = 0.612
Level 2: Success rate = 67%, Final yield = 0.762
Level 3: Success rate = 33%, Final yield = 0.838
Level 4: Success rate = 0%, Final yield = 0.876

段階的に難易度を上げることで、複雑なタスクへの学習を促進

3.6 Inverse Reinforcement Learning（逆強化学習）

専門オペレータの操作履歴から報酬関数を推定するInverse RL（IRL）の基礎概念を理解します。

Example 6: 専門家軌跡からの報酬推定

import numpy as np
import matplotlib.pyplot as plt
from scipy.optimize import minimize

# ===================================
# Example 6: Inverse Reinforcement Learning
# ===================================

class ExpertDemonstrationCollector:
    """専門家（理想的なPID制御）の操作軌跡を生成"""

    def __init__(self, target_temp=350.0):
        self.target_temp = target_temp

    def expert_policy(self, current_temp, prev_error, integral_error):
        """PID制御による専門家行動"""
        # PIDゲイン
        kp = 2.0
        ki = 0.1
        kd = 0.5

        error = self.target_temp - current_temp
        derivative = error - prev_error

        action = kp * error + ki * integral_error + kd * derivative
        return np.clip(action, -10, 10)

    def collect_demonstrations(self, n_episodes=5, episode_length=50):
        """専門家の操作軌跡を収集"""
        demonstrations = []

        for ep in range(n_episodes):
            trajectory = {
                'states': [],
                'actions': [],
                'next_states': []
            }

            # 初期状態
            temp = 320.0 + np.random.uniform(-10, 10)
            prev_error = self.target_temp - temp
            integral_error = 0.0

            for step in range(episode_length):
                # 現在状態
                state = np.array([temp, self.target_temp - temp, integral_error])

                # 専門家行動
                action = self.expert_policy(temp, prev_error, integral_error)

                # 状態遷移（簡易反応器モデル）
                tau = 10.0
                dt = 1.0
                temp_change = (action - 0.1 * (temp - 298)) * dt / tau
                temp += temp_change
                temp = np.clip(temp, 300, 400)

                error = self.target_temp - temp
                integral_error += error * dt
                prev_error = error

                # 次状態
                next_state = np.array([temp, error, integral_error])

                trajectory['states'].append(state)
                trajectory['actions'].append(action)
                trajectory['next_states'].append(next_state)

            demonstrations.append(trajectory)

        return demonstrations


class InverseRLRewardEstimator:
    """逆強化学習による報酬関数推定"""

    def __init__(self, demonstrations):
        self.demonstrations = demonstrations

        # 報酬関数のパラメータ（線形モデル）
        # R(s) = w1 * f1(s) + w2 * f2(s) + w3 * f3(s)
        self.feature_names = [
            'Temperature error',
            'Absolute integral error',
            'Action smoothness'
        ]

    def extract_features(self, state, action, next_state):
        """状態-行動ペアから特徴量を抽出"""
        # 特徴量:
        # f1: 温度誤差の絶対値（小さいほど良い）
        # f2: 積分誤差の絶対値（定常偏差の指標）
        # f3: アクションの大きさ（エネルギーコスト）

        f1 = -abs(state[1])  # 温度誤差
        f2 = -abs(state[2])  # 積分誤差
        f3 = -abs(action)    # アクション大きさ

        return np.array([f1, f2, f3])

    def compute_reward(self, features, weights):
        """重み付き特徴量の和として報酬を計算"""
        return np.dot(features, weights)

    def estimate_reward_weights(self):
        """専門家の軌跡から報酬関数の重みを推定"""

        # 全軌跡から特徴量を抽出
        all_features = []

        for demo in self.demonstrations:
            for i in range(len(demo['states'])):
                features = self.extract_features(
                    demo['states'][i],
                    demo['actions'][i],
                    demo['next_states'][i]
                )
                all_features.append(features)

        all_features = np.array(all_features)

        # 目的: 専門家の軌跡が最大報酬を得るような重みを推定
        # 簡易版: 特徴量の分散を最小化する重み（専門家は一貫した行動）

        def objective(weights):
            """重み付き特徴量の分散を計算"""
            rewards = all_features @ weights
            return np.var(rewards)  # 分散を最小化（一貫性）

        # 最適化
        w_init = np.array([1.0, 0.5, 0.2])
        bounds = [(0, 10) for _ in range(3)]

        result = minimize(objective, w_init, bounds=bounds, method='L-BFGS-B')

        estimated_weights = result.x

        # 正規化
        estimated_weights = estimated_weights / np.linalg.norm(estimated_weights)

        return estimated_weights

    def visualize_reward_function(self, weights):
        """推定された報酬関数を可視化"""
        fig, axes = plt.subplots(1, 3, figsize=(15, 4))

        # 各特徴量に対する報酬の感度
        for i, (ax, feature_name) in enumerate(zip(axes, self.feature_names)):
            # 特徴量の範囲でスキャン
            if i == 0:  # 温度誤差
                feature_range = np.linspace(-50, 0, 100)
            elif i == 1:  # 積分誤差
                feature_range = np.linspace(-100, 0, 100)
            else:  # アクション
                feature_range = np.linspace(-10, 0, 100)

            rewards = weights[i] * feature_range

            ax.plot(feature_range, rewards, linewidth=2.5, color=['b', 'g', 'orange'][i])
            ax.fill_between(feature_range, 0, rewards, alpha=0.3, color=['b', 'g', 'orange'][i])
            ax.set_xlabel(feature_name)
            ax.set_ylabel(f'Reward contribution (w={weights[i]:.3f})')
            ax.set_title(f'{feature_name}')
            ax.grid(alpha=0.3)
            ax.axhline(0, color='black', linestyle='-', linewidth=0.5)

        plt.tight_layout()
        return fig


def demonstrate_inverse_rl():
    """Inverse RLのデモンストレーション"""

    print("=== Step 1: 専門家の軌跡を収集 ===")
    collector = ExpertDemonstrationCollector(target_temp=350.0)
    demonstrations = collector.collect_demonstrations(n_episodes=10, episode_length=50)

    print(f"Collected {len(demonstrations)} expert demonstrations")
    print(f"Each demonstration has {len(demonstrations[0]['states'])} steps")

    # 専門家軌跡の可視化
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

    for i, demo in enumerate(demonstrations[:3]):  # 最初の3つのみ表示
        temps = [s[0] for s in demo['states']]
        actions = demo['actions']

        ax1.plot(temps, alpha=0.7, linewidth=2, label=f'Episode {i+1}')
        ax2.plot(actions, alpha=0.7, linewidth=2, label=f'Episode {i+1}')

    ax1.axhline(350, color='red', linestyle='--', linewidth=2, label='Target')
    ax1.set_xlabel('Time Step')
    ax1.set_ylabel('Temperature [K]')
    ax1.set_title('Expert Temperature Trajectories')
    ax1.legend()
    ax1.grid(alpha=0.3)

    ax2.axhline(0, color='black', linestyle='-', linewidth=0.5)
    ax2.set_xlabel('Time Step')
    ax2.set_ylabel('Action (Heating Power)')
    ax2.set_title('Expert Actions')
    ax2.legend()
    ax2.grid(alpha=0.3)

    plt.tight_layout()
    plt.show()

    print("\n=== Step 2: 報酬関数を推定 ===")
    estimator = InverseRLRewardEstimator(demonstrations)
    estimated_weights = estimator.estimate_reward_weights()

    print("\n推定された報酬関数の重み:")
    for name, weight in zip(estimator.feature_names, estimated_weights):
        print(f"  {name:25s}: {weight:.4f}")

    # 報酬関数の可視化
    fig = estimator.visualize_reward_function(estimated_weights)
    plt.suptitle('Estimated Reward Function from Expert Demonstrations', fontsize=13, y=1.02)
    plt.show()

    print("\n=== Step 3: 推定された報酬関数の解釈 ===")
    print("重みの大きさは、各目的の重要度を示します:")
    print(f"  - 温度誤差の最小化が{'最も' if np.argmax(estimated_weights) == 0 else ''}重要")
    print(f"  - 定常偏差の解消が{'最も' if np.argmax(estimated_weights) == 1 else ''}重要")
    print(f"  - エネルギー効率が{'最も' if np.argmax(estimated_weights) == 2 else ''}重要")

    return demonstrations, estimated_weights

# 実行
demonstrations, weights = demonstrate_inverse_rl()

出力例:
推定された報酬関数の重み:
Temperature error: 0.8123
Absolute integral error: 0.4567
Action smoothness: 0.2341

専門家の意図（目的関数）を軌跡データから逆算

💡 IRLの実務応用

熟練オペレータの操作ログから暗黙的な運転方針を抽出し、それをエージェントの学習に活用できます。特に、明示的な報酬設計が困難な場合に有効です。

3.7 報酬関数の評価と比較

設計した複数の報酬関数を定量的に評価し、最適な設計を選択する方法を学びます。

Example 7: 報酬関数の性能評価フレームワーク

import numpy as np
import matplotlib.pyplot as plt
import gymnasium as gym
from gymnasium import spaces

# ===================================
# Example 7: 報酬関数の評価と比較
# ===================================

class ReactorBenchmark(gym.Env):
    """報酬関数評価用の標準反応器環境"""

    def __init__(self, reward_function_type='basic'):
        super().__init__()

        self.reward_function_type = reward_function_type

        self.observation_space = spaces.Box(
            low=np.array([300.0, -50.0, 0.0]),
            high=np.array([400.0, 50.0, 1.0]),
            dtype=np.float32
        )

        self.action_space = spaces.Box(
            low=-10.0, high=10.0, shape=(1,), dtype=np.float32
        )

        self.target_temp = 350.0
        self.reset()

    def reset(self, seed=None):
        super().reset(seed=seed)

        self.temperature = 320.0 + np.random.uniform(-10, 10)
        self.prev_error = self.target_temp - self.temperature
        self.integral_error = 0.0
        self.steps = 0

        self.metrics = {
            'tracking_errors': [],
            'energy_consumption': [],
            'safety_violations': 0,
            'rewards': []
        }

        return self._get_obs(), {}

    def _get_obs(self):
        error = self.target_temp - self.temperature
        return np.array([self.temperature, error, self.integral_error], dtype=np.float32)

    def _reward_basic(self, error, action):
        """基本的な報酬: 誤差のみ"""
        return -abs(error)

    def _reward_pid_inspired(self, error, action):
        """PID風報酬"""
        r_p = -1.0 * abs(error)
        r_i = -0.1 * abs(self.integral_error)
        r_d = -0.5 * abs(error - self.prev_error)
        return r_p + r_i + r_d

    def _reward_multi_objective(self, error, action):
        """多目的報酬"""
        r_tracking = -abs(error)
        r_energy = -0.05 * abs(action)
        r_safety = -2.0 * max(0, self.temperature - 380)
        return r_tracking + r_energy + r_safety

    def _reward_shaped(self, error, action):
        """Shaped報酬（密な報酬）"""
        # 進捗ボーナス
        progress = abs(self.prev_error) - abs(error)
        r_progress = 2.0 * progress

        # 目標付近でのボーナス
        proximity_bonus = 5.0 * np.exp(-abs(error) / 5.0)

        # アクションのスムーズネスペナルティ
        r_smoothness = -0.02 * abs(action)

        return r_progress + proximity_bonus + r_smoothness

    def step(self, action):
        heating_power = float(action[0])

        # 温度ダイナミクス
        tau = 10.0
        dt = 1.0
        disturbance = np.random.normal(0, 1.0)

        temp_change = (heating_power + disturbance - 0.1 * (self.temperature - 298)) * dt / tau
        self.temperature += temp_change
        self.temperature = np.clip(self.temperature, 300, 400)

        error = self.target_temp - self.temperature
        self.integral_error += error * dt

        # 報酬関数の選択
        reward_functions = {
            'basic': self._reward_basic,
            'pid_inspired': self._reward_pid_inspired,
            'multi_objective': self._reward_multi_objective,
            'shaped': self._reward_shaped
        }

        reward_func = reward_functions.get(self.reward_function_type, self._reward_basic)
        reward = reward_func(error, heating_power)

        # メトリクス記録
        self.metrics['tracking_errors'].append(abs(error))
        self.metrics['energy_consumption'].append(abs(heating_power))
        if self.temperature > 380:
            self.metrics['safety_violations'] += 1
        self.metrics['rewards'].append(reward)

        self.prev_error = error
        self.steps += 1

        terminated = abs(error) <= 2.0 and self.steps >= 20
        truncated = self.steps >= 100

        return self._get_obs(), reward, terminated, truncated, {}


class RewardFunctionEvaluator:
    """報酬関数の定量的評価"""

    def __init__(self):
        self.reward_types = ['basic', 'pid_inspired', 'multi_objective', 'shaped']
        self.results = {}

    def evaluate_reward_function(self, reward_type, n_episodes=10):
        """指定された報酬関数で評価実験を実行"""
        env = ReactorBenchmark(reward_function_type=reward_type)

        episode_metrics = []

        for ep in range(n_episodes):
            obs, _ = env.reset(seed=ep)

            # シンプルなPID制御ルール
            for _ in range(100):
                error = obs[1]
                integral = obs[2]

                action = np.array([np.clip(2.0 * error + 0.1 * integral, -10, 10)])
                obs, reward, terminated, truncated, _ = env.step(action)

                if terminated or truncated:
                    break

            episode_metrics.append(env.metrics)

        # 統計集計
        aggregated = {
            'mae': np.mean([np.mean(m['tracking_errors']) for m in episode_metrics]),
            'rmse': np.sqrt(np.mean([np.mean(np.array(m['tracking_errors'])**2) for m in episode_metrics])),
            'total_energy': np.mean([np.sum(m['energy_consumption']) for m in episode_metrics]),
            'safety_violations': np.mean([m['safety_violations'] for m in episode_metrics]),
            'total_reward': np.mean([np.sum(m['rewards']) for m in episode_metrics]),
            'convergence_time': np.mean([np.argmax(np.array(m['tracking_errors']) < 5.0) for m in episode_metrics])
        }

        return aggregated

    def compare_all_reward_functions(self, n_episodes=10):
        """全ての報酬関数を比較評価"""
        print("="*70)
        print("Reward Function Comparison Benchmark")
        print("="*70)

        for reward_type in self.reward_types:
            print(f"\nEvaluating: {reward_type}")
            results = self.evaluate_reward_function(reward_type, n_episodes=n_episodes)
            self.results[reward_type] = results

            print(f"  MAE (tracking error): {results['mae']:.3f}")
            print(f"  RMSE: {results['rmse']:.3f}")
            print(f"  Total energy: {results['total_energy']:.1f}")
            print(f"  Safety violations: {results['safety_violations']:.1f}")
            print(f"  Total reward: {results['total_reward']:.1f}")
            print(f"  Convergence time: {results['convergence_time']:.1f} steps")

        return self.results

    def visualize_comparison(self):
        """比較結果の可視化"""
        metrics = ['mae', 'rmse', 'total_energy', 'safety_violations', 'convergence_time']
        metric_labels = [
            'MAE [K]',
            'RMSE [K]',
            'Total Energy',
            'Safety Violations',
            'Convergence Time [steps]'
        ]

        fig, axes = plt.subplots(2, 3, figsize=(15, 8))
        axes = axes.flatten()

        for i, (metric, label) in enumerate(zip(metrics, metric_labels)):
            ax = axes[i]

            values = [self.results[rt][metric] for rt in self.reward_types]
            colors = ['#3498db', '#2ecc71', '#e74c3c', '#f39c12']

            bars = ax.bar(self.reward_types, values, color=colors, alpha=0.7,
                         edgecolor='black', linewidth=1.5)

            # 最良値をハイライト
            if metric in ['mae', 'rmse', 'total_energy', 'safety_violations', 'convergence_time']:
                best_idx = np.argmin(values)
            else:
                best_idx = np.argmax(values)

            bars[best_idx].set_edgecolor('gold')
            bars[best_idx].set_linewidth(3)

            ax.set_ylabel(label)
            ax.set_title(label)
            ax.tick_params(axis='x', rotation=15)
            ax.grid(axis='y', alpha=0.3)

        # 総合スコア（正規化して合計）
        ax = axes[5]

        # 各メトリクスを0-1に正規化（小さい方が良い指標）
        normalized_scores = {}
        for rt in self.reward_types:
            score = 0
            for metric in ['mae', 'rmse', 'total_energy', 'safety_violations', 'convergence_time']:
                values = [self.results[r][metric] for r in self.reward_types]
                min_val, max_val = min(values), max(values)
                normalized = (max_val - self.results[rt][metric]) / (max_val - min_val + 1e-10)
                score += normalized
            normalized_scores[rt] = score / 5  # 平均

        bars = ax.bar(normalized_scores.keys(), normalized_scores.values(),
                     color=colors, alpha=0.7, edgecolor='black', linewidth=1.5)

        best_idx = np.argmax(list(normalized_scores.values()))
        bars[best_idx].set_edgecolor('gold')
        bars[best_idx].set_linewidth(3)

        ax.set_ylabel('Overall Score (normalized)')
        ax.set_title('Overall Performance Score')
        ax.tick_params(axis='x', rotation=15)
        ax.grid(axis='y', alpha=0.3)
        ax.set_ylim([0, 1])

        plt.tight_layout()
        return fig

    def print_recommendation(self):
        """推奨事項の出力"""
        print("\n" + "="*70)
        print("Recommendation")
        print("="*70)

        # 総合評価
        scores = {}
        for rt in self.reward_types:
            score = 0
            for metric in ['mae', 'rmse', 'total_energy', 'safety_violations', 'convergence_time']:
                values = [self.results[r][metric] for r in self.reward_types]
                min_val, max_val = min(values), max(values)
                normalized = (max_val - self.results[rt][metric]) / (max_val - min_val + 1e-10)
                score += normalized
            scores[rt] = score / 5

        best_reward = max(scores, key=scores.get)

        print(f"\n✅ Best overall: {best_reward} (score: {scores[best_reward]:.3f})")

        print("\n📊 Use case recommendations:")
        print("  - basic: シンプルな温度制御（学習初期段階）")
        print("  - pid_inspired: 定常偏差の解消が重要な場合")
        print("  - multi_objective: 安全性・エネルギー効率を同時考慮")
        print("  - shaped: 学習速度を重視する場合（密な報酬）")


# 実行
evaluator = RewardFunctionEvaluator()
results = evaluator.compare_all_reward_functions(n_episodes=20)

fig = evaluator.visualize_comparison()
plt.show()

evaluator.print_recommendation()

出力例:
basic: MAE=4.567, Total reward=-245.3
pid_inspired: MAE=2.134, Total reward=-189.7
multi_objective: MAE=2.890, Total reward=-156.2
shaped: MAE=2.045, Total reward=+123.4

Best overall: shaped (学習速度と精度のバランス)

✅ 報酬関数選択のポイント

学習初期: Dense報酬（shaped）で素早く学習
実運用: Multi-objective報酬で実用性とバランス
安全性重視: 安全制約への高ペナルティ設定

学習目標の確認

この章を完了すると、以下を説明・実装できるようになります：

基本理解

✅ Sparse報酬とDense報酬の違いと使い分けを説明できる
✅ PID制御理論を報酬設計に応用する方法を理解している
✅ 多目的最適化の重み調整がエージェント挙動に与える影響を説明できる

実践スキル

✅ プロセス制御タスクに適した報酬関数を設計できる
✅ Intrinsic motivationを実装して探索効率を向上できる
✅ Curriculum learningで段階的な学習環境を構築できる
✅ 複数の報酬関数を定量的に評価・比較できる

応用力

✅ 専門家軌跡からInverse RLで報酬を推定できる
✅ 実プロセスの制約条件を報酬に組み込める
✅ 報酬設計の良し悪しを実験的に検証できる

次のステップ

第3章では、効果的な報酬設計の方法を学びました。次章では、複数のエージェントが協調・競争しながら動作するマルチエージェントシステムについて学びます。

📚 次章の内容（第4章予告）

マルチエージェント強化学習の基礎
中央集権型学習と分散実行（CTDE）
エージェント間通信プロトコル
協調・競争タスクの実装