prediction.td_0_prediction

Classes

TD0Prediction

Tabular TD(0) for estimating V_pi.

Module Contents

class prediction.td_0_prediction.TD0Prediction(env: gymnasium.Env, policy: gridmind.policies.base_policy.BasePolicy, step_size: float = 0.1, discount_factor: float = 0.9, summary_dir: str | None = None, write_summary: bool = True)[source]

Bases: gridmind.algorithms.base_learning_algorithm.BaseLearningAlgorithm

Tabular TD(0) for estimating V_pi. Input: policy to be evaluated. The policy is supposed to be a function whose input is observation and output is action.

step_size = 0.1[source]

V[source]

policy[source]

discount_factor = 0.9[source]

_get_state_value_fn(force_functional_interface: bool = True)[source]

_get_state_action_value_fn(force_functional_interface: bool = True)[source]

_get_policy()[source]

abstract _train_steps(num_steps: int, prediction_only: bool, *args, **kwargs)[source]

_train_episodes(num_episodes: int, prediction_only: bool = True)[source]

abstract set_policy(policy: gridmind.policies.base_policy.BasePolicy, **kwargs)[source]