asr-model / opimizer.py

Upload opimizer.py

6067697 verified 26 days ago

9.97 kB

	import torch

	class MaxFactor(torch.optim.Optimizer):
	def __init__(self, params, lr=0.01, beta2_decay=-0.8, eps=(1e-10, 1e-3), d=1.0,
	weight_decay=0.01, gamma=0.99, max=False):

	defaults = dict(lr=lr, beta2_decay=beta2_decay, eps=eps, d=d, weight_decay=weight_decay,
	gamma=gamma, max=max)
	super().__init__(params=params, defaults=defaults)

	@staticmethod
	def _rms(tensor):
	return tensor.norm() / (tensor.numel() ** 0.5)

	@torch.no_grad()
	def step(self, closure=None):
	loss = None
	if closure is not None:
	with torch.enable_grad():
	loss = closure()

	for group in self.param_groups:
	params_with_grad, grads, row_vars, col_vars, v, state_steps = [], [], [], [], [], []
	eps1, eps2 = group["eps"]
	for p in group["params"]:
	if p.grad is None:
	continue
	grad = p.grad
	if grad.dtype in {torch.float16, torch.bfloat16}:
	grad = grad.float()

	state = self.state[p]
	if len(state) == 0:
	state["step"] = torch.tensor(0.0, dtype=torch.float32)
	if p.grad.dim() > 1:
	row_shape, col_shape = list(p.grad.shape), list(p.grad.shape)
	row_shape[-1], col_shape[-2] = 1, 1
	state["row_var"], state["col_var"] = p.grad.new_zeros(row_shape), p.grad.new_zeros(col_shape)
	state["v"] = torch.zeros_like(p, memory_format=torch.preserve_format)
	state["RMS"] = self._rms(p).item()

	row_vars.append(state.get("row_var", None))
	col_vars.append(state.get("col_var", None))
	v.append(state["v"])
	state_steps.append(state["step"])
	params_with_grad.append(p)
	grads.append(grad)

	for i, param in enumerate(params_with_grad):
	grad = grads[i]

	if group["max"]:
	grad = -grad
	step_t, row_var, col_var, vi = state_steps[i], row_vars[i], col_vars[i], v[i]

	if eps1 is None:
	eps1 = torch.finfo(param.dtype).eps

	step_t += 1
	step_float = step_t.item()

	one_minus_beta2_t = step_float ** group["beta2_decay"]
	state["RMS"] = self._rms(param).item()

	rho_t = min(group["lr"], 1 / (step_float ** 0.5))
	alpha = max(eps2, param.norm(2).item() / (param.numel() ** 0.5)) * rho_t

	if group["weight_decay"] != 0:
	param.mul_(1 - group["lr"] * group["weight_decay"])

	if grad.dim() > 1:
	row_mean = torch.norm(grad, dim=-1, keepdim=True).square_().div_(grad.size(-1) + 1e-8)
	row_var.lerp_(row_mean, one_minus_beta2_t)
	col_mean = torch.norm(grad, dim=-2, keepdim=True).square_().div_(grad.size(-2) + 1e-8)
	col_var.lerp_(col_mean, one_minus_beta2_t)
	var_estimate = row_var @ col_var
	max_row_var = row_var.max(dim=-2, keepdim=True)[0]
	var_estimate.div_(max_row_var.clamp_(min=eps1))
	else:
	vi.mul_(group["gamma"]).add_(grad ** 2, alpha=1 - group["gamma"])
	var_estimate = vi

	update = var_estimate.clamp_(min=eps1 * eps1).rsqrt_().mul_(grad)
	update = update.div_(torch.norm(update, float('inf')).clamp_(min=eps1))
	denom = max(1.0, update.norm(2).item() / ((update.numel() ** 0.5) * group["d"]))

	param.add_(-alpha / denom * update.sign() * update.abs().max(dim=-1, keepdim=True)[0])
	return loss

	# class MaxFactor(torch.optim.Optimizer):
	# __version__ = "1.0"

	# def __init__(self, params, lr=0.025, beta2_decay=-0.8, eps=(1e-10, 1e-4), d=1.0,
	# weight_decay=0.025, gamma=0.99, max=False, min_lr=1e-7):

	# print(f"Using MaxFactor optimizer v{self.__version__}")

	# defaults = dict(lr=lr, beta2_decay=beta2_decay, eps=eps, d=d, weight_decay=weight_decay,
	# gamma=gamma, max=max, min_lr=min_lr)
	# super().__init__(params=params, defaults=defaults)

	# def get_lr(self):
	# """Return current learning rates for all parameter groups."""
	# param_specific_lrs = []

	# for group in self.param_groups:
	# group_lrs = []
	# min_lr = group.get("min_lr", 1e-7)
	# eps1, eps2 = group["eps"]
	# for p in group["params"]:
	# if p.grad is None:
	# continue
	# state = self.state[p]
	# if "step" not in state:
	# continue
	# step_float = state["step"].item()
	# # Calculate base learning rate (same as in step method)
	# rho_t = max(min_lr, min(group["lr"], 1.0 / (step_float ** 0.5)))

	# # Calculate parameter-specific scaling
	# param_norm = (p.norm() / (p.numel() ** 0.5 + 1e-12)).item()
	# alpha = max(eps2, param_norm) * rho_t
	# group_lrs.append(alpha)
	# if group_lrs:
	# param_specific_lrs.append(sum(group_lrs) / len(group_lrs))
	# else:
	# param_specific_lrs.append(group["lr"])
	# return param_specific_lrs

	# def get_last_lr(self):
	# return self.get_lr()

	# @torch.no_grad()
	# def step(self, closure=None):
	# loss = None
	# if closure is not None:
	# with torch.enable_grad():
	# loss = closure()

	# for group in self.param_groups:
	# params_with_grad, grads, row_vars, col_vars, v, state_steps = [], [], [], [], [], []
	# eps1, eps2 = group["eps"]
	# min_lr = group.get("min_lr", 1e-7)

	# for p in group["params"]:
	# if p.grad is None:
	# continue

	# grad = p.grad
	# if grad.dtype in {torch.float16, torch.bfloat16}:
	# grad = grad.float()

	# state = self.state[p]
	# if len(state) == 0:
	# state["step"] = torch.tensor(0.0, dtype=torch.float32)
	# if p.dim() > 1:
	# row_shape, col_shape = list(p.shape), list(p.shape)
	# row_shape[-1], col_shape[-2] = 1, 1
	# state["row_var"] = p.new_zeros(row_shape)
	# state["col_var"] = p.new_zeros(col_shape)
	# state["v"] = torch.zeros_like(p, memory_format=torch.preserve_format)

	# row_vars.append(state.get("row_var", None))
	# col_vars.append(state.get("col_var", None))
	# v.append(state["v"])
	# state_steps.append(state["step"])
	# params_with_grad.append(p)
	# grads.append(grad)

	# for i, param in enumerate(params_with_grad):
	# grad = grads[i]
	# state = self.state[param]

	# if group["max"]:
	# grad = -grad

	# step_t = state_steps[i]
	# row_var, col_var, vi = row_vars[i], col_vars[i], v[i]

	# if eps1 is None:
	# eps1 = torch.finfo(param.dtype).eps

	# step_t += 1
	# step_float = step_t.item()

	# one_minus_beta2_t = min(0.999, max(0.001, step_float ** group["beta2_decay"]))

	# rho_t = max(min_lr, min(group["lr"], 1.0 / (step_float ** 0.5)))
	# alpha = max(eps2, (param.norm() / (param.numel() ** 0.5 + 1e-12)).item()) * rho_t

	# if group["weight_decay"] > 0:
	# param.mul_(1 - group["lr"] * group["weight_decay"])

	# if grad.dim() > 1:
	# row_mean = torch.norm(grad, dim=-1, keepdim=True).square_()
	# row_mean.div_(grad.size(-1) + eps1)

	# row_var.lerp_(row_mean, one_minus_beta2_t)

	# col_mean = torch.norm(grad, dim=-2, keepdim=True).square_()
	# col_mean.div_(grad.size(-2) + eps1)

	# col_var.lerp_(col_mean, one_minus_beta2_t)

	# var_estimate = row_var @ col_var
	# max_row_var = row_var.max(dim=-2, keepdim=True)[0]
	# var_estimate.div_(max_row_var.clamp_(min=eps1))
	# else:
	# vi.mul_(group["gamma"]).add_(grad.square_(), alpha=1 - group["gamma"])
	# var_estimate = vi

	# update = var_estimate.clamp_(min=eps1 * eps1).rsqrt_().mul_(grad)

	# inf_norm = torch.norm(update, float('inf'))
	# if inf_norm > 0:
	# update.div_(inf_norm.clamp_(min=eps1))

	# denom = max(1.0, update.norm(2).item() / ((update.numel() ** 0.5) * group["d"]))

	# if param.dim() > 1:
	# max_vals = update.abs().max(dim=-1, keepdim=True)[0]
	# param.add_(-alpha / denom * update.sign() * max_vals)
	# else:
	# param.add_(-alpha / denom * update)

	# state["step"] = step_t

	# return loss