Spaces:

atomind
/

mlip-arena

Running

mlip-arena / examples /mof /classification /classification.py

Yuan (Cyrus) Chiang

Add Widom insertion (#34)

072f65e 3 months ago

3.58 kB

	import functools
	import itertools
	from pathlib import Path

	import pandas as pd
	from ase import Atoms
	from ase.build import molecule
	from dask.distributed import Client
	from dask_jobqueue import SLURMCluster
	from prefect import Task, flow, task
	from prefect.client.schemas.objects import TaskRun
	from prefect.states import State
	from prefect_dask import DaskTaskRunner
	from tqdm.auto import tqdm

	from mlip_arena.models import MLIPEnum
	from mlip_arena.tasks.mof.flow import widom_insertion
	from mlip_arena.tasks.utils import get_calculator


	def load_row_from_df(fpath: str):
	df = pd.read_pickle(fpath)

	for _, row in df.iterrows():
	yield row


	def save_result(
	tsk: Task,
	run: TaskRun,
	state: State,
	row: pd.DataFrame,
	model_name: str,
	gas: Atoms,
	fpath: str,
	):
	result = run.state.result()

	assert isinstance(result, dict)

	copied = row.copy()
	copied["model"] = model_name
	copied["gas"] = gas

	for k, v in result.items():
	copied[k] = v

	fpath = Path(f"{model_name}.pkl")

	if fpath.exists():
	df = pd.read_pickle(fpath)
	df = pd.concat([df, pd.DataFrame([copied])], ignore_index=True)
	else:
	df = pd.DataFrame([copied])

	df.drop_duplicates(subset=["name", "model"], keep="last", inplace=True)
	df.to_pickle(fpath)


	# Orchestrate your awesome dask workflow runner

	nodes_per_alloc = 1
	gpus_per_alloc = 4
	ntasks = 1

	cluster_kwargs = dict(
	cores=4,
	memory="64 GB",
	shebang="#!/bin/bash",
	account="m3828",
	walltime="01:30:00",
	job_mem="0",
	job_script_prologue=[
	"source ~/.bashrc",
	"module load python",
	"source activate /pscratch/sd/c/cyrusyc/.conda/mlip-arena",
	],
	job_directives_skip=["-n", "--cpus-per-task", "-J"],
	job_extra_directives=[
	"-J mof",
	"-q regular",
	f"-N {nodes_per_alloc}",
	"-C gpu",
	f"-G {gpus_per_alloc}",
	"--exclusive",
	],
	)

	cluster = SLURMCluster(**cluster_kwargs)
	print(cluster.job_script())
	cluster.adapt(minimum_jobs=10, maximum_jobs=20)
	client = Client(cluster)


	@task
	def run_one(model, row, gas):
	return widom_insertion.with_options(
	refresh_cache=False,
	on_completion=[functools.partial(
	save_result,
	row=row,
	model_name=model.name,
	gas=gas,
	fpath=f"{model.name}.pkl"
	)]
	)(
	structure=row["structure"],
	gas=gas,
	calculator=get_calculator(
	model,
	dispersion=True
	),
	criterion=dict(fmax=0.05, steps=50),
	init_structure_optimize_loops = 10,
	)


	@flow
	def run_all():
	futures = []
	gas = molecule("CO2")

	for model, row in tqdm(itertools.product(MLIPEnum, load_row_from_df("input.pkl"))):

	if model.name not in ["MACE-MPA", "MatterSim", "SevenNet", "M3GNet", "CHGNet", "ORBv2"]:
	continue

	fpath = Path(f"{model.name}.pkl")

	if fpath.exists():
	df = pd.read_pickle(fpath)
	if row['name'] in df['name'].values:
	continue

	try:
	print(model, row['name'])
	future = run_one.submit(
	model,
	row,
	gas,
	)
	futures.append(future)
	except Exception:
	continue

	return [f.result(raise_on_failure=False) for f in futures]

	# run_all()
	run_all.with_options(
	task_runner=DaskTaskRunner(address=client.scheduler.address),
	log_prints=True,
	)()