Spaces:

KalbeDigitalLab
/

nutrigenme-paper-extractor

Running

App Files Files Community

nutrigenme-paper-extractor / validate.py

fadliaulawi

Move validation function

2b126e8 about 1 month ago

raw

history blame

4.35 kB

	from collections import defaultdict
	from dotenv import load_dotenv
	from langchain_google_genai import ChatGoogleGenerativeAI
	from langchain_openai import ChatOpenAI
	from prompt import *
	from utils import *

	import os
	import re

	load_dotenv()

	class Validation():

	def __init__(self, llm):

	if llm.startswith('gpt'):
	self.llm = ChatOpenAI(temperature=0, model_name=llm)
	elif llm.startswith('gemini'):
	self.llm = ChatGoogleGenerativeAI(temperature=0, model=llm)
	else:
	self.llm = ChatOpenAI(temperature=0, model_name=llm, api_key=os.environ['PERPLEXITY_API_KEY'], base_url="https://api.perplexity.ai")

	def validate(self, df, api):

	df = df.fillna('')
	df['Genes'] = df['Genes'].str.replace(' ', '').str.upper()
	df['rsID'] = df['rsID'].str.replace(' ', '').str.lower()

	# Check if there are multiple Genes
	sym = [',', '/', '\|', '-', '(', ')']
	i = 0
	while i < len(df):
	gene = df.loc[i, 'Genes']
	for s in sym:
	if s in gene:
	genes = gene.split(s)
	df.loc[i + 0.1], df.loc[i + 0.9] = df.loc[i], df.loc[i]
	df = df.sort_index().reset_index(drop=True)
	df.loc[i + 1, 'Genes'], df.loc[i + 2, 'Genes'] = genes[0], s.join(genes[1:])
	break
	i += 1

	# Check if there are multiple rsIDs
	i = 0
	while i < len(df):
	rsid = df.loc[i, 'rsID']
	if ',' in rsid:
	rsids = rsid.split(',')
	df.loc[i + 0.1], df.loc[i + 0.9] = df.loc[i], df.loc[i]
	df = df.sort_index().reset_index(drop=True)
	df.loc[i + 1, 'rsID'], df.loc[i + 2, 'rsID'] = rsids[0], s.join(rsids[1:])
	i += 1

	# Check if there is SNPs without 'rs'
	for i in df.index:
	safe = True
	snp = df.loc[i, 'rsID']
	snp = snp.replace('l', '1')
	if re.fullmatch('rs(\d)+\|', snp):
	pass
	elif re.fullmatch('ts(\d)+', snp):
	snp = 'r' + snp[1:]
	elif re.fullmatch('s(\d)+', snp):
	snp = 'r' + snp
	elif re.fullmatch('(\d)+', snp):
	snp = 'rs' + snp
	else:
	safe = False
	df = df.drop(i)

	if safe:
	df.loc[i, 'rsID'] = snp

	df.reset_index(drop=True, inplace=True)
	df_clean = df.copy()

	# Validate genes and SNPs with APIs
	if api:
	dbsnp = {}
	for i in df.index:
	snp = df.loc[i, 'SNPs']
	gene = df.loc[i, 'Genes']

	if snp not in dbsnp:
	try:
	res = call(f'https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi?db=snp&retmode=json&id={snp[2:]}').json()['result'][snp[2:]]
	if 'error' not in res:
	dbsnp[snp].extend([r['name'] for r in res['genes']])
	except Exception as e:
	print("Error at API", e)
	pass

	dbsnp[snp] = list(set(dbsnp[snp]))

	if gene not in dbsnp[snp]:
	for other in permutate(gene):
	if other in dbsnp[snp]:
	df.loc[i, 'Genes'] = other
	print(f'{gene} corrected to {other}')
	break
	else:
	df = df.drop(i)

	# Check with GWAS ground truth
	for i in df.index:
	gene = df.loc[i, 'Genes']
	snp = df.loc[i, 'rsID']
	perms = permutate(gene)

	for perm in perms:
	if perm in ground_truth and snp in ground_truth[perm]:
	df.loc[i, 'Genes'] = perm
	if gene != perm:
	print(f'{gene} corrected to {perm} with {snp}')
	else:
	print(f'{gene} and {snp} safe')
	break
	else:
	print(f'{gene} and {snp} not found')
	df = df.drop(i)

	df.reset_index(drop=True, inplace=True)

	return df, df_clean