Spaces:

lucas-wa
/

question-generator

Running

App Files Files Community

lucas-wa commited on May 8, 2024

Commit

6558cd8

1 Parent(s): 6250002

Refactoring server

Browse files

Files changed (9) hide show

.gitignore +4 -0
server/app.py +2 -398
server/data/load_data.py +63 -0
server/inference.py +31 -0
server/llm/gemini.py +82 -0
server/requirements.txt +9 -4
server/utils.py +0 -0
server/utils/__init__.py +0 -0
server/utils/questions_parser.py +22 -0

.gitignore CHANGED Viewed

@@ -25,3 +25,7 @@ dist-ssr
 *.njsproj
 *.sln
 *.sw?

 *.njsproj
 *.sln
 *.sw?
+*.env
+*chroma_db
+databases

server/app.py CHANGED Viewed

@@ -1,402 +1,6 @@
-import os
-import re
-import time
-from langchain_core.documents import Document
-from langchain_community.document_loaders import TextLoader
-from langchain.vectorstores import Chroma
-from langchain_text_splitters import CharacterTextSplitter
-from langchain import PromptTemplate, LLMChain
-from langchain.schema.runnable import RunnablePassthrough
-from langchain.schema import StrOutputParser
-from langchain_google_genai import ChatGoogleGenerativeAI
-from langchain_google_genai import GoogleGenerativeAIEmbeddings
-from langchain.chains.query_constructor.base import AttributeInfo
-from langchain.retrievers.self_query.base import SelfQueryRetriever
-from langchain.output_parsers import ResponseSchema, StructuredOutputParser
-from langchain.prompts import ChatPromptTemplate
-from langchain_core.runnables import RunnableLambda
-GOOGLE_API_KEY=""
-if "GOOGLE_API_KEY" not in os.environ:
-    os.environ["GOOGLE_API_KEY"] = GOOGLE_API_KEY
-loader = TextLoader("/content/banco_de_questoes_v3.txt").load()
-gemini_embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
-# db = Chroma.from_documents(documents, gemini_embeddings)
-# vectorstore = Chroma.from_documents(
-#                      documents=documents,
-#                      embedding=gemini_embeddings,
-#                      persist_directory="./chroma_db"
-#                      )
-# vectorstore_disk = Chroma(
-#                         persist_directory="./chroma_db",
-#                         embedding_function=gemini_embeddings
-#                    )
-# retriever = vectorstore_disk.as_retriever(search_kwargs={"k": 10})
-questions = list(map(lambda x: "##Questão" + x, loader[0].page_content.split("##Questão")))
-def parse_question(question_str):
-    # Extract content
-    content_start = question_str.find('"""') + 3
-    content_end = question_str.rfind('"""', content_start)
-    content = question_str[content_start:content_end].strip()
-    # Extract correct option
-    correct_option_start = question_str.find('opcao_correta=') + 15
-    correct_option_end = correct_option_start + 1
-    correct_option = question_str[correct_option_start:correct_option_end]
-    # Extract metadata
-    metadata_start = question_str.find("metadados=") + 10
-    metadata_end = question_str.find("}", metadata_start) + 1
-    metadata_str = question_str[metadata_start:metadata_end]
-    metadata = eval(metadata_str)
-    topico, assunto, dificuldade, tipo = metadata.values()
-    return Document(page_content="##Questão\n" + content, metadata={"correct_option":correct_option, "topico":topico, "assunto":assunto, "dificuldade":dificuldade, "tipo":tipo})
-# Lista para armazenar os documentos
-docs = []
-for question in questions:
-  try:
-    docs.append(parse_question(question))
-  except Exception as e:
-    print(e, question)
-docs[0]
-db = Chroma.from_documents(docs, gemini_embeddings)
-vectorstore = Chroma.from_documents(
-                     documents=docs,
-                     embedding=gemini_embeddings,
-                     persist_directory="./chroma_db"
-                     )
-vectorstore_disk = Chroma(
-                        persist_directory="./chroma_db",
-                        embedding_function=gemini_embeddings
-                   )
-metadata_field_info = [
-    AttributeInfo(
-        name="topico",
-        description="A materia escolar da qual a questão pertence.",
-        type="string",
-    ),
-    AttributeInfo(
-        name="assunto",
-        description="O assunto da materia fornecida anteriormente.",
-        type="string",
-    ),
-    AttributeInfo(
-        name="dificuldade",
-        description="O nivel de dificuldade para resolver a questao.",
-        type="string",
-    ),
-    AttributeInfo(
-        name="tipo",
-        description="O tipo da questao. Pode ser ou Multipla Escolha ou Justificativa",
-        type="string",
-    ),
-]
-document_content_description = "Questões de biologia"
-llm = ChatGoogleGenerativeAI(model="gemini-pro",
-                 temperature=0.7, top_p=1)
-retriever = SelfQueryRetriever.from_llm(
-    llm, vectorstore, document_content_description, metadata_field_info, verbose=True
-)
-print(len(retriever.get_relevant_documents("MMLU")))
-llm_prompt_template = """Olá, sou uma IA treinada para gerar conteúdo educacional. Por favor, gere cinco questões de múltipla escolha sobre o seguinte tema:
-Instruções para cada questão:
-- Crie uma questão clara e relevante para o tema.
-- Forneça cinco opções de resposta, rotuladas de A) a E).
-- Apenas uma das opções de resposta deve ser correta.
-- Indique a resposta correta ao final de cada questão.
-Exemplo de uma questão:
-Tema: Fotossíntese
-Questão:
-Qual é o pigmento primário responsável pela fotossíntese nas plantas?
-Opções de Resposta:
-A) Clorofila
-B) Hemoglobina
-C) Mioglobina
-D) Citocromo
-E) Queratina
-Resposta Correta:
-A) Clorofila
-Context: {context}
-Question: {question}
-Answer:
-{format_questions_instructions}
-GIVE ME THE FIVE QUESTIONS SEPARATED IN AN ARRAY
-"""
-llm_prompt = PromptTemplate.from_template(llm_prompt_template)
-print(llm_prompt)
-questions_template = ChatPromptTemplate.from_template(template=llm_prompt_template)
-questions_chain = LLMChain(llm=llm, prompt=questions_template)
-questions_schema = ResponseSchema(
-    name="questions",
-    description="""Give the questions in json as an array""",
-)
-questions_schemas = [questions_schema]
-questions_parser = StructuredOutputParser.from_response_schemas(questions_schemas)
-format_questions_instructions = questions_parser.get_format_instructions()
-print(format_questions_instructions)
-def get_questions(_dict):
-  question = _dict["question"]
-  context = _dict["context"]
-  messages = questions_template.format_messages(
-      context=context,
-      question=question,
-      format_questions_instructions=format_questions_instructions,
-  )
-  chat = ChatGoogleGenerativeAI(model="gemini-pro")
-  response = chat.invoke(messages)
-  return questions_parser.parse(response.content)
-def format_docs(docs):
-    return "\n\n".join(doc.page_content for doc in docs)
-# llm = ChatGoogleGenerativeAI(model="gemini-pro", temperature=0.7, top_p=1)
-rag_chain = (
-    {"context": retriever | RunnableLambda(format_docs),
-    "question": RunnablePassthrough()}
-    | RunnableLambda(get_questions)
-)
-retriever
-start_time = time.time()
-assunto = "Bioquimica e Biofisica"
-query = f"Quero que você gere questões de biologia, sendo do assunto: {assunto}."
-print(rag_chain.invoke(f"""{query}"""))
-end_time = time.time()
-execution_time = end_time - start_time
-print(f"Tempo de execução: {execution_time:.2f} segundos.")
 assunto = "Bioquimica e Biofisica"
 query = f"Quero que você gere questões de biologia, sendo do assunto: {assunto}."
 res = rag_chain.invoke(f"""{query}""")
-res["questions"][0]
-docs = retriever.invoke(f"{query}")
-for doc in docs:
-  print(doc)
-  print()
-"""###PIPELINE 2
-"""
-class Document:
-    def __init__(self, page_content, metadata):
-        self.page_content = page_content
-        self.metadata = metadata
-def parse_document(text):
-    regex = r"Document\(\n\s+conteudo=\n\"{3}([^`]+?)\"{3}\n,\n\s+opcao_correta=\"(\w+)\"\,\n\s+metadados=\{([^}]+)\}\n\)"
-    matches = re.finditer(regex, text, re.DOTALL)
-    documents = []
-    for match in matches:
-        page_content = match.group(1).strip()
-        metadata_text = match.group(3).strip()
-        metadata = {}
-        metadata_entries = metadata_text.split(', ')
-        for entry in metadata_entries:
-            key, value = entry.split(': ')
-            metadata[key.strip("'")] = value.strip("'")
-        document = Document(page_content, metadata)
-        documents.append(document)
-    return documents
-with open('/content/banco_de_questoes_v2.txt', 'r', encoding='utf-8') as file:
-    txt_data = file.read()
-docs = parse_document(txt_data)
-gemini_embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
-db = Chroma.from_documents(docs, gemini_embeddings)
-vectorstore = Chroma.from_documents(
-                     documents=docs,
-                     embedding=gemini_embeddings,
-                     persist_directory="./chroma_db"
-                     )
-vectorstore_disk = Chroma(
-                        persist_directory="./chroma_db",
-                        embedding_function=gemini_embeddings
-                   )
-metadata_field_info = [
-    AttributeInfo(
-        name="topico",
-        description="A materia escolar da qual a questão pertence.",
-        type="string",
-    ),
-    AttributeInfo(
-        name="assunto",
-        description="O assunto da materia fornecida anteriormente.",
-        type="string",
-    ),
-    AttributeInfo(
-        name="dificuldade",
-        description="O nivel de dificuldade para resolver a questao.",
-        type="string",
-    ),
-    AttributeInfo(
-        name="tipo",
-        description="O tipo da questao. Pode ser ou Multipla Escolha ou Justificativa",
-        type="string",
-    ),
-]
-document_content_description = "Questões de biologia"
-llm = ChatGoogleGenerativeAI(model="gemini-pro",
-                 temperature=0.7, top_p=1)
-retriever = SelfQueryRetriever.from_llm(
-    llm, vectorstore, document_content_description, metadata_field_info, verbose=True
-)
-retriever.invoke("Qual é a importância das células")
-"""###PIPELINE 3
-"""
-loader = TextLoader("/content/banco_de_questoes_v2.txt").load()
-gemini_embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
-text_splitter = CharacterTextSplitter(chunk_size=1024, chunk_overlap=0)
-documents = text_splitter.split_documents(loader)
-db = Chroma.from_documents(documents, gemini_embeddings)
-vectorstore = Chroma.from_documents(
-                     documents=documents,
-                     embedding=gemini_embeddings,
-                     persist_directory="./chroma_db"
-                     )
-vectorstore_disk = Chroma(
-                        persist_directory="./chroma_db",
-                        embedding_function=gemini_embeddings
-                   )
-metadata_field_info = [
-    AttributeInfo(
-        name="topico",
-        description="A materia escolar da qual a questão pertence.",
-        type="string",
-    ),
-    AttributeInfo(
-        name="assunto",
-        description="O assunto da materia fornecida anteriormente.",
-        type="string",
-    ),
-    AttributeInfo(
-        name="dificuldade",
-        description="O nivel de dificuldade para resolver a questao.",
-        type="string",
-    ),
-    AttributeInfo(
-        name="tipo",
-        description="O tipo da questao. Pode ser ou Multipla Escolha ou Justificativa",
-        type="string",
-    ),
-]
-document_content_description = "Questões de biologia"
-llm = ChatGoogleGenerativeAI(model="gemini-pro",
-                 temperature=0.7, top_p=1)
-retriever = SelfQueryRetriever.from_llm(
-    llm, vectorstore, document_content_description, metadata_field_info, verbose=True
-)
-print(len(retriever.get_relevant_documents("MMLU")))
-llm_prompt_template = """Olá, sou uma IA treinada para gerar conteúdo educacional. Por favor, gere cinco questões de múltipla escolha sobre o seguinte tema:
-Instruções para cada questão:
-- Crie uma questão clara e relevante para o tema.
-- Forneça cinco opções de resposta, rotuladas de A) a E).
-- Apenas uma das opções de resposta deve ser correta.
-- Indique a resposta correta ao final de cada questão.
-Exemplo de uma questão:
-Tema: Fotossíntese
-Questão:
-Qual é o pigmento primário responsável pela fotossíntese nas plantas?
-Opções de Resposta:
-A) Clorofila
-B) Hemoglobina
-C) Mioglobina
-D) Citocromo
-E) Queratina
-Resposta Correta:
-A) Clorofila
-Context: {context}
-Question: {question}
-Answer:
-"""
-llm_prompt = PromptTemplate.from_template(llm_prompt_template)
-print(llm_prompt)
-def format_docs(docs):
-    return "\n\n".join(doc.page_content for doc in docs)
-llm = ChatGoogleGenerativeAI(model="gemini-pro",
-                 temperature=0.7, top_p=1)
-rag_chain = (
-    {"context": retriever | format_docs, "question": RunnablePassthrough()}
-    | llm_prompt
-    | llm
-    | StrOutputParser()
-)
-start_time = time.time()
-assunto = "citologia"
-query = f"Preciso de cinco questões de biologia, sendo do assunto: {assunto}."
-print(rag_chain.invoke(f"""
-{query}
-"""))
-end_time = time.time()
-execution_time = end_time - start_time
-print(f"Tempo de execução: {execution_time:.2f} segundos.")
-docs = retriever.invoke(f"{query}")
-len(docs)
-print(docs)

+from inference import rag_chain
 assunto = "Bioquimica e Biofisica"
 query = f"Quero que você gere questões de biologia, sendo do assunto: {assunto}."
 res = rag_chain.invoke(f"""{query}""")
+print(res)

server/data/load_data.py ADDED Viewed

	@@ -0,0 +1,63 @@

+import os
+from langchain_community.document_loaders import TextLoader
+from langchain.vectorstores import Chroma
+from langchain.chains.query_constructor.base import AttributeInfo
+from langchain.retrievers.self_query.base import SelfQueryRetriever
+from llm.gemini import gemini_embeddings, llm
+from utils.questions_parser import parse_question
+if "DATA_PATH" not in os.environ:
+    raise ValueError("DATA_PATH environment variable is not set")
+DATA_PATH = os.environ["DATA_PATH"]
+data_loader = TextLoader(DATA_PATH, encoding = 'UTF-8').load()
+questions = list(
+    map(lambda x: "##Questão" + x, data_loader[0].page_content.split("##Questão"))
+)
+docs = []
+for question in questions:
+    try:
+        docs.append(parse_question(question))
+    except Exception as e:
+        print(e, question)
+db = Chroma.from_documents(docs, gemini_embeddings)
+vectorstore = Chroma.from_documents(
+    documents=docs, embedding=gemini_embeddings, persist_directory="./chroma_db"
+)
+vectorstore_disk = Chroma(
+    persist_directory="./chroma_db", embedding_function=gemini_embeddings
+)
+metadata_field_info = [
+    AttributeInfo(
+        name="topico",
+        description="A materia escolar da qual a questão pertence.",
+        type="string",
+    ),
+    AttributeInfo(
+        name="assunto",
+        description="O assunto da materia fornecida anteriormente.",
+        type="string",
+    ),
+    AttributeInfo(
+        name="dificuldade",
+        description="O nivel de dificuldade para resolver a questao.",
+        type="string",
+    ),
+    AttributeInfo(
+        name="tipo",
+        description="O tipo da questao. Pode ser ou Multipla Escolha ou Justificativa",
+        type="string",
+    ),
+]
+document_content_description = "Questões de biologia"
+retriever = SelfQueryRetriever.from_llm(
+    llm, vectorstore, document_content_description, metadata_field_info, verbose=True
+)

server/inference.py ADDED Viewed

	@@ -0,0 +1,31 @@

+from langchain.schema.runnable import RunnablePassthrough
+from langchain_google_genai import ChatGoogleGenerativeAI
+from langchain_core.runnables import RunnableLambda
+from llm.gemini import questions_template, format_questions_instructions, questions_parser
+from data.load_data import retriever
+def get_questions(_dict):
+    question = _dict["question"]
+    context = _dict["context"]
+    messages = questions_template.format_messages(
+        context=context,
+        question=question,
+        format_questions_instructions=format_questions_instructions,
+    )
+    chat = ChatGoogleGenerativeAI(model="gemini-pro")
+    response = chat.invoke(messages)
+    return questions_parser.parse(response.content)
+def format_docs(docs):
+    return "\n\n".join(doc.page_content for doc in docs)
+rag_chain = {
+    "context": retriever | RunnableLambda(format_docs),
+    "question": RunnablePassthrough(),
+} | RunnableLambda(get_questions)

server/llm/gemini.py ADDED Viewed

	@@ -0,0 +1,82 @@

+import os
+from langchain_google_genai import ChatGoogleGenerativeAI
+from langchain_google_genai import GoogleGenerativeAIEmbeddings
+from langchain import PromptTemplate, LLMChain
+from langchain.output_parsers import ResponseSchema, StructuredOutputParser
+from langchain.prompts import ChatPromptTemplate
+if "GOOGLE_API_KEY" not in os.environ:
+    raise ValueError("GOOGLE_API_KEY environment variable is not set")
+llm_prompt_template = """Olá, sou uma IA treinada para gerar conteúdo educacional. Por favor, gere cinco questões de múltipla escolha sobre o seguinte tema:
+Instruções para cada questão:
+- Crie uma questão clara e relevante para o tema.
+- Forneça cinco opções de resposta, rotuladas de A) a E).
+- Apenas uma das opções de resposta deve ser correta.
+- Indique a resposta correta ao final de cada questão.
+Exemplo de uma questão:
+Tema: Fotossíntese
+Questão:
+Qual é o pigmento primário responsável pela fotossíntese nas plantas?
+Opções de Resposta:
+A) Clorofila
+B) Hemoglobina
+C) Mioglobina
+D) Citocromo
+E) Queratina
+Resposta Correta:
+A) Clorofila
+Context: {context}
+Question: {question}
+Answer:
+{format_questions_instructions}
+"""
+llm_prompt = PromptTemplate.from_template(llm_prompt_template)
+gemini_embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
+llm = ChatGoogleGenerativeAI(model="gemini-pro", temperature=0.7, top_p=1)
+questions_template = ChatPromptTemplate.from_template(template=llm_prompt_template)
+questions_chain = LLMChain(llm=llm, prompt=questions_template)
+questions_schema = ResponseSchema(
+    name="questions",
+    description="""Give the questions in json as an array""",
+)
+questions_schemas = [questions_schema]
+questions_parser = StructuredOutputParser.from_response_schemas(questions_schemas)
+format_questions_instructions = questions_parser.get_format_instructions()
+format_questions_instructions = """
+The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```":
+```json
+{
+	"questions": [
+    {
+      question: "Qual é o pigmento primário responsável pela fotossíntese nas plantas?",
+      options: ["A) Clorofila",
+                "B) Hemoglobina",
+                "C) Mioglobina",
+                "D) Citocromo",
+                "E) Queratina"],
+      answer: "A"
+    }
+  ]
+```
+}"""

server/requirements.txt CHANGED Viewed

@@ -1,5 +1,10 @@
 langchain==0.1.6
-langchain_google_genai
-chromadb
-langchain_text_splitters
-lark

 langchain==0.1.6
+chromadb==0.5.0
+lark==1.1.9
+langchain-google-genai==1.0.1
+# langchain-text-splitters==0.0.1
+langchain-core==0.1.22
+langchain-community==0.0.20
+langsmith==0.0.87
+python-daemon==2.1.2
+localstack==0.12.0

server/utils.py ADDED Viewed

File without changes

server/utils/__init__.py ADDED Viewed

File without changes

server/utils/questions_parser.py ADDED Viewed

	@@ -0,0 +1,22 @@

+from langchain_core.documents import Document
+def parse_question(question_str):
+    # Extract content
+    content_start = question_str.find('"""') + 3
+    content_end = question_str.rfind('"""', content_start)
+    content = question_str[content_start:content_end].strip()
+    # Extract correct option
+    correct_option_start = question_str.find('opcao_correta=') + 15
+    correct_option_end = correct_option_start + 1
+    correct_option = question_str[correct_option_start:correct_option_end]
+    # Extract metadata
+    metadata_start = question_str.find("metadados=") + 10
+    metadata_end = question_str.find("}", metadata_start) + 1
+    metadata_str = question_str[metadata_start:metadata_end]
+    metadata = eval(metadata_str)
+    topico, assunto, dificuldade, tipo = metadata.values()
+    return Document(page_content="##Questão\n" + content, metadata={"correct_option":correct_option, "topico":topico, "assunto":assunto, "dificuldade":dificuldade, "tipo":tipo})