naotakigawa commited on
Commit
ae4dd73
·
1 Parent(s): 81a30f2

Upload 5 files

Browse files
Files changed (3) hide show
  1. app.py +5 -4
  2. common.py +2 -3
  3. pages/ImportAllFile.py +7 -1
app.py CHANGED
@@ -48,10 +48,10 @@ from log import logger
48
 
49
  def initialize_index():
50
  logger.info("initialize_index start")
51
- llm = OpenAI(model='gpt-4', temperature=0.8, max_tokens=256)
52
  text_splitter = TokenTextSplitter(separator="。",chunk_size=1500
53
  , chunk_overlap=DEFAULT_CHUNK_OVERLAP
54
- , tokenizer=tiktoken.encoding_for_model("gpt-4").encode)
55
  node_parser = SimpleNodeParser(text_splitter=text_splitter)
56
  d = 1536
57
  k=2
@@ -85,7 +85,7 @@ def initialize_index():
85
  noextpath,extension = os.path.splitext(file)
86
  logger.info(file)
87
  document = Document()
88
- if extension == ".txt" or ".md":
89
  document = SimpleDirectoryReader(input_files=[file], filename_as_id=True).load_data()[0]
90
  else:
91
  if extension == ".pdf":
@@ -145,10 +145,11 @@ if st.session_state.login_token:
145
  ## 使い方
146
  - **Chatbot**
147
  初期からインポートされているファイルとImportXXFileでインポートしたファイルの内容に関する質問に対して、GenerativeAIが回答します。
 
148
 
149
  - **ChatbotWebRead**
150
  入力したURLのサイトの情報に関して、GenerativeAIが回答します。
151
- ImportXXFileの内容は登録されていません。
152
 
153
  - **ImportAllFile**
154
  テキストファイル,mdファイル,Excel,PDF,PowerPoint,Wordをインポートできます。
 
48
 
49
  def initialize_index():
50
  logger.info("initialize_index start")
51
+ llm = OpenAI(model='gpt-3.5-turbo', temperature=0.8, max_tokens=256)
52
  text_splitter = TokenTextSplitter(separator="。",chunk_size=1500
53
  , chunk_overlap=DEFAULT_CHUNK_OVERLAP
54
+ , tokenizer=tiktoken.encoding_for_model("gpt-3.5-turbo").encode)
55
  node_parser = SimpleNodeParser(text_splitter=text_splitter)
56
  d = 1536
57
  k=2
 
85
  noextpath,extension = os.path.splitext(file)
86
  logger.info(file)
87
  document = Document()
88
+ if extension == ".txt" or extension ==".md":
89
  document = SimpleDirectoryReader(input_files=[file], filename_as_id=True).load_data()[0]
90
  else:
91
  if extension == ".pdf":
 
145
  ## 使い方
146
  - **Chatbot**
147
  初期からインポートされているファイルとImportXXFileでインポートしたファイルの内容に関する質問に対して、GenerativeAIが回答します。
148
+ 返答が正常に帰ってこない場合があります。参照ファイルを記載しているので、判断の目安にしてください。
149
 
150
  - **ChatbotWebRead**
151
  入力したURLのサイトの情報に関して、GenerativeAIが回答します。
152
+ ImportAllFileの内容は登録されていません。
153
 
154
  - **ImportAllFile**
155
  テキストファイル,mdファイル,Excel,PDF,PowerPoint,Wordをインポートできます。
common.py CHANGED
@@ -73,16 +73,15 @@ def check_login():
73
  INDEX_NAME = os.environ["INDEX_NAME"]
74
  PKL_NAME = os.environ["PKL_NAME"]
75
  # デバッグ用
76
- llm = OpenAI(model='gpt-4', temperature=0.8, max_tokens=256)
77
  text_splitter = TokenTextSplitter(separator="。", chunk_size=1500
78
  , chunk_overlap=DEFAULT_CHUNK_OVERLAP
79
- , tokenizer=tiktoken.encoding_for_model("gpt-4").encode)
80
  node_parser = SimpleNodeParser(text_splitter=text_splitter)
81
  custom_prompt = Prompt("""\
82
  以下はこれまでの会話履歴と、ドキュメントを検索して回答する必要がある、ユーザーからの会話文です。
83
  会話と新しい会話文に基づいて、検索クエリを作成します。
84
  挨拶された場合、挨拶を返してください。
85
- 質問された場合、検索した結果の回答を返してください。
86
  答えを知らない場合は、「わかりません」と回答してください。
87
  全ての回答は日本語で行ってください。
88
  会話履歴:
 
73
  INDEX_NAME = os.environ["INDEX_NAME"]
74
  PKL_NAME = os.environ["PKL_NAME"]
75
  # デバッグ用
76
+ llm = OpenAI(model='gpt-3.5-turbo', temperature=0.8, max_tokens=256)
77
  text_splitter = TokenTextSplitter(separator="。", chunk_size=1500
78
  , chunk_overlap=DEFAULT_CHUNK_OVERLAP
79
+ , tokenizer=tiktoken.encoding_for_model("gpt-3.5-turbo").encode)
80
  node_parser = SimpleNodeParser(text_splitter=text_splitter)
81
  custom_prompt = Prompt("""\
82
  以下はこれまでの会話履歴と、ドキュメントを検索して回答する必要がある、ユーザーからの会話文です。
83
  会話と新しい会話文に基づいて、検索クエリを作成します。
84
  挨拶された場合、挨拶を返してください。
 
85
  答えを知らない場合は、「わかりません」と回答してください。
86
  全ての回答は日本語で行ってください。
87
  会話履歴:
pages/ImportAllFile.py CHANGED
@@ -31,16 +31,22 @@ if st.button("import",use_container_width=True):
31
  noextpath,extension = os.path.splitext(filepath)
32
  logger.info(filepath)
33
  document = Document()
34
- if extension == ".txt" or ".md":
 
35
  document = SimpleDirectoryReader(input_files=[filepath], filename_as_id=True).load_data()[0]
36
  else:
 
37
  if extension == ".pdf":
 
38
  loader = CJKPDFReader()
39
  elif extension == ".pptx":
 
40
  loader = PptxReader()
41
  elif extension == ".xlsx":
 
42
  loader = PandasExcelReader(pandas_config={"header": 0})
43
  elif extension == ".docx":
 
44
  loader = DocxReader()
45
  else:
46
  logger.error("Can`t read file:" + uploaded_file.name)
 
31
  noextpath,extension = os.path.splitext(filepath)
32
  logger.info(filepath)
33
  document = Document()
34
+ if extension == ".txt" or extension ==".md":
35
+ logger.info("extension")
36
  document = SimpleDirectoryReader(input_files=[filepath], filename_as_id=True).load_data()[0]
37
  else:
38
+ logger.info("else")
39
  if extension == ".pdf":
40
+ logger.info("CJKPDFReader")
41
  loader = CJKPDFReader()
42
  elif extension == ".pptx":
43
+ logger.info("PptxReader")
44
  loader = PptxReader()
45
  elif extension == ".xlsx":
46
+ logger.info("PandasExcelReader")
47
  loader = PandasExcelReader(pandas_config={"header": 0})
48
  elif extension == ".docx":
49
+ logger.info("DocxReader")
50
  loader = DocxReader()
51
  else:
52
  logger.error("Can`t read file:" + uploaded_file.name)