In [1]:
from sentence_transformers import SentenceTransformer, util
import pandas as pd
import re

  from tqdm.autonotebook import tqdm, trange


In [2]:
# Target列を分割する関数
def split_target(target):
    # 指定された区切り文字で分割
    split_words = re.split(r'[,\n、・及びおよび又はまたは]+', target)
    # 空白文字を除外してリストとして返す
    return [word.strip() for word in split_words if word.strip()]

In [3]:
basedf = pd.read_csv('../ClinicalTrialCSV/JRCT20241202Cancer.csv', index_col=0)
basedf = basedf.dropna(subset=['試験等のフェーズ'])
# Target列を分割してTargetWord列を追加
basedf['TargetWord'] = basedf['Target'].apply(split_target)

In [4]:
# モデルのロード
model = SentenceTransformer('all-MiniLM-L6-v2')



In [9]:
# クエリ
#query = "乳がん"
query = "神経膠腫"
threshold = 0.7
# クエリをベクトル化
query_vec = model.encode(query, convert_to_tensor=True)


In [10]:
# ターゲットリスト全体を処理
matched_indices = []
target_vecs_list = []
cosine_scores_list = []
for idx, target_words in enumerate(basedf['TargetWord']):
    # ターゲット内の各単語をベクトル化
    target_vecs = model.encode(target_words, convert_to_tensor=True)
    # コサイン類似度を計算
    cosine_scores = util.cos_sim(query_vec, target_vecs).squeeze()
    target_vecs_list.append(target_vecs)
    cosine_scores_list.append(cosine_scores)
    # 閾値を超えるか確認
    if (cosine_scores >= threshold).any():  # いずれかが閾値を超えている場合
        matched_indices.append(idx)

# 抽出
matched_df = basedf.iloc[matched_indices]
matched_df

Unnamed: 0,JRCT ID,NCT No,JapicCTI No,Title,Target,研究・治験の目的,試験等のフェーズ,試験の種類,無作為化,盲検化,...,purpose,Inclusion Criteria,Exclusion Criteria,Age Minimum,Age Maximum,Gender,Discontinuation Criteria,Keyword,Intervention(s),TargetWord
72,jRCT2051240141,NCT05580562,,新たに診断され放射線療法を完了したH3 K27M変異を有するびまん性神経膠腫の治療のためのO...,H3 K27M 変異を有する初発びまん性神経膠腫,H3 K27M変異びまん性神経膠腫を有する被験者を対象に、放射線療法後に投与されたONC20...,3,,無作為化比較,二重盲検,...,treatment purpose,1. Able to understand the study procedures and...,1. Primary spinal tumor.\r\n2. Diffuse intrins...,No limit,No limit,,,,Participants will be randomized at baseline in...,"[H3 K27M 変異を有する初発, ん性神経膠腫]"
103,jRCT2051240121,NCT06413706,,放射線療法後の悪性神経膠腫の小児および若年成人を対象に、アベマシクリブ＋テモゾロミドとテモゾ...,悪性神経膠腫,放射線療法後の悪性神経膠腫を有する小児および若年成人を対象に、アベマシクリブとテモゾロミドの...,2,,無作為化比較,非盲検,...,treatment purpose,Subjects required to meet all the folloiwng cr...,Patients who meets any of the following criter...,No limit,21age old not,,,,Drug: Abemaciclib\r\nAdministered orally\r\nOt...,[悪性神経膠腫]
224,jRCT2031240090,,,再発悪性神経膠腫に対する治療用放射性薬剤64Cu-ATSMの有効性を検証するランダム化比較医...,悪性神経膠腫,再発・難治性悪性神経膠腫を対象として、64Cu-diacetyl-bis（N4-methyl...,3,,無作為化比較,非盲検,...,treatment purpose,1) Histologically diagnosed as high grade glio...,1) Have a history or merger of other malignanc...,18age old over,75age old under,Both,,"glioblastoma, grade3/4 astrocytoma, grade3 oli...",Group A: BPC Therapy\r\nDepending on the patie...,[悪性神経膠腫]
286,jRCT2071230124,NCT06541665,,ONO-4059-13:未治療の中枢神経系原発リンパ腫（PCNSL）を対象としたONO-40...,中枢神経系原発リンパ腫,未治療PCNSL患者を対象にONO-4059 とR-MPV 療法を併用投与したときの忍容性及...,1,,単一群,非盲検,...,treatment purpose,1. Patients diagnosed with PCNSL\r\n2. Patient...,1.Patients with intraocular PCNSL without brai...,18age old over,No limit,Both,,,Concomitant administration of ONO-4059 and rit...,[中枢神経系原発リンパ腫]
321,jRCT2071230114,NCT06240741,,日本の神経内分泌腫瘍（NEN）患者及び健康成人を対象に[68Ga]Ga-DOTA-TATEを...,神経内分泌腫瘍（NEN）,神経内分泌腫瘍（NEN）患者及び健康成人（HV）を対象に，[68Ga]Ga-DOTA-TAT...,3,,単一群,非盲検,...,diagnostic purpose,1. Signed informed consent must be obtained pr...,1. Inability to complete the needed investigat...,18age old over,No limit,Both,,,[68Ga]Ga-DOTA-TATE will be administered intrav...,[神経内分泌腫瘍（NEN）]
370,jRCT2031230511,,,DAREON™-7：神経内分泌癌（NEC）患者の1次治療として，BI 764532点滴静注を...,肺外神経内分泌癌（ただしメルケル細胞癌，甲状腺髄様癌又はグレード3の神経内分泌腫瘍を除く）\...,パートA：用量漸増の主要目的は，BI 764532の最大耐量（MTD）及び／又は目標用量の拡...,1,,非無作為化比較,非盲検,...,treatment purpose,- Male or female participants >=18 years old a...,- Previous treatment in this trial\r\n- Curren...,18age old over,No limit,Both,,,Confidential information,"[肺外神経内分泌癌（, だしメルケル細胞癌，甲状腺髄様癌, グレード3の神経内分泌腫瘍を除く..."
387,jRCT2031230456,,,JCOG2107E: 切除不能・再発消化器（消化管・肝胆膵）神経内分泌癌（NEC）を対象とし...,消化器（消化管・肝胆膵）神経内分泌癌,切除不能・再発消化器（消化管・肝胆膵）神経内分泌癌（NEC）において、エトポシド＋カルボプラ...,3,,無作為化比較,非盲検,...,treatment purpose,1) Histologically confirmed neuroendocrine car...,1) Synchronous or metachronous malignancies\r\...,18age old over,75age old under,,,,Arm A: Six courses of etoposide + carboplatin ...,"[消化器（消化管, 肝胆膵）神経内分泌癌]"
459,jRCT2031230277,,,メトトレキサート基盤寛解導入療法後奏効例の非照射初発中枢神経系原発悪性リンパ腫に対するチラブ...,中枢神経系原発悪性リンパ腫,寛解導入療法として大量メトトレキサート（HD-MTX）基盤化学療法実施後に完全奏効（CRまた...,2,,無作為化比較,二重盲検,...,treatment purpose,1) Histopathological diagnosis of B cell lymph...,1) Synchronous or metachronous malignancies.\r...,18age old over,No limit,,,,Tirabrutinib (480 mg) or placebo taken orally ...,[中枢神経系原発悪性リンパ腫]
473,jRCT2051230069,,,神経膠腫患者に対するロムスチン療法とプロカルバジン、ロムスチン、ビンクリスチン併⽤療法の安全...,神経膠腫,神経膠腫患者におけるロムスチン療法とプロカルバジン、ロムスチン、ビンクリスチン併⽤療法の安全...,1,,単一群,非盲検,...,treatment purpose,<Cohort 1>\r\n All of the following items shal...,<Common to Cohort 1 and Cohort 2>\r\n1) Active...,18age old over,No limit,Both,,,<cohort1>\r\nLomustine 130 mg/m2 orally every ...,[神経膠腫]
529,jRCT2032230060,,,初発IDH野生型低悪性度神経膠腫に対する交流電場腫瘍治療システムの有効性と安全性を検証する多...,IDH野生型神経膠腫（グレードⅢ）（退形成性星細胞腫）,初発IDH野生型低悪性度神経膠腫を対象に、放射線化学療法後のテモゾロミド維持療法期における交...,2,,単一群,非盲検,...,treatment purpose,"At the time of enrollment, patients will be in...",Any of the following conditions shall not appl...,18age old over,No limit,Both,,Glioma,The patient using the product should shave all...,[IDH野生型神経膠腫（グレードⅢ）（退形成性星細胞腫）]


In [11]:
# 全データのターゲット列をベクトル化
target_list = basedf['Target'].tolist()
target_vecs = model.encode(target_list, convert_to_tensor=True)
# コサイン類似度を計算
cosine_scores = util.cos_sim(query_vec, target_vecs).squeeze()

In [13]:
matched_indices_d = (cosine_scores >= threshold).nonzero().tolist()
# 入れ子リストをフラットなリストに変換
flat_indices_d = [idx[0] for idx in matched_indices_d]

# 抽出
matched_df_d = basedf.iloc[flat_indices_d]
matched_df_d


Unnamed: 0,JRCT ID,NCT No,JapicCTI No,Title,Target,研究・治験の目的,試験等のフェーズ,試験の種類,無作為化,盲検化,...,purpose,Inclusion Criteria,Exclusion Criteria,Age Minimum,Age Maximum,Gender,Discontinuation Criteria,Keyword,Intervention(s),TargetWord
103,jRCT2051240121,NCT06413706,,放射線療法後の悪性神経膠腫の小児および若年成人を対象に、アベマシクリブ＋テモゾロミドとテモゾ...,悪性神経膠腫,放射線療法後の悪性神経膠腫を有する小児および若年成人を対象に、アベマシクリブとテモゾロミドの...,2,,無作為化比較,非盲検,...,treatment purpose,Subjects required to meet all the folloiwng cr...,Patients who meets any of the following criter...,No limit,21age old not,,,,Drug: Abemaciclib\r\nAdministered orally\r\nOt...,[悪性神経膠腫]
224,jRCT2031240090,,,再発悪性神経膠腫に対する治療用放射性薬剤64Cu-ATSMの有効性を検証するランダム化比較医...,悪性神経膠腫,再発・難治性悪性神経膠腫を対象として、64Cu-diacetyl-bis（N4-methyl...,3,,無作為化比較,非盲検,...,treatment purpose,1) Histologically diagnosed as high grade glio...,1) Have a history or merger of other malignanc...,18age old over,75age old under,Both,,"glioblastoma, grade3/4 astrocytoma, grade3 oli...",Group A: BPC Therapy\r\nDepending on the patie...,[悪性神経膠腫]
286,jRCT2071230124,NCT06541665,,ONO-4059-13:未治療の中枢神経系原発リンパ腫（PCNSL）を対象としたONO-40...,中枢神経系原発リンパ腫,未治療PCNSL患者を対象にONO-4059 とR-MPV 療法を併用投与したときの忍容性及...,1,,単一群,非盲検,...,treatment purpose,1. Patients diagnosed with PCNSL\r\n2. Patient...,1.Patients with intraocular PCNSL without brai...,18age old over,No limit,Both,,,Concomitant administration of ONO-4059 and rit...,[中枢神経系原発リンパ腫]
321,jRCT2071230114,NCT06240741,,日本の神経内分泌腫瘍（NEN）患者及び健康成人を対象に[68Ga]Ga-DOTA-TATEを...,神経内分泌腫瘍（NEN）,神経内分泌腫瘍（NEN）患者及び健康成人（HV）を対象に，[68Ga]Ga-DOTA-TAT...,3,,単一群,非盲検,...,diagnostic purpose,1. Signed informed consent must be obtained pr...,1. Inability to complete the needed investigat...,18age old over,No limit,Both,,,[68Ga]Ga-DOTA-TATE will be administered intrav...,[神経内分泌腫瘍（NEN）]
370,jRCT2031230511,,,DAREON™-7：神経内分泌癌（NEC）患者の1次治療として，BI 764532点滴静注を...,肺外神経内分泌癌（ただしメルケル細胞癌，甲状腺髄様癌又はグレード3の神経内分泌腫瘍を除く）\...,パートA：用量漸増の主要目的は，BI 764532の最大耐量（MTD）及び／又は目標用量の拡...,1,,非無作為化比較,非盲検,...,treatment purpose,- Male or female participants >=18 years old a...,- Previous treatment in this trial\r\n- Curren...,18age old over,No limit,Both,,,Confidential information,"[肺外神経内分泌癌（, だしメルケル細胞癌，甲状腺髄様癌, グレード3の神経内分泌腫瘍を除く..."
387,jRCT2031230456,,,JCOG2107E: 切除不能・再発消化器（消化管・肝胆膵）神経内分泌癌（NEC）を対象とし...,消化器（消化管・肝胆膵）神経内分泌癌,切除不能・再発消化器（消化管・肝胆膵）神経内分泌癌（NEC）において、エトポシド＋カルボプラ...,3,,無作為化比較,非盲検,...,treatment purpose,1) Histologically confirmed neuroendocrine car...,1) Synchronous or metachronous malignancies\r\...,18age old over,75age old under,,,,Arm A: Six courses of etoposide + carboplatin ...,"[消化器（消化管, 肝胆膵）神経内分泌癌]"
459,jRCT2031230277,,,メトトレキサート基盤寛解導入療法後奏効例の非照射初発中枢神経系原発悪性リンパ腫に対するチラブ...,中枢神経系原発悪性リンパ腫,寛解導入療法として大量メトトレキサート（HD-MTX）基盤化学療法実施後に完全奏効（CRまた...,2,,無作為化比較,二重盲検,...,treatment purpose,1) Histopathological diagnosis of B cell lymph...,1) Synchronous or metachronous malignancies.\r...,18age old over,No limit,,,,Tirabrutinib (480 mg) or placebo taken orally ...,[中枢神経系原発悪性リンパ腫]
473,jRCT2051230069,,,神経膠腫患者に対するロムスチン療法とプロカルバジン、ロムスチン、ビンクリスチン併⽤療法の安全...,神経膠腫,神経膠腫患者におけるロムスチン療法とプロカルバジン、ロムスチン、ビンクリスチン併⽤療法の安全...,1,,単一群,非盲検,...,treatment purpose,<Cohort 1>\r\n All of the following items shal...,<Common to Cohort 1 and Cohort 2>\r\n1) Active...,18age old over,No limit,Both,,,<cohort1>\r\nLomustine 130 mg/m2 orally every ...,[神経膠腫]
529,jRCT2032230060,,,初発IDH野生型低悪性度神経膠腫に対する交流電場腫瘍治療システムの有効性と安全性を検証する多...,IDH野生型神経膠腫（グレードⅢ）（退形成性星細胞腫）,初発IDH野生型低悪性度神経膠腫を対象に、放射線化学療法後のテモゾロミド維持療法期における交...,2,,単一群,非盲検,...,treatment purpose,"At the time of enrollment, patients will be in...",Any of the following conditions shall not appl...,18age old over,No limit,Both,,Glioma,The patient using the product should shave all...,[IDH野生型神経膠腫（グレードⅢ）（退形成性星細胞腫）]
549,jRCT2031230007,,,BRAF融合遺伝子陽性の進行・再発の低悪性度神経膠腫または膵癌に対するビニメチニブの第Ⅱ相医...,低悪性度神経膠腫、膵癌,BRAF融合遺伝子または遺伝子再構成陽性の切除不能または再発の低悪性度神経膠腫（コホート A...,2,,単一群,非盲検,...,treatment purpose,Inclusion criteria for both cohort A and B\r\n...,1) Active double primary cancer (but not (1)-(...,12age old over,No limit,Both,,"BRAF fusion gene, BRAF rearrangement, low-grad...","Binimetinib is administered 45 mg orally, twic...","[低悪性度神経膠腫, 膵癌]"
