In [9]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import csv


from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import csv


In [10]:
from selenium.common.exceptions import ElementClickInterceptedException, TimeoutException

def fetch_clinical_trials(disease_name="", freeword=""):
    """
    指定された対象疾患名およびフリーワード検索に基づいてjRCTから臨床試験情報を取得します。

    Args:
        disease_name (str): 対象疾患名（例: "がん 神経膠腫 骨髄腫"）
        freeword (str): フリーワード検索（例: "免疫療法"）

    Returns:
        list: 検索結果のリスト（[試験ID, タイトル, 対象疾患, 進捗状況, 日付, リンク]）
    """
    # WebDriverを初期化
    driver = webdriver.Chrome()  # 必要に応じてChromeDriverを設定

    all_results = []

    try:
        # jRCTの検索ページにアクセス
        driver.get("https://jrct.niph.go.jp/search")

        # 対象疾患名を入力
        if disease_name:
            disease_field = WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.ID, "reg-plobrem-1"))
            )
            disease_field.send_keys(disease_name)

            # 対象疾患名の条件を「or」に設定
            condition_select = driver.find_element(By.ID, "reg-plobrem-type")
            condition_select.find_element(By.CSS_SELECTOR, "option[value='1']").click()

        # フリーワード検索を入力
        if freeword:
            freeword_field = WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.ID, "demo-1"))
            )
            freeword_field.send_keys(freeword)

            # フリーワード検索の条件を「or」に設定
            condition_select = driver.find_element(By.ID, "others")
            condition_select.find_element(By.CSS_SELECTOR, "option[value='1']").click()

        # 募集中を選択
        recruitment_checkbox = driver.find_element(By.ID, "reg-recruitment-2")
        recruitment_checkbox.click()

        # 検索ボタンをクリック
        try:
            search_button = driver.find_element(By.NAME, "button_type")
            driver.execute_script("arguments[0].scrollIntoView();", search_button)  # ボタンを画面内にスクロール
            WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.NAME, "button_type"))).click()
        except ElementClickInterceptedException:
            print("検索ボタンがクリックできないため、JavaScriptでクリックします。")
            driver.execute_script("arguments[0].click();", search_button)

        # ページネーション対応ループ
        while True:
            # 現在のページの結果がロードされるのを待機
            WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.CSS_SELECTOR, "table tbody tr"))
            )

            # 現在のページの結果を取得
            rows = driver.find_elements(By.CSS_SELECTOR, "table tbody tr")
            for row in rows:
                columns = row.find_elements(By.TAG_NAME, "td")
                if len(columns) > 4:
                    # 試験情報をリストに追加
                    trial_id = columns[0].text
                    title = columns[1].text
                    condition = columns[2].text
                    status = columns[3].text
                    date = columns[4].text

                    # リンクを取得（エラー処理を追加）
                    try:
                        link = columns[1].find_element(By.TAG_NAME, "a").get_attribute("href")
                    except Exception:
                        link = "リンク取得エラー"

                    all_results.append([trial_id, title, condition, status, date, link])

            # ページネーションの確認
            try:
                current_page = driver.find_element(By.CSS_SELECTOR, "ul.pagination li.active").text
                print(f"{current_page} ページ目を処理しました。")
            except Exception:
                print("ページネーションが存在しません。全ての結果を取得しました。")
                break

            # 次ページボタンのリストを取得
            pagination_buttons = driver.find_elements(By.CSS_SELECTOR, "ul.pagination li a")
            next_button = None
            for button in pagination_buttons:
                if button.text.isdigit() and int(button.text) > int(current_page):
                    next_button = button
                    break

            if next_button:
                try:
                    driver.execute_script("arguments[0].scrollIntoView();", next_button)  # ボタンを画面内にスクロール
                    WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.LINK_TEXT, next_button.text))).click()
                except ElementClickInterceptedException:
                    print("次ページボタンがクリックできないため、JavaScriptでクリックします。")
                    driver.execute_script("arguments[0].click();", next_button)
                WebDriverWait(driver, 10).until(EC.staleness_of(rows[0]))  # ページが変わるまで待機
            else:
                print("次のページはありません。全ての結果を取得しました。")
                break

    finally:
        # ブラウザを閉じる
        driver.quit()

    return all_results


In [14]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

def scrape_jrct_all_details(url):
    """
    指定されたjRCT URLから必要なすべての情報を抽出します。
    """
    # リクエストを送信
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
    }
    response = requests.get(url, headers=headers)
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'html.parser')

    # データ格納用辞書
    data = {"URL": url}

    # "研究・治験の目的" を抽出
    purpose_label = soup.find('label', text='研究・治験の目的')
    if purpose_label:
        purpose_td = purpose_label.find_parent('th').find_next_sibling('td')
        if purpose_td:
            data["研究・治験の目的"] = purpose_td.text.strip()

    # 試験デザイン情報（日本語と英語）を抽出
    design_labels = [
        ('試験の種類', 'Study Type'),
        ('無作為化', 'allocation'),
        ('盲検化', 'masking'),
        ('対照', 'control'),
        ('割付け', 'assignment'),
        ('研究目的', 'purpose')
    ]
    for label_jp, label_en in design_labels:
        label = soup.find('label', string=lambda text: text and label_jp in text)
        if label:
            td_jp = label.find_parent('th').find_next_sibling('td')
            td_en = td_jp.find_next_sibling('td') if td_jp else None
            data[label_jp] = td_jp.text.strip() if td_jp else None
            data[label_en] = td_en.text.strip() if td_en else None

    # その他の情報を抽出
    details_labels = [
        ('主たる選択基準', 'Inclusion Criteria'),
        ('主たる除外基準', 'Exclusion Criteria'),
        ('年齢下限', 'Age Minimum'),
        ('年齢上限', 'Age Maximum'),
        ('性別', 'Gender'),
        ('中止基準', 'Discontinuation Criteria'),
        ('対象疾患キーワード', 'Keyword'),
        ('介入の内容', 'Intervention(s)')
    ]
    for label_jp, label_en in details_labels:
        label = soup.find('label', string=lambda text: text and label_jp in text)
        if label:
            td_jp = label.find_parent('th').find_next_sibling('td')
            td_en = td_jp.find_next_sibling('td') if td_jp else None
            data[label_jp] = (
                td_jp.decode_contents().strip().replace('<br/>', '\n') if td_jp else None
            )
            data[label_en] = (
                td_en.decode_contents().strip().replace('<br/>', '\n') if td_en else None
            )

    return data

def create_dataframe_from_urls(urls):
    """
    URLのリストを受け取り、pandas DataFrameを作成します。
    """
    all_data = []

    for url in urls:
        print(f"Processing URL: {url}")
        data = scrape_jrct_all_details(url)
        all_data.append(data)

    # pandas DataFrameに変換
    return pd.DataFrame(all_data)


def extract_jrct_links(results):
    """
    fetch_clinical_trialsの結果からjRCT-Noを抽出し、詳細リンクを作成する。

    Args:
        results (list): fetch_clinical_trialsから得られる結果リスト

    Returns:
        list: jRCTの詳細ページリンクリスト
    """
    base_url = "https://jrct.niph.go.jp/latest-detail/"
    links = []
    for result in results:
        if len(result) > 0:
            jrct_no = result[0]  # jRCT-Noは結果リストの最初の要素
            links.append(base_url + jrct_no)
    return links

def reorder_columns(df):
    """
    DataFrame の列を日本語の列を前半に、英語の列を後半に並び替える。
    """
    # 日本語と英語の列を分ける
    jp_columns = [col for col in df.columns if all(ord(c) < 128 for c in col) is False]  # 非 ASCII（日本語）文字列を含む列
    en_columns = [col for col in df.columns if col not in jp_columns]  # 残りの列を英語と仮定

    # 日本語列 + 英語列の順序で整列
    ordered_columns = jp_columns + en_columns

    # 列を並び替えた DataFrame を返す
    return df[ordered_columns]

In [12]:
# WebDriverを初期化
driver = webdriver.Chrome()  # 必要に応じてChromeDriverを設定

# fetch_clinical_trialsを使って検索結果を取得
results = fetch_clinical_trials(disease_name="神経膠腫 骨髄腫", freeword="")

検索ボタンがクリックできないため、JavaScriptでクリックします。
ページネーションが存在しません。全ての結果を取得しました。


In [13]:
results

[['jRCT2051240141',
  '新たに診断され放射線療法を完了したH3 K27M変異を有するびまん性神経膠腫の治療のためのONC201：無作為...',
  'H3 K27M 変異を有する初発びまん性神経膠腫',
  '募集中',
  '令和6年11月6日',
  'リンク取得エラー'],
 ['jRCT2051240121',
  '放射線療法後の悪性神経膠腫の小児および若年成人を対象に、アベマシクリブ＋テモゾロミドとテモゾロミ...',
  '悪性神経膠腫',
  '募集中',
  '令和6年9月5日',
  'リンク取得エラー'],
 ['jRCT1031240239',
  'JCOG2303: 可及的摘出されたIDH変異型星細胞腫の術後化学放射線療法に対する待機化学放射線療法の非劣性...',
  '神経膠腫',
  '募集中',
  '令和6年7月26日',
  'リンク取得エラー'],
 ['jRCT2041240056',
  '[M23-001] 再発性又は難治性多発性骨髄腫患者を対象にABBV-383 を皮下投与する多施設共同，第1b 相，非...',
  '多発性骨髄腫',
  '募集中',
  '令和6年10月3日',
  'リンク取得エラー'],
 ['jRCT2021240013',
  'ノバルティスが実施した過去のサバトリマブ（MBG453）の試験を完了し，サバトリマブの継続投与によりベ...',
  '多発性骨髄腫、慢性骨髄性白血病',
  '募集中',
  '令和6年6月27日',
  'リンク取得エラー'],
 ['jRCT2031240090',
  '再発悪性神経膠腫に対する治療用放射性薬剤64Cu-ATSMの有効性を検証するランダム化比較医師主導治験（ST...',
  '悪性神経膠腫',
  '募集中',
  '令和6年6月26日',
  'リンク取得エラー'],
 ['jRCT2031240014',
  '自家幹細胞移植に非適応又は初回治療として自家幹細胞移植を予定していない未治療の多発性骨髄腫患者を...',
  '多発性骨髄腫',
  '募集中',
  '令和6年9月27日',
  'リンク取得エラー'],
 ['jRCT2041240003',
  '再発又は難治性の多発性骨髄腫患者を対象に、AZ

In [15]:
    # jRCT詳細リンクを作成
jrct_links = extract_jrct_links(results)

    # 詳細リンクからデータフレームを作成
df = create_dataframe_from_urls(jrct_links)

Processing URL: https://jrct.niph.go.jp/latest-detail/jRCT2051240141


  purpose_label = soup.find('label', text='研究・治験の目的')


Processing URL: https://jrct.niph.go.jp/latest-detail/jRCT2051240121
Processing URL: https://jrct.niph.go.jp/latest-detail/jRCT1031240239
Processing URL: https://jrct.niph.go.jp/latest-detail/jRCT2041240056
Processing URL: https://jrct.niph.go.jp/latest-detail/jRCT2021240013
Processing URL: https://jrct.niph.go.jp/latest-detail/jRCT2031240090
Processing URL: https://jrct.niph.go.jp/latest-detail/jRCT2031240014
Processing URL: https://jrct.niph.go.jp/latest-detail/jRCT2041240003
Processing URL: https://jrct.niph.go.jp/latest-detail/jRCT2031230660
Processing URL: https://jrct.niph.go.jp/latest-detail/jRCT2021230055
Processing URL: https://jrct.niph.go.jp/latest-detail/jRCT2061230084
Processing URL: https://jrct.niph.go.jp/latest-detail/jRCT2071230097
Processing URL: https://jrct.niph.go.jp/latest-detail/jRCT2071230095
Processing URL: https://jrct.niph.go.jp/latest-detail/jRCT2011230049
Processing URL: https://jrct.niph.go.jp/latest-detail/jRCT2051230108
Processing URL: https://jrct.niph.

In [16]:
# 整列後の DataFrame を作成
sorted_df = reorder_columns(df)

In [17]:
sorted_df['JRCT ID'] = [result[0] for result in results]
sorted_df['Title'] = [result[1] for result in results]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sorted_df['JRCT ID'] = [result[0] for result in results]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sorted_df['Title'] = [result[1] for result in results]


In [18]:
new_order = ["JRCT ID", "Title"] + [col for col in sorted_df.columns if col not in ["JRCT ID", "Title"]]

In [19]:
sorted_df = sorted_df[new_order]

In [20]:
sorted_df

Unnamed: 0,JRCT ID,Title,研究・治験の目的,無作為化,盲検化,対照,割付け,研究目的,主たる選択基準,主たる除外基準,...,purpose,Inclusion Criteria,Exclusion Criteria,Age Minimum,Age Maximum,Gender,Discontinuation Criteria,Keyword,Intervention(s),Study Type
0,jRCT2051240141,新たに診断され放射線療法を完了したH3 K27M変異を有するびまん性神経膠腫の治療のためのO...,H3 K27M変異びまん性神経膠腫を有する被験者を対象に、放射線療法後に投与されたONC20...,無作為化比較,二重盲検,プラセボ対照,並行群間比較,治療,1.\t治験の手順を理解し、（被験者又は法定代理人による）書面によるインフォームドコンセント...,1.\t原発性脊椎腫瘍。\n\r\n2.\tびまん性内在性橋神経膠腫（DIPG）。DIPGは...,...,treatment purpose,1. Able to understand the study procedures and...,1. Primary spinal tumor.\n\r\n2. Diffuse intri...,No limit,No limit,,,,Participants will be randomized at baseline in...,
1,jRCT2051240121,放射線療法後の悪性神経膠腫の小児および若年成人を対象に、アベマシクリブ＋テモゾロミドとテモゾ...,放射線療法後の悪性神経膠腫を有する小児および若年成人を対象に、アベマシクリブとテモゾロミドの...,無作為化比較,非盲検,実薬（治療）対照,並行群間比較,治療,以下の基準をすべて満たす必要がある<br>\r\n‐生検によって、以下に示す2016 年WH...,以下の基準のいずれかに該当する場合、本治験へ参加できない。\n\r\n‐びまん性橋膠腫（di...,...,treatment purpose,Subjects required to meet all the folloiwng cr...,Patients who meets any of the following criter...,No limit,21age old not,,,,Drug: Abemaciclib\n\r\nAdministered orally\n\r...,
2,jRCT1031240239,JCOG2303: 可及的摘出されたIDH変異型星細胞腫の術後化学放射線療法に対する待機化学...,手術で可及的摘出（90%以上の摘出）されたIDH変異型星細胞腫Grade 3を対象に、標準治...,無作為化比較,非盲検,実薬（治療）対照,並行群間比較,治療,一次登録適格規準<br>\r\n(1)　登録前に実施した最新の手術時の術中迅速病理診断もしく...,(1)　活動性の重複がんを有する（同時性重複がん/多発がんおよび無病期間が2年以内の異時性重...,...,treatment purpose,The first registration criteria\n\r\n(1) The m...,(1) Synchronous or metachronous (within 2 year...,18age old over,No limit,Both,,,Group A: Standard treatment group [Adjuvant ch...,Interventional
3,jRCT2041240056,[M23-001] 再発性又は難治性多発性骨髄腫患者を対象にABBV-383 を皮下投与する...,再発又は難治性（R/R）MMの成人患者を対象にABBV-383の安全性及び薬物動態を検討する。,単一群,非盲検,非対照,単群比較,治療,米国東海岸がん臨床試験グループ（ECOG）のパフォーマンススコアが2以下<br>\r\n3～...,B細胞成熟抗原（BCMA）xCD3二重特異性抗体の投与歴がある。\n,...,treatment purpose,Eastern Cooperative Oncology Group (ECOG) perf...,Received B-cell maturation antigen (BCMA)xCD3 ...,18age old over,No limit,,,,Experimental: ABBV-383 Dose A\n\r\nParticipant...,
4,jRCT2021240013,ノバルティスが実施した過去のサバトリマブ（MBG453）の試験を完了し，サバトリマブの継続投...,重篤な有害事象（SAE）及び有害事象（AE）を含めて，安全性を評価すること,単一群,非盲検,非対照,単群比較,治療,- 治験依頼者が実施するサバトリマブの試験に登録されて，サバトリマブの投与を受けており，なお...,- 親試験でサバトリマブの投与を受けていないコホート又は投与群の患者。\n\r\n- 許容で...,...,treatment purpose,- Participant is currently enrolled in a Novar...,- Participants in cohorts or treatment groups ...,18age old over,No limit,Both,,,Sabatolimab (MBG453): Solution for intravenous...,
5,jRCT2031240090,再発悪性神経膠腫に対する治療用放射性薬剤64Cu-ATSMの有効性を検証するランダム化比較医...,再発・難治性悪性神経膠腫を対象として、64Cu-diacetyl-bis（N4-methyl...,無作為化比較,非盲検,無治療対照/標準治療対照,並行群間比較,治療,1）\t登録前直近の病理診断により組織学的にWHO2021に基づく悪性神経膠腫（膠芽腫または...,1）\t登録前2年以内の他の悪性腫瘍の既往または合併を有する。ただし局所治療により治癒と判断...,...,treatment purpose,1) Histologically diagnosed as high grade glio...,1) Have a history or merger of other malignanc...,18age old over,75age old under,Both,,"glioblastoma, grade3/4 astrocytoma, grade3 oli...",Group A: BPC Therapy\n\r\nDepending on the pat...,
6,jRCT2031240014,自家幹細胞移植に非適応又は初回治療として自家幹細胞移植を予定していない未治療の多発性骨髄腫患...,本研究の目的は，teclistamabとダラツムマブ及びレナリドミドの併用（Tec-DR）並...,無作為化比較,非盲検,実薬（治療）対照,並行群間比較,治療,・国際骨髄腫作業部会（IMWG）診断規準に従って多発性骨髄腫の診断を受けている。<br>\r...,・多発性骨髄腫又はくすぶり型骨髄腫に対して，短期的コルチコステロイド投与\n\r\n（デキサ...,...,treatment purpose,'- Have a diagnosis of multiple myeloma accord...,- Received any prior therapy for multiple myel...,18age old over,No limit,Both,,,"Teclistamab-Teclistamab, Daratumumab SC, Lenal...",
7,jRCT2041240003,再発又は難治性の多発性骨髄腫患者を対象に、AZD0305を単剤療法又は抗がん剤との併用療法と...,Treatment,単一群,非盲検,非対照,単群比較,治療,- 18 歳以上又は治験が実施される管轄区域における同意の法定年齢以上の方。<br>\n\n...,- 多発性骨髄腫の中枢神経系への浸潤を示す臨床徴候が認められる方。\n\n\n\r\n- 慢...,...,treatment purpose,- Participants must be at least 18 years of ag...,- Participants exhibiting clinical signs of ce...,18age old over,No limit,Both,,,AZD0305 IV every 3 weeks\n,
8,jRCT2031230660,再発又は難治性多発性骨髄腫患者を対象とした，単剤療法としてのCevostamab及びCevo...,本試験は、再発または難治性の多発性骨髄腫（R/R MM）患者を対象に、Cevostamab単...,非無作為化比較,非盲検,非対照,並行群間比較,治療,・過去に1回以上の前治療歴を有する、再発・難治性多発性骨髄腫患者<br>\r\n・Easte...,・治験実施計画書に規定された入院及び活動制限を遵守できない。\n\r\n・同種幹細胞移植（S...,...,treatment purpose,-Participants with R/R MM who have received at...,-Inability to comply with protocol-mandated ho...,18age old over,No limit,Both,,,cevostamab: Cevostamab will be administered in...,
9,jRCT2021230055,CD38 を標的とする前治療を受けた再発／難治性多発性骨髄腫患者を対象とした，エルラナタマブ...,再発または難治性多発性骨髄腫患者を対象に，エルラナタマブ単剤投与の有効性，安全性等を標準療法...,無作為化比較,非盲検,実薬（治療）対照,並行群間比較,治療,・IMWG規準で定義される多発性骨髄腫と診断を受け，過去に抗CD38抗体およびレナリドミドを...,・くすぶり型多発性骨髄腫を有する患者\n\r\n・形質細胞白血病を有する患者\n\r\n・ア...,...,treatment purpose,* Prior diagnosis of multiple myeloma as defin...,* Smoldering multiple myeloma.\n\r\n* Plasma c...,18age old over,No limit,Both,,,Drug: Elranatamab\n\r\nElranatamab will be adm...,
