In [15]:
import csv
import jaconv
import re

def preprocess(csv_path: str, preprocessed_csv_path: str):
 """
 与えられたCSVファイルを読み込んだのち、以下の処理をしてから、{CSVファイル名}_preprocessed.csvとして保存する
 CSVファイルのフォーマットは"TEXT,LABEL"の2列である。

 TEXTの変換ルールは次の通り。
 1. 文字列が半角・全角スペース・改行を含む場合、その文字列を複数の文字列に分割する
 2. 記号(!,?,!,?,・,.,…,',",♪,♫)と全ての絵文字を削除する
 3. ()または()で囲まれた文字列を削除する
 4. 半角カタカナを全角カタカナに、~を~に、-をーに変換する
 5. 2つ以上連続する~~を~に、ーーをーに変換する
 6. 空文字列を削除する

 保存する前にフィルタリングを行う。
 1. TEXTが空文字列の行を削除する
 2. TEXTとLABELの組み合わせが重複している行を削除する
 """
 # Read the CSV file
 with open(csv_path, 'r', encoding='utf-8') as file:
 reader = csv.reader(file)
 data = list(reader)
 
 preprocessed_data = []

 # Preprocess the TEXT column
 for i in range(len(data)):
 text, label = data[i]
 # Split the text into multiple strings if it contains spaces or newlines
 text = re.split(r'\s+', text)
 # Remove symbols
 text = [re.sub(r'[!?!?・.…\'"’”\♪♫]', '', word) for word in text]
 # Remove strings enclosed in parentheses
 text = [re.sub(r'\(.*?\)|(.*?)', '', word) for word in text]
 # Convert half-width katakana to full-width katakana
 text = [jaconv.h2z(word) for word in text]
 # Convert ~ to ~ and - to ー
 # Note: 〜(U+301C) is a different character from ~(U+FF5E
 text = [re.sub(r'[~〜]', '~', word) for word in text]
 text = [re.sub(r'-', 'ー', word) for word in text]
 # Convert multiple consecutive ~ to ~ and ーー to ー
 text = [re.sub(r'~+', '~', word) for word in text]
 text = [re.sub(r'ー+', 'ー', word) for word in text]
 
 [preprocessed_data.append([word, label]) for word in text if word != '' ]

 # Remove duplicate rows based on TEXT and LABEL combination
 preprocessed_data = [list(x) for x in set(tuple(x) for x in preprocessed_data)]

 # Sort the data by LABEL, TEXT
 preprocessed_data.sort(key=lambda x: (x[1], x[0]))

 # Save the preprocessed data to a new CSV file
 with open(preprocessed_csv_path, 'w', encoding='utf-8', newline='') as file:
 writer = csv.writer(file)
 writer.writerows(preprocessed_data)


In [16]:
import pandas as pd
from sklearn.model_selection import train_test_split


def split(csv_path: str):
 # 元のCSVファイルを読み込む
 df = pd.read_csv(csv_path, encoding='utf-8')

 # 訓練用データセットとテスト用データセットに分割
 train_df, test_df = train_test_split(df, test_size=0.05) # 高速化のため検証データの数を減らす

 # 新しいCSVファイルとして保存
 train_df.to_csv(csv_path.replace('.csv', '_train.csv'), index=False)
 test_df.to_csv(csv_path.replace('.csv', '_test.csv'), index=False)


In [17]:
csv_path = '../data/datawithrakko.csv'
preprocessed_csv_path = csv_path.replace('.csv', '_preprocessed.csv')
preprocess(csv_path, preprocessed_csv_path)
split(preprocessed_csv_path)