Spaces:

Justin-12138
/

FSALA

Runtime error

App Files Files Community

Justin-12138 commited on Oct 8, 2023

Commit

77bd380

1 Parent(s): 2cd96ed

Upload app.py

Browse files

Files changed (1) hide show

app.py +2 -162

app.py CHANGED Viewed

@@ -222,166 +222,6 @@ def fs(data, method, num_fea_int, clf):
     # 添加你们的代码在这里,我们先全部写成函数，然后再封装成类，主要是先把样子做出来
     # 然后目前最终结果是返回一个图片，包含了含有特征的索引及其对应的分数的图，还有一张是增量式特征选择的准确率图
     # 我上面的代码很多地方还可以优化，比如画图，选择分类器这些，但是你们都先不用管，把下面的几个elif写完先，然后我们再讨论优化代码的事情。
-    elif method == 'CFS':
-        X = data.iloc[:, :-1].values
-        y = data['Label'].values
-        def loadDataSet(fileName):
-            df = pd.read_csv(fileName)
-            return df
-        def writesortedlist(filename, thelist):
-            with open(filename, "w") as fw:
-                for item in thelist:
-                    fw.write(item[0] + "\t" + str(item[1]) + "\n")
-        def writethelist(filename, thelist):
-            with open(filename, "w") as fw:
-                for item in thelist:
-                    fw.write(item + "\n")
-        def getdatadf(datafile):
-            datadf = loadDataSet(datafile)
-            labellist = datadf["Label"].tolist()
-            del datadf["Label"]
-            return datadf, labellist
-        def CFSmethod(datafile):
-            datadf, labellist = getdatadf(datafile)
-            print(datadf)
-            selectdf = datadf.copy()
-            allflist = datadf.columns.tolist()
-            namelist = list(datadf.index)
-            print(namelist)
-            namelist = [int(var) for var in namelist]
-            selectdf["class"] = namelist
-            bestfset, sortlist = calBFset(selectdf, allflist)
-            # writethelist("bestfeature.txt", bestfset)  # 保存最佳特征子集
-            return dict(sortlist)
-        def calmulmerit(selectdf, sublist):
-            retvalue = 0
-            label = "class"
-            k = len(sublist)
-            namelist = list(selectdf["class"])
-            classset = set(namelist)
-            caldf = selectdf[sublist]
-            allvalue = 0.0
-            for feature in sublist:
-                caldf = selectdf[sublist]
-                middlevalue = 0.0
-                for ind in classset:
-                    caldf[label] = np.where(selectdf[label] == ind, 1, 0)
-                    coeff = pointbiserialr(caldf[feature], caldf[label])
-                    middlevalue = abs(coeff.correlation) + middlevalue
-                allvalue = middlevalue / float(len(classset)) + allvalue
-            allvalue = allvalue / float(k)
-            corr = selectdf[sublist].corr()
-            corr.values[np.tril_indices_from(corr.values)] = np.nan
-            corr = abs(corr)
-            rff = corr.unstack().mean()
-            retvalue = (k * allvalue) / sqrt(k + k * (k - 1) * rff)
-            print(retvalue)
-            return retvalue
-        def calBFset(selectdf, allflist):
-            allfdict = getallfscoredict(selectdf, allflist)
-            sortedflist = sorted(allfdict.items(), key=lambda item: item[1], reverse=True)
-            # writesortedlist("sorteddict.txt", sortedflist)  # 保存特征得分的降序
-            feaS = []
-            feaS.append(sortedflist[0][0])
-            maxvalue = sortedflist[0][1]
-            for i in range(1, len(sortedflist)):
-                print(str(i) + "/" + str(len(sortedflist)))
-                itemf = sortedflist[i][0]
-                feaS.append(itemf)
-                newvalue = calmulmerit(selectdf, feaS)
-                if newvalue > maxvalue:
-                    maxvalue = newvalue
-                else:
-                    feaS.pop()
-            print(feaS)
-            return feaS, sortedflist
-        def getallfscoredict(selectdf, allflist):
-            retdict = {}
-            k = 1
-            for f in allflist:
-                print(k)
-                k = k + 1
-                score = calonemerit(selectdf, f)
-                if math.isnan(score):
-                    continue
-                retdict[f] = score
-            return retdict
-        def calonemerit(selectdf, subname):
-            retvalue = 0
-            label = "class"
-            namelist = list(selectdf["class"])
-            classset = set(namelist)
-            caldf = selectdf[subname].to_frame()
-            allvalue = 0.0
-            for ind in classset:
-                caldf[label] = np.where(selectdf[label] == ind, 1, 0)
-                coeff = pointbiserialr(caldf[subname], caldf[label])
-                allvalue = abs(coeff.correlation) + allvalue
-            allvalue = allvalue / float(len(classset))
-            return allvalue
-        # 获取特征分数
-        sortdict = CFSmethod(data.name)
-        # 画图
-        fig = plt.figure(figsize=(24, 12))
-        ax1 = fig.add_subplot(211)
-        ax1.set_title(str(method))
-        indexlist = list(range(1, len(sortdict.keys() + 1)))
-        ax1.plot(indexlist, sortdict.values())  # 特征分数图
-        # 设置x轴和y轴的标签
-        ax1.set_xlabel('Feature Index')
-        ax1.set_ylabel('Feature Score')
-        # 分类器
-        if clf == 'RF':
-            clf = RandomForestClassifier(n_jobs=-1)
-        elif clf == 'KNN':
-            clf = KNeighborsClassifier()
-        elif clf == 'DT':
-            clf = DecisionTreeClassifier()
-        elif clf == 'SVM':
-            clf = SVC()
-        elif clf == 'Naive Bayes':
-            clf = GaussianNB()
-        # 画交叉验证图
-        acc = []
-        # 对于index列表中的每个特征索引
-        for i in range(len(indexlist)):
-            # 使用前i个特征进行交叉验证
-            selected_features = X[:, 0:i]
-            scores = cross_val_score(clf, selected_features, y, cv=5)
-            # 计算平均准确率并添加到acc列表中
-            acc.append(scores.mean())
-        max_acc = max(acc)
-        max_index = acc.index(max_acc)  # 应该不用加1吧
-        ax2 = fig.add_subplot(212)
-        ax2.set_title("IFS_mRMR_FCD_Accuracy")
-        ax2.plot(max_index, max_acc, 'ro')
-        ax2.plot(acc)
-        ax2.annotate(f'({max_index}, {max_acc})', (max_index, max_acc), textcoords="offset points", xytext=(-5, -5),
-                     ha='center')
-        # 设置x轴和y轴的标签
-        ax2.set_xlabel('Top n features')
-        ax2.set_ylabel('Accuracy')
-        plt.grid(True)
-        plt.savefig('output.png')
-        return 'output.png'
-        pass
     elif method == 'Lasso':
         data = pd.read_csv(data.name)
         X = data.iloc[:, :-1]
@@ -517,8 +357,8 @@ iface = gr.Interface(
         ["example_data.csv", 'MRMR_FCQ', 20, 'RF'],
         ["example_data.csv", 'MRMR_FCD', 10, 'SVM'],
         ["example_data.csv", 'MRMR_FCD', 30, 'KNN'],
-        ["example_data.csv", 'CFS', 50, 'DT'],
-        ["example_data.csv", 'CFS', 40, 'Naive Bayes'],
     ],
     allow_flagging="never"
 )

     # 添加你们的代码在这里,我们先全部写成函数，然后再封装成类，主要是先把样子做出来
     # 然后目前最终结果是返回一个图片，包含了含有特征的索引及其对应的分数的图，还有一张是增量式特征选择的准确率图
     # 我上面的代码很多地方还可以优化，比如画图，选择分类器这些，但是你们都先不用管，把下面的几个elif写完先，然后我们再讨论优化代码的事情。
     elif method == 'Lasso':
         data = pd.read_csv(data.name)
         X = data.iloc[:, :-1]
         ["example_data.csv", 'MRMR_FCQ', 20, 'RF'],
         ["example_data.csv", 'MRMR_FCD', 10, 'SVM'],
         ["example_data.csv", 'MRMR_FCD', 30, 'KNN'],
+        ["example_data.csv", 'Lasso', 50, 'DT'],
+        ["example_data.csv", 'Lasso', 40, 'Naive Bayes'],
     ],
     allow_flagging="never"
 )