wikias

Runtime error

App Files Files Community

trysem

datasciencedojo commited on Feb 9, 2023

Commit

db31b27

0 Parent(s):

Duplicate from datasciencedojo/Wikipedia-Article-Scrape

Browse files

Co-authored-by: Data Science Dojo <[email protected]>

Files changed (5) hide show

.gitattributes +31 -0
HelveticaWorld-Regular.ttf +0 -0
README.md +13 -0
app.py +89 -0
requirements.txt +3 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,31 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

HelveticaWorld-Regular.ttf ADDED Viewed

Binary file (657 kB). View file

README.md ADDED Viewed

	@@ -0,0 +1,13 @@

+---
+title: Wikipedia Article Scrape
+emoji: 🦀
+colorFrom: red
+colorTo: gray
+sdk: gradio
+sdk_version: 3.4.1
+app_file: app.py
+pinned: false
+duplicated_from: datasciencedojo/Wikipedia-Article-Scrape
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,89 @@

+import gradio as gr
+import wikipedia
+import numpy as np
+import pandas as pd
+from os import path
+from PIL import Image
+from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
+import matplotlib.pyplot as plt
+def wikipediaScrap(article_name, wikipedia_language = "en - English"):
+  wikipedia_language = wikipedia_language.split(" - ")[0]
+  if wikipedia_language:
+    wikipedia.set_lang(wikipedia_language)
+  # rem_sp = article_name.replace(" ", "")
+  et_page = wikipedia.page(article_name)
+  title = et_page.title
+  content = et_page.content
+  page_url = et_page.url
+  linked_pages = et_page.links
+  text = content
+  # Create and generate a word cloud image:
+  wordcloud = WordCloud(font_path="HelveticaWorld-Regular.ttf").generate(text)
+  # Display the generated image:
+  plt.imshow(wordcloud, interpolation='bilinear')
+  plt.axis("off")
+  return title, content, page_url, "\n". join(linked_pages), plt
+css = """
+footer {display:none !important}
+.output-markdown{display:none !important}
+footer {visibility: hidden}
+#dsd_button {background: purple, color: white}
+textarea[data-testid="textbox"] { height: 178px !important}
+#mytext {height: 43px !important;}
+.max-h-[30rem] {max-height: 18rem !important;}
+.hover\:bg-orange-50:hover {
+    --tw-bg-opacity: 1 !important;
+    background-color: rgb(229,225,255) !important;
+}
+"""
+ini_dict = wikipedia.languages()
+# split dictionary into keys and values
+keys = []
+values = []
+language=[]
+items = ini_dict.items()
+for item in items:
+    keys.append(item[0]), values.append(item[1])
+    language.append(item[0]+" - "+item[1])
+with gr.Blocks(title="Wikipedia Article Scrape | Data Science Dojo", css = css) as demo:
+    with gr.Row():
+      inp = gr.Textbox(placeholder="Enter the name of wikipedia article", label="Wikipedia article name")
+      lan = gr.Dropdown(label=" Select Language", choices=language, value=language[105], interactive=True)
+    btn = gr.Button("Start Scraping", elem_id="dsd_button")
+    with gr.Row():
+      with gr.Column():
+        gr.Markdown("""## About""")
+        title = gr.Textbox(label="Article title")
+        url = gr.Textbox(label="Article URL")
+      with gr.Column():
+        gr.Markdown("""## Wordcloud""")
+        wordcloud = gr.Plot()
+    gr.Markdown("""### Content""")
+    with gr.Row():
+      content = gr.Textbox(label="Content")
+    gr.Markdown("""### Linked Articles""")
+    with gr.Row():
+      linked = gr.Textbox(label="Linked Articles")
+    with gr.Row():
+      gr.Examples(
+                examples = [["Eiffel Tower", "en - English"], ["Eiffel tower", 'ur - اردو']], fn=wikipediaScrap, inputs=[inp, lan], outputs=[title, content, url, linked, wordcloud], cache_examples=True)
+    btn.click(fn=wikipediaScrap, inputs=[inp, lan], outputs=[title, content, url, linked, wordcloud])
+demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+gradio
+wikipedia
+wordcloud