Spaces:

pythainlp
/

api

Running

wannaphong commited on Jan 16

Commit

8fe7306

1 Parent(s): cf27cda

Add soundex

Files changed (4) hide show

app.py CHANGED Viewed

@@ -1,16 +1,31 @@
 from fastapi import Depends, FastAPI, Header, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from fastapi.responses import RedirectResponse
-from routers import tokenize
 import pythainlp
-DESC_TEXT = "PyThaiNLP API"
 app = FastAPI(
     title='PyThaiNLP API',
     description=DESC_TEXT,
-    version='0.1',
 )
 app.add_middleware(
@@ -35,3 +50,4 @@ def version():
     return {"version": pythainlp.__version__}
 app.include_router(tokenize.router, prefix="/tokenize", tags=["Tokenize"])

 from fastapi import Depends, FastAPI, Header, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from fastapi.responses import RedirectResponse
+from routers import tokenize, soundex
 import pythainlp
+DESC_TEXT = """# PyThaiNLP API
+PyThaiNLP API
+"""
 app = FastAPI(
     title='PyThaiNLP API',
     description=DESC_TEXT,
+    # summary="Deadpool's favorite app. Nuff said.",
+    version="0.0.1",
+    # terms_of_service="http://example.com/terms/",
+    # contact={
+    #     "name": "Deadpoolio the Amazing",
+    #     "url": "http://x-force.example.com/contact/",
+    #     "email": "[email protected]",
+    # },
+    license_info={
+        "name": "Apache 2.0",
+        "identifier": "MIT",
+    },
 )
 app.add_middleware(
     return {"version": pythainlp.__version__}
 app.include_router(tokenize.router, prefix="/tokenize", tags=["Tokenize"])
+app.include_router(soundex.router, prefix="/soundex", tags=["Soundex"])

requirements.txt CHANGED Viewed

@@ -1,4 +1,6 @@
 fastapi
 uvicorn[standard]
 pythainlp==5.0.5
-python-crfsuite

 fastapi
 uvicorn[standard]
 pythainlp==5.0.5
+python-crfsuite
+ssg
+tltk

routers/soundex.py ADDED Viewed

+# -*- coding: utf-8 -*-
+from fastapi import APIRouter
+from pythainlp.soundex import (
+    soundex as py_soundex
+)
+from enum import Enum
+router = APIRouter()
+class SoundexEngine(str, Enum):
+    udom83 = "udom83"
+    lk82 = "lk82"
+    metasound = "metasound"
+    prayut_and_somchaip = "prayut_and_somchaip"
+@router.post('/soundex')
+def soundex(text: str, engine: SoundexEngine = "udom83"):
+    """
+    Word tokenize
+    """
+    return {"soundex": py_soundex(text=text, engine=engine)}

routers/tokenize.py CHANGED Viewed

@@ -1,6 +1,10 @@
 # -*- coding: utf-8 -*-
 from fastapi import APIRouter
-from pythainlp.tokenize import word_tokenize as py_word_tokenize, subword_tokenize as py_subword_tokenize
 from enum import Enum
 from typing import List, Optional
 from pydantic import BaseModel
@@ -11,16 +15,20 @@ router = APIRouter()
 class SentTokenizeEngine(str, Enum):
     whitespace = "whitespace"
     whitespace_newline = "whitespace+newline"
 class WordTokenizeEngine(str, Enum):
     newmm = "newmm"
     longest = "longest"
 class SubwordTokenizeEngine(str, Enum):
     tcc = "tcc"
     etcc = "etcc"
 class WordTokenizeResponse(BaseModel):
     words: List[str] = []
@@ -28,6 +36,9 @@ class WordTokenizeResponse(BaseModel):
 class SubwordTokenizeResponse(BaseModel):
     subwords: List[str] = []
 @router.post('/word_tokenize', response_model=WordTokenizeResponse)
 def word_tokenize(text: str, engine: WordTokenizeEngine = "newmm"):
     """
@@ -39,3 +50,8 @@ def word_tokenize(text: str, engine: WordTokenizeEngine = "newmm"):
 @router.post('/subword_tokenize', response_model=SubwordTokenizeResponse)
 def subword_tokenize(text: str, engine: SubwordTokenizeEngine = "tcc"):
     return {"subwords": py_subword_tokenize(text=text, engine=engine)}

 # -*- coding: utf-8 -*-
 from fastapi import APIRouter
+from pythainlp.tokenize import (
+    word_tokenize as py_word_tokenize,
+    subword_tokenize as py_subword_tokenize,
+    sent_tokenize as py_sent_tokenize
+)
 from enum import Enum
 from typing import List, Optional
 from pydantic import BaseModel
 class SentTokenizeEngine(str, Enum):
     whitespace = "whitespace"
     whitespace_newline = "whitespace+newline"
+    crfcut = "crfcut"
 class WordTokenizeEngine(str, Enum):
     newmm = "newmm"
     longest = "longest"
+    tltk = "tltk"
 class SubwordTokenizeEngine(str, Enum):
     tcc = "tcc"
     etcc = "etcc"
+    ssg = "ssg"
+    tltk = "tltk"
 class WordTokenizeResponse(BaseModel):
     words: List[str] = []
 class SubwordTokenizeResponse(BaseModel):
     subwords: List[str] = []
+class SentTokenizeEngine(BaseModel):
+    sents: List[str] = []
 @router.post('/word_tokenize', response_model=WordTokenizeResponse)
 def word_tokenize(text: str, engine: WordTokenizeEngine = "newmm"):
     """
 @router.post('/subword_tokenize', response_model=SubwordTokenizeResponse)
 def subword_tokenize(text: str, engine: SubwordTokenizeEngine = "tcc"):
     return {"subwords": py_subword_tokenize(text=text, engine=engine)}
+@router.post('/sent_tokenize', response_model=SentTokenizeEngine)
+def sent_tokenize(text: str, engine: SentTokenizeEngine = "crfcut"):
+    return {"sents": py_sent_tokenize(text=text, engine=engine)}