Spaces:

minskiter
/

resume-analysis

Runtime error

App Files Files Community

minskiter commited on Jul 15, 2023

Commit

f0b9b57

1 Parent(s): 1e4d53d

feat(docker): update docker config

Browse files

Files changed (11) hide show

README.md +25 -0
docker-compose.yml +11 -0
dockerfile +19 -0
grpc.sh +1 -0
predictor/__init__.py +42 -9
protos/resume.proto +48 -0
protos/resume_pb2.py +37 -0
protos/resume_pb2.pyi +74 -0
protos/resume_pb2_grpc.py +100 -0
requirements.grpc.txt +2 -0
server.py +153 -0

README.md CHANGED Viewed

@@ -11,3 +11,28 @@ license: apache-2.0
 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
 Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
+### 环境
+1. 最新的Docker Engine - Community（Linux版本）
+version: 20.0.4
+### 如何部署
+0. 登陆Huggingface申请模型下载权限
+- minskiter/resume-token-classification
+https://huggingface.co/minskiter/resume-token-classification
+- minskiter/resume-token-classification-name-0708
+https://huggingface.co/minskiter/resume-token-classification-name-0708
+1. 首先设置环境变量
+```bash
+export HF_Token={Your Huggingface Token}
+```
+2. 执行部署
+```
+sudo docker compose up -d --build
+```
+新版使用`docker compose`，旧版使用`docker-compose`

docker-compose.yml ADDED Viewed

	@@ -0,0 +1,11 @@

+version: '3'
+services:
+  ner:
+    build: .
+    restart: always
+    ports:
+      - "50050:50051"
+    environment:
+      - HF_Token=${HF_Token}

dockerfile ADDED Viewed

	@@ -0,0 +1,19 @@

+FROM python:3.8
+# Path: /app
+WORKDIR /app
+# CACHE
+COPY requirements.txt ./
+RUN pip install -r requirements.txt
+# CACHE GRPC
+COPY requirements.grpc.txt ./
+RUN pip install -r requirements.grpc.txt
+COPY . ./
+RUN ./grpc.sh
+EXPOSE 50051
+ENTRYPOINT [ "python", "./server.py" ]

grpc.sh ADDED Viewed

	@@ -0,0 +1 @@


1	+ python -m grpc_tools.protoc -I./ --python_out=./ --pyi_out=./ --grpc_python_out=./ ./protos/resume.proto

predictor/__init__.py CHANGED Viewed

@@ -7,6 +7,8 @@ import pandas as pd
 import math
 import queue
 from datetime import date
 class Predictor():
@@ -22,6 +24,7 @@ class Predictor():
             raise ValueError("'common' pipeline is None")
         self.pipelines = pipelines
         self.today = today
         self.__init_split_data()
         self.__init_schools_data(paths)
         self.__init_patterns()
@@ -111,7 +114,7 @@ class Predictor():
                 raise
         if datestr=="至今":
             return self.today
-        return self.today
     def split_to_blocks(
         self,
@@ -158,7 +161,7 @@ class Predictor():
         text: str,
         start: int,
         end: int,
-        max_expand_length=20,
     ):
         expand_l,expand_r = start,end
         for l in range(max(start-max_expand_length,0), start):
@@ -200,15 +203,15 @@ class Predictor():
         }
         # 获取名字，先过滤所有空白字符，防止名字中间有空格
         remove_blanks_text, index_mapper = self.remove_blanks(text, re.compile(r' '))
-        for name_match in self.name_pattern.finditer(remove_blanks_text):
-            start,end = name_match.span()
-            expand_text, start, end = self.get_expand_span(remove_blanks_text, start, end)
-            entities = self.pipelines['name'](expand_text)
             for entity in entities:
                 if entity['entity']=='NAME' and self.name_pattern.match(entity['word']) is not None:
                     obj = {
-                        'start': index_mapper[start+entity['start']],
-                        'end': index_mapper[start+entity['end']-1]+1,
                         'entity': 'NAME',
                         'text': entity['word']
                     }
@@ -220,7 +223,10 @@ class Predictor():
                     if not repeat:
                         obj['origin'] = text[obj['start']:obj['end']]
                         return_obj['name'].append(obj)
         # 获取年龄
         for age_match in self.age_patterns[0].finditer(remove_blanks_text):
             age = None
             s,e = -1,-1
@@ -266,6 +272,9 @@ class Predictor():
                     'entity': 'AGE',
                     'origin': text[index_mapper[s]:index_mapper[e-1]+1]
                 })
         # 获取学校
         for school_match in self.school_pattern.finditer(remove_blanks_text):
             start,end = school_match.span()
@@ -309,6 +318,9 @@ class Predictor():
                 obj['origin'] = text[obj['start']:obj['end']]
                 obj['level'] = self.schools[obj['text']]
                 return_obj['schools'].append(obj)
         # 获取学历
         for i,pattern in enumerate(self.edu_patterns):
             for edu_match in pattern.finditer(remove_blanks_text):
@@ -331,16 +343,23 @@ class Predictor():
                         if not repeat:
                             obj['origin'] = text[obj['start']:obj['end']]
                             return_obj['edus'].append(obj)
         # 如果有工作经历
         if self.works_key_pattern.search(remove_blanks_text) is not None:
             for job_time_match in self.job_time_patterns.finditer(remove_blanks_text):
                 origin_start,origin_end = job_time_match.span()
                 # convert_to_date
                 fr = self.to_date(job_time_match.group(1))
                 fs,fe = job_time_match.span(1)
                 to = self.to_date(job_time_match.group(3))
                 ts,te = job_time_match.span(3)
-                expand_text, start, end = self.get_expand_span(remove_blanks_text, origin_start, origin_end, max_expand_length=100)
                 entities = self.pipelines['common'](expand_text)
                 objs = []
                 for entity in entities:
@@ -390,6 +409,9 @@ class Predictor():
                 work_month += diff_y * 12 + diff_m
                 last_end = end
             return_obj['work_time'] = math.ceil(work_month/12)
         # 获取手机号码
         for phone_match in self.phone_pattern.finditer(text):
             start,end = phone_match.span()
@@ -400,6 +422,9 @@ class Predictor():
                 'origin': text[start:end],
                 'text': re.sub('\s','',text[start:end])
             })
         for email_match in self.email_pattern.finditer(text):
             start,end = email_match.span()
             return_obj['email'].append({
@@ -409,6 +434,9 @@ class Predictor():
                 'origin': text[start:end],
                 'text': re.sub('\s','',text[start:end])
             })
         for gender_match in self.gender_pattern.finditer(text):
             start,end = gender_match.span(2)
             return_obj['gender'].append({
@@ -418,6 +446,9 @@ class Predictor():
                 'word': text[start:end],
                 'text': text[start:end]
             })
         for block in self.split_to_blocks(remove_blanks_text):
             entities = self.pipelines["common"](block["text"])
             for entity in entities:
@@ -436,6 +467,8 @@ class Predictor():
                             break
                     if not repeat:
                         return_obj['titles'].append(obj)
         return return_obj
     def __call__(self, *args: Any, **kwds: Any) -> Any:

 import math
 import queue
 from datetime import date
+import time
+import logging
 class Predictor():
             raise ValueError("'common' pipeline is None")
         self.pipelines = pipelines
         self.today = today
+        self.logger = logging.getLogger(__name__)
         self.__init_split_data()
         self.__init_schools_data(paths)
         self.__init_patterns()
                 raise
         if datestr=="至今":
             return self.today
+        return None
     def split_to_blocks(
         self,
         text: str,
         start: int,
         end: int,
+        max_expand_length=10,
     ):
         expand_l,expand_r = start,end
         for l in range(max(start-max_expand_length,0), start):
         }
         # 获取名字，先过滤所有空白字符，防止名字中间有空格
         remove_blanks_text, index_mapper = self.remove_blanks(text, re.compile(r' '))
+        start_time = time.perf_counter()
+        for block in self.split_to_blocks(remove_blanks_text):
+            block_text,block_l = block['text'],block['start']
+            entities = self.pipelines['name'](block_text)
             for entity in entities:
                 if entity['entity']=='NAME' and self.name_pattern.match(entity['word']) is not None:
                     obj = {
+                        'start': index_mapper[block_l+entity['start']],
+                        'end': index_mapper[block_l+entity['end']-1]+1,
                         'entity': 'NAME',
                         'text': entity['word']
                     }
                     if not repeat:
                         obj['origin'] = text[obj['start']:obj['end']]
                         return_obj['name'].append(obj)
+        end_time = time.perf_counter()
+        self.logger.info(f"process name time: {end_time-start_time}")
         # 获取年龄
+        start_time = time.perf_counter()
         for age_match in self.age_patterns[0].finditer(remove_blanks_text):
             age = None
             s,e = -1,-1
                     'entity': 'AGE',
                     'origin': text[index_mapper[s]:index_mapper[e-1]+1]
                 })
+        end_time = time.perf_counter()
+        self.logger.info(f"process age time: {end_time-start_time}")
+        start_time = time.perf_counter()
         # 获取学校
         for school_match in self.school_pattern.finditer(remove_blanks_text):
             start,end = school_match.span()
                 obj['origin'] = text[obj['start']:obj['end']]
                 obj['level'] = self.schools[obj['text']]
                 return_obj['schools'].append(obj)
+        end_time = time.perf_counter()
+        self.logger.info(f"process school time: {end_time-start_time}")
+        start_time = time.perf_counter()
         # 获取学历
         for i,pattern in enumerate(self.edu_patterns):
             for edu_match in pattern.finditer(remove_blanks_text):
                         if not repeat:
                             obj['origin'] = text[obj['start']:obj['end']]
                             return_obj['edus'].append(obj)
+        end_time = time.perf_counter()
+        self.logger.info(f"process edu time: {end_time-start_time}")
+        start_time = time.perf_counter()
         # 如果有工作经历
         if self.works_key_pattern.search(remove_blanks_text) is not None:
             for job_time_match in self.job_time_patterns.finditer(remove_blanks_text):
                 origin_start,origin_end = job_time_match.span()
                 # convert_to_date
                 fr = self.to_date(job_time_match.group(1))
+                if fr is None:
+                    continue
                 fs,fe = job_time_match.span(1)
                 to = self.to_date(job_time_match.group(3))
+                if to is None:
+                    continue
                 ts,te = job_time_match.span(3)
+                expand_text, start, end = self.get_expand_span(remove_blanks_text, origin_start, origin_end, max_expand_length=50)
                 entities = self.pipelines['common'](expand_text)
                 objs = []
                 for entity in entities:
                 work_month += diff_y * 12 + diff_m
                 last_end = end
             return_obj['work_time'] = math.ceil(work_month/12)
+        end_time = time.perf_counter()
+        self.logger.info(f"process work time: {end_time-start_time}")
+        start_time = time.perf_counter()
         # 获取手机号码
         for phone_match in self.phone_pattern.finditer(text):
             start,end = phone_match.span()
                 'origin': text[start:end],
                 'text': re.sub('\s','',text[start:end])
             })
+        end_time = time.perf_counter()
+        self.logger.info(f"process phone time: {end_time-start_time}")
+        start_time = time.perf_counter()
         for email_match in self.email_pattern.finditer(text):
             start,end = email_match.span()
             return_obj['email'].append({
                 'origin': text[start:end],
                 'text': re.sub('\s','',text[start:end])
             })
+        end_time = time.perf_counter()
+        self.logger.info(f"process email time: {end_time-start_time}")
+        start_time = time.perf_counter()
         for gender_match in self.gender_pattern.finditer(text):
             start,end = gender_match.span(2)
             return_obj['gender'].append({
                 'word': text[start:end],
                 'text': text[start:end]
             })
+        end_time = time.perf_counter()
+        self.logger.info(f"process gender time: {end_time-start_time}")
+        start_time = time.perf_counter()
         for block in self.split_to_blocks(remove_blanks_text):
             entities = self.pipelines["common"](block["text"])
             for entity in entities:
                             break
                     if not repeat:
                         return_obj['titles'].append(obj)
+        end_time = time.perf_counter()
+        self.logger.info(f"process title time: {end_time-start_time}")
         return return_obj
     def __call__(self, *args: Any, **kwds: Any) -> Any:

protos/resume.proto ADDED Viewed

	@@ -0,0 +1,48 @@

+syntax = "proto3";
+service Resume{
+    // Get Resume Info
+    rpc GetInfo(TextRequest) returns (ResumeEntitiesResponse);
+    rpc Health(PingRequest) returns (PongResponse);
+}
+message PingRequest{
+    string ping = 1;
+}
+message PongResponse{
+    string done = 1;
+}
+message TextRequest{
+    string text = 1;
+}
+message Entity{
+    string entity = 1;
+    int32 start = 2;
+    int32 end = 3;
+    optional string text = 4;
+    string origin = 5;
+    optional string level = 6;
+}
+message JobEntity {
+    Entity start = 1;
+    Entity end = 2;
+    Entity company = 3;
+}
+message ResumeEntitiesResponse{
+    repeated Entity names = 1;
+    repeated Entity emails = 2;
+    repeated Entity phones = 3;
+    repeated Entity schools = 4;
+    repeated Entity edus = 5;
+    repeated Entity ages = 6;
+    repeated Entity genders = 7;
+    int32 work_years = 8;
+    repeated JobEntity jobs = 9;
+    repeated Entity titles = 10;
+}

protos/resume_pb2.py ADDED Viewed

	@@ -0,0 +1,37 @@

+# -*- coding: utf-8 -*-
+# Generated by the protocol buffer compiler.  DO NOT EDIT!
+# source: protos/resume.proto
+"""Generated protocol buffer code."""
+from google.protobuf.internal import builder as _builder
+from google.protobuf import descriptor as _descriptor
+from google.protobuf import descriptor_pool as _descriptor_pool
+from google.protobuf import symbol_database as _symbol_database
+# @@protoc_insertion_point(imports)
+_sym_db = _symbol_database.Default()
+DESCRIPTOR = _descriptor_pool.Default().AddSerializedFile(b'\n\x13protos/resume.proto\"\x1b\n\x0bPingRequest\x12\x0c\n\x04ping\x18\x01 \x01(\t\"\x1c\n\x0cPongResponse\x12\x0c\n\x04\x64one\x18\x01 \x01(\t\"\x1b\n\x0bTextRequest\x12\x0c\n\x04text\x18\x01 \x01(\t\"~\n\x06\x45ntity\x12\x0e\n\x06\x65ntity\x18\x01 \x01(\t\x12\r\n\x05start\x18\x02 \x01(\x05\x12\x0b\n\x03\x65nd\x18\x03 \x01(\x05\x12\x11\n\x04text\x18\x04 \x01(\tH\x00\x88\x01\x01\x12\x0e\n\x06origin\x18\x05 \x01(\t\x12\x12\n\x05level\x18\x06 \x01(\tH\x01\x88\x01\x01\x42\x07\n\x05_textB\x08\n\x06_level\"S\n\tJobEntity\x12\x16\n\x05start\x18\x01 \x01(\x0b\x32\x07.Entity\x12\x14\n\x03\x65nd\x18\x02 \x01(\x0b\x32\x07.Entity\x12\x18\n\x07\x63ompany\x18\x03 \x01(\x0b\x32\x07.Entity\"\x8b\x02\n\x16ResumeEntitiesResponse\x12\x16\n\x05names\x18\x01 \x03(\x0b\x32\x07.Entity\x12\x17\n\x06\x65mails\x18\x02 \x03(\x0b\x32\x07.Entity\x12\x17\n\x06phones\x18\x03 \x03(\x0b\x32\x07.Entity\x12\x18\n\x07schools\x18\x04 \x03(\x0b\x32\x07.Entity\x12\x15\n\x04\x65\x64us\x18\x05 \x03(\x0b\x32\x07.Entity\x12\x15\n\x04\x61ges\x18\x06 \x03(\x0b\x32\x07.Entity\x12\x18\n\x07genders\x18\x07 \x03(\x0b\x32\x07.Entity\x12\x12\n\nwork_years\x18\x08 \x01(\x05\x12\x18\n\x04jobs\x18\t \x03(\x0b\x32\n.JobEntity\x12\x17\n\x06titles\x18\n \x03(\x0b\x32\x07.Entity2a\n\x06Resume\x12\x30\n\x07GetInfo\x12\x0c.TextRequest\x1a\x17.ResumeEntitiesResponse\x12%\n\x06Health\x12\x0c.PingRequest\x1a\r.PongResponseb\x06proto3')
+_builder.BuildMessageAndEnumDescriptors(DESCRIPTOR, globals())
+_builder.BuildTopDescriptorsAndMessages(DESCRIPTOR, 'protos.resume_pb2', globals())
+if _descriptor._USE_C_DESCRIPTORS == False:
+  DESCRIPTOR._options = None
+  _PINGREQUEST._serialized_start=23
+  _PINGREQUEST._serialized_end=50
+  _PONGRESPONSE._serialized_start=52
+  _PONGRESPONSE._serialized_end=80
+  _TEXTREQUEST._serialized_start=82
+  _TEXTREQUEST._serialized_end=109
+  _ENTITY._serialized_start=111
+  _ENTITY._serialized_end=237
+  _JOBENTITY._serialized_start=239
+  _JOBENTITY._serialized_end=322
+  _RESUMEENTITIESRESPONSE._serialized_start=325
+  _RESUMEENTITIESRESPONSE._serialized_end=592
+  _RESUME._serialized_start=594
+  _RESUME._serialized_end=691
+# @@protoc_insertion_point(module_scope)

protos/resume_pb2.pyi ADDED Viewed

	@@ -0,0 +1,74 @@

+from google.protobuf.internal import containers as _containers
+from google.protobuf import descriptor as _descriptor
+from google.protobuf import message as _message
+from typing import ClassVar as _ClassVar, Iterable as _Iterable, Mapping as _Mapping, Optional as _Optional, Union as _Union
+DESCRIPTOR: _descriptor.FileDescriptor
+class Entity(_message.Message):
+    __slots__ = ["end", "entity", "level", "origin", "start", "text"]
+    END_FIELD_NUMBER: _ClassVar[int]
+    ENTITY_FIELD_NUMBER: _ClassVar[int]
+    LEVEL_FIELD_NUMBER: _ClassVar[int]
+    ORIGIN_FIELD_NUMBER: _ClassVar[int]
+    START_FIELD_NUMBER: _ClassVar[int]
+    TEXT_FIELD_NUMBER: _ClassVar[int]
+    end: int
+    entity: str
+    level: str
+    origin: str
+    start: int
+    text: str
+    def __init__(self, entity: _Optional[str] = ..., start: _Optional[int] = ..., end: _Optional[int] = ..., text: _Optional[str] = ..., origin: _Optional[str] = ..., level: _Optional[str] = ...) -> None: ...
+class JobEntity(_message.Message):
+    __slots__ = ["company", "end", "start"]
+    COMPANY_FIELD_NUMBER: _ClassVar[int]
+    END_FIELD_NUMBER: _ClassVar[int]
+    START_FIELD_NUMBER: _ClassVar[int]
+    company: Entity
+    end: Entity
+    start: Entity
+    def __init__(self, start: _Optional[_Union[Entity, _Mapping]] = ..., end: _Optional[_Union[Entity, _Mapping]] = ..., company: _Optional[_Union[Entity, _Mapping]] = ...) -> None: ...
+class PingRequest(_message.Message):
+    __slots__ = ["ping"]
+    PING_FIELD_NUMBER: _ClassVar[int]
+    ping: str
+    def __init__(self, ping: _Optional[str] = ...) -> None: ...
+class PongResponse(_message.Message):
+    __slots__ = ["done"]
+    DONE_FIELD_NUMBER: _ClassVar[int]
+    done: str
+    def __init__(self, done: _Optional[str] = ...) -> None: ...
+class ResumeEntitiesResponse(_message.Message):
+    __slots__ = ["ages", "edus", "emails", "genders", "jobs", "names", "phones", "schools", "titles", "work_years"]
+    AGES_FIELD_NUMBER: _ClassVar[int]
+    EDUS_FIELD_NUMBER: _ClassVar[int]
+    EMAILS_FIELD_NUMBER: _ClassVar[int]
+    GENDERS_FIELD_NUMBER: _ClassVar[int]
+    JOBS_FIELD_NUMBER: _ClassVar[int]
+    NAMES_FIELD_NUMBER: _ClassVar[int]
+    PHONES_FIELD_NUMBER: _ClassVar[int]
+    SCHOOLS_FIELD_NUMBER: _ClassVar[int]
+    TITLES_FIELD_NUMBER: _ClassVar[int]
+    WORK_YEARS_FIELD_NUMBER: _ClassVar[int]
+    ages: _containers.RepeatedCompositeFieldContainer[Entity]
+    edus: _containers.RepeatedCompositeFieldContainer[Entity]
+    emails: _containers.RepeatedCompositeFieldContainer[Entity]
+    genders: _containers.RepeatedCompositeFieldContainer[Entity]
+    jobs: _containers.RepeatedCompositeFieldContainer[JobEntity]
+    names: _containers.RepeatedCompositeFieldContainer[Entity]
+    phones: _containers.RepeatedCompositeFieldContainer[Entity]
+    schools: _containers.RepeatedCompositeFieldContainer[Entity]
+    titles: _containers.RepeatedCompositeFieldContainer[Entity]
+    work_years: int
+    def __init__(self, names: _Optional[_Iterable[_Union[Entity, _Mapping]]] = ..., emails: _Optional[_Iterable[_Union[Entity, _Mapping]]] = ..., phones: _Optional[_Iterable[_Union[Entity, _Mapping]]] = ..., schools: _Optional[_Iterable[_Union[Entity, _Mapping]]] = ..., edus: _Optional[_Iterable[_Union[Entity, _Mapping]]] = ..., ages: _Optional[_Iterable[_Union[Entity, _Mapping]]] = ..., genders: _Optional[_Iterable[_Union[Entity, _Mapping]]] = ..., work_years: _Optional[int] = ..., jobs: _Optional[_Iterable[_Union[JobEntity, _Mapping]]] = ..., titles: _Optional[_Iterable[_Union[Entity, _Mapping]]] = ...) -> None: ...
+class TextRequest(_message.Message):
+    __slots__ = ["text"]
+    TEXT_FIELD_NUMBER: _ClassVar[int]
+    text: str
+    def __init__(self, text: _Optional[str] = ...) -> None: ...

protos/resume_pb2_grpc.py ADDED Viewed

	@@ -0,0 +1,100 @@

+# Generated by the gRPC Python protocol compiler plugin. DO NOT EDIT!
+"""Client and server classes corresponding to protobuf-defined services."""
+import grpc
+from protos import resume_pb2 as protos_dot_resume__pb2
+class ResumeStub(object):
+    """Missing associated documentation comment in .proto file."""
+    def __init__(self, channel):
+        """Constructor.
+        Args:
+            channel: A grpc.Channel.
+        """
+        self.GetInfo = channel.unary_unary(
+                '/Resume/GetInfo',
+                request_serializer=protos_dot_resume__pb2.TextRequest.SerializeToString,
+                response_deserializer=protos_dot_resume__pb2.ResumeEntitiesResponse.FromString,
+                )
+        self.Health = channel.unary_unary(
+                '/Resume/Health',
+                request_serializer=protos_dot_resume__pb2.PingRequest.SerializeToString,
+                response_deserializer=protos_dot_resume__pb2.PongResponse.FromString,
+                )
+class ResumeServicer(object):
+    """Missing associated documentation comment in .proto file."""
+    def GetInfo(self, request, context):
+        """Get Resume Info
+        """
+        context.set_code(grpc.StatusCode.UNIMPLEMENTED)
+        context.set_details('Method not implemented!')
+        raise NotImplementedError('Method not implemented!')
+    def Health(self, request, context):
+        """Missing associated documentation comment in .proto file."""
+        context.set_code(grpc.StatusCode.UNIMPLEMENTED)
+        context.set_details('Method not implemented!')
+        raise NotImplementedError('Method not implemented!')
+def add_ResumeServicer_to_server(servicer, server):
+    rpc_method_handlers = {
+            'GetInfo': grpc.unary_unary_rpc_method_handler(
+                    servicer.GetInfo,
+                    request_deserializer=protos_dot_resume__pb2.TextRequest.FromString,
+                    response_serializer=protos_dot_resume__pb2.ResumeEntitiesResponse.SerializeToString,
+            ),
+            'Health': grpc.unary_unary_rpc_method_handler(
+                    servicer.Health,
+                    request_deserializer=protos_dot_resume__pb2.PingRequest.FromString,
+                    response_serializer=protos_dot_resume__pb2.PongResponse.SerializeToString,
+            ),
+    }
+    generic_handler = grpc.method_handlers_generic_handler(
+            'Resume', rpc_method_handlers)
+    server.add_generic_rpc_handlers((generic_handler,))
+ # This class is part of an EXPERIMENTAL API.
+class Resume(object):
+    """Missing associated documentation comment in .proto file."""
+    @staticmethod
+    def GetInfo(request,
+            target,
+            options=(),
+            channel_credentials=None,
+            call_credentials=None,
+            insecure=False,
+            compression=None,
+            wait_for_ready=None,
+            timeout=None,
+            metadata=None):
+        return grpc.experimental.unary_unary(request, target, '/Resume/GetInfo',
+            protos_dot_resume__pb2.TextRequest.SerializeToString,
+            protos_dot_resume__pb2.ResumeEntitiesResponse.FromString,
+            options, channel_credentials,
+            insecure, call_credentials, compression, wait_for_ready, timeout, metadata)
+    @staticmethod
+    def Health(request,
+            target,
+            options=(),
+            channel_credentials=None,
+            call_credentials=None,
+            insecure=False,
+            compression=None,
+            wait_for_ready=None,
+            timeout=None,
+            metadata=None):
+        return grpc.experimental.unary_unary(request, target, '/Resume/Health',
+            protos_dot_resume__pb2.PingRequest.SerializeToString,
+            protos_dot_resume__pb2.PongResponse.FromString,
+            options, channel_credentials,
+            insecure, call_credentials, compression, wait_for_ready, timeout, metadata)

requirements.grpc.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ grpcio==1.54.2
2	+ grpcio-tools==1.54.2

server.py ADDED Viewed

	@@ -0,0 +1,153 @@

+import logging
+import grpc
+from concurrent import futures
+import protos.resume_pb2
+import protos.resume_pb2_grpc
+from huggingface_hub import login
+import os
+from predictor import Predictor
+from transformers import pipeline
+from datetime import date
+HF_TOKEN = os.environ["HF_Token"]
+PORT = os.environ.get("PORT", "50051")
+login(HF_TOKEN)
+class Resume(protos.resume_pb2_grpc.ResumeServicer):
+    def __init__(self):
+        self.done = False
+        self.logger = logging.getLogger(__name__)
+        self.predictor = Predictor(
+            pipelines={
+                "name": pipeline("nerpipe", model="minskiter/resume-token-classification-name-0708",trust_remote_code=True,use_auth_token=True),
+                "common": pipeline("nerpipe",model="minskiter/resume-token-classification",trust_remote_code=True,use_auth_token=True)
+            },
+            paths=[
+                "data/W020230619818476939351.xls",
+                "data/W020230619818476975218.xls"
+            ],
+            today=date(2023,4,1)
+        )
+        self.done = True
+    def Health(self, request, context):
+        self.logger.info("Health check")
+        if request.ping=="PING":
+            if self.done:
+                return protos.resume_pb2.PongResponse(done="OK")
+            else:
+                return protos.resume_pb2.PongResponse(done="Pending")
+        return protos.resume_pb2.PongResponse(done="PING request is not valid")
+    def GetInfo(self, request, context):
+        entities = self.predictor(request.text)
+        logging.info(entities)
+        res = protos.resume_pb2.ResumeEntitiesResponse()
+        for name in entities['name']:
+            res.names.append(protos.resume_pb2.Entity(
+                entity=name['entity'],
+                start=name['start'],
+                end=name['end'],
+                text=name.get('text',None),
+                origin=name["origin"]
+            ))
+        for age in entities['age']:
+            res.ages.append(protos.resume_pb2.Entity(
+                entity=age['entity'],
+                start=age['start'],
+                end=age['end'],
+                text=age.get('text',None),
+                origin=age["origin"]
+            ))
+        for gender in entities['gender']:
+            res.genders.append(protos.resume_pb2.Entity(
+                entity=gender['entity'],
+                start=gender['start'],
+                end=gender['end'],
+                text=gender.get('text',None),
+                origin=gender["origin"]
+            ))
+        for email in entities['email']:
+            res.emails.append(protos.resume_pb2.Entity(
+                entity=email['entity'],
+                start=email['start'],
+                end=email['end'],
+                text=email.get('text',None),
+                origin=email["origin"]
+            ))
+        for phone in entities['phone']:
+            res.phones.append(protos.resume_pb2.Entity(
+                entity=phone['entity'],
+                start=phone['start'],
+                end=phone['end'],
+                text=phone.get('text',None),
+                origin=phone["origin"]
+            ))
+        for edu in entities['edus']:
+            res.edus.append(protos.resume_pb2.Entity(
+                entity=edu['entity'],
+                start=edu['start'],
+                end=edu['end'],
+                text=edu.get('text',None),
+                origin=edu["origin"]
+            ))
+        for school in entities['schools']:
+            res.schools.append(protos.resume_pb2.Entity(
+                entity=school['entity'],
+                start=school['start'],
+                end=school['end'],
+                text=school.get('text',None),
+                origin=school["origin"],
+                level=school.get('level',None)
+            ))
+        for company,start,end in entities['jobs']:
+            jobEntity = protos.resume_pb2.JobEntity(
+                start=protos.resume_pb2.Entity(
+                    entity=start['entity'],
+                    start=start['start'],
+                    end=start['end'],
+                    text=start.get('text',None),
+                    origin=start["origin"]
+                ),
+                end=protos.resume_pb2.Entity(
+                    entity=end['entity'],
+                    start=end['start'],
+                    end=end['end'],
+                    text=end.get('text',None),
+                    origin=end["origin"]
+                ),
+                company=protos.resume_pb2.Entity(
+                    entity=company['entity'],
+                    start=company['start'],
+                    end=company['end'],
+                    text=company.get('text',None),
+                    origin=company["origin"]
+                )
+            )
+            res.jobs.append(jobEntity)
+        for title in entities['titles']:
+            res.titles.append(protos.resume_pb2.Entity(
+                entity=title['entity'],
+                start=title['start'],
+                end=title['end'],
+                text=title.get('text',None),
+                origin=title["origin"]
+            ))
+        res.work_years = entities['work_time']
+        return res
+def serve(port = "50051"):
+    logger = logging.getLogger(__name__)
+    server = grpc.server(futures.ThreadPoolExecutor(max_workers=10))
+    protos.resume_pb2_grpc.add_ResumeServicer_to_server(Resume(), server)
+    server.add_insecure_port('[::]:' + port)
+    logger.info("Starting server on port %s", port)
+    server.start()
+    logger.info("Running..")
+    server.wait_for_termination()
+if __name__ == '__main__':
+    logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
+    serve(PORT)