File size: 2,766 Bytes
d6cd530
 
 
 
 
3043352
 
 
 
d6cd530
 
 
3043352
 
 
 
d6cd530
3043352
 
d6cd530
3043352
d6cd530
 
 
3043352
 
 
 
 
d6cd530
 
 
3043352
 
d6cd530
3043352
 
d6cd530
 
3043352
 
 
 
d6cd530
 
3043352
 
 
 
 
d6cd530
 
3043352
 
d6cd530
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
syntax = "proto3";

package cosyvoice;
option go_package = "protos/";

// ───────────────────────────────────────────────────────────────────────────────
//  Service
// ───────────────────────────────────────────────────────────────────────────────
service CosyVoice {
  rpc Inference(Request) returns (stream Response) {}
}

// ───────────────────────────────────────────────────────────────────────────────
//  Top‑level wrapper
// ───────────────────────────────────────────────────────────────────────────────
message Request {
  oneof RequestPayload {
    sftRequest        sft_request        = 1;
    zeroshotRequest   zero_shot_request  = 2;
    crosslingualRequest cross_lingual_request = 3;
    instructRequest   instruct_request   = 4;
  }
}

// ───────────────────────────────────────────────────────────────────────────────
//  Individual request messages
// ───────────────────────────────────────────────────────────────────────────────
message sftRequest {
  string spk_id  = 1;
  string tts_text = 2;
}

message zeroshotRequest {
  string tts_text   = 1;
  string prompt_text = 2;
  bytes  prompt_audio = 3;  // URL (utf‑8) or raw bytes
  float  speed        = 4;  // ⎯ optional, 1β€―=β€―normal speed
}

message crosslingualRequest {
  string tts_text   = 1;
  bytes  prompt_audio = 2;
  float  speed        = 3;  // optional
}

message instructRequest {
  string tts_text      = 1;
  string instruct_text = 2;
  bytes  prompt_audio  = 3; // URL (utf‑8) or raw bytes
  float  speed         = 4; // optional
}

// ───────────────────────────────────────────────────────────────────────────────
message Response {
  bytes tts_audio = 1;
}