Files changed (1) hide show
  1. README.md +87 -21
README.md CHANGED
@@ -32,22 +32,91 @@ widget:
32
 
33
  [colab_notebook](https://colab.research.google.com/drive/1insSxvc3jjAXe0zmdIjmbG3ttb5mpRgQ?usp=sharing)
34
 
35
- ## What have we built?
36
- A 1.3 bn SQL model that outperforms most SQL expert models and chatgpt on popular benchmarks.
37
- This is a distilled model built on the deepseek base model.
38
- Please refer to https://huggingface.co/PipableAI/pip-library-etl-1.3b for our state of the art model.
39
- ## How we built it?
40
 
41
- We used softmax cross entropy and a modified form of policy grad along with Q loss, optimized in an EM set up.
42
- Loss behaviour in the set up mentioned above -
43
 
44
- ![image/png](https://cdn-uploads.huggingface.co/production/uploads/658d8095a2a6a6e0da8bb8a6/I80Ru1r4thoYrLagIWALa.png)
 
 
 
 
 
45
 
46
- ## Benchmarking :
47
- For benchmarking purposes we are using Semantic Evaluation for Text-to-SQL with
48
- Distilled Test Suites, an officially accepted evaluation framework for Spider, SParC, and CoSQL which was proposed by a research team of Yale and Berkeley.
49
- The benchmark contains 2200 test data points
50
- Here is the link to run the evaluation:
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
51
 
52
 
53
  [Test Suite SQL Eval](https://github.com/taoyds/test-suite-sql-eval)
@@ -60,18 +129,18 @@ Here is the link to run the evaluation:
60
  |sqlcoder-7b|60.6|48.2|28.3|20.4|
61
  |gpt-3.5|58.8|44.7|31.0|28.4|
62
 
63
- We have also benchmarked it on defog eval.
64
- It contains 200 test data points handpicked by defog team.
65
- Here is the link to it:
66
 
67
 
68
  [Defog SQL-Eval](https://github.com/defog-ai/sql-eval)
69
- These are the results -
70
 
71
  ![image/png](https://cdn-uploads.huggingface.co/production/uploads/64d32c6b921678fdc9de3302/fFeLSEYBNpQk_JWjFsF5M.png)
72
 
73
  ## License
74
- The model is open source under apache 2.0. License
75
 
76
  ## Usage
77
 
@@ -188,6 +257,3 @@ Which customers did not make any orders? List the first name, middle initial and
188
  ```sql
189
  SELECT T1.customer_first_name , T1.customer_middle_initial , T1.customer_last_name FROM Customers AS T1 WHERE T1.customer_id NOT IN (SELECT T2.customer_id FROM Orders AS T2)
190
  ```
191
-
192
- ### Team
193
- Avi Kothari, Pratham Gupta, Ritvik Aryan Kalra, Rohan Bhatial, Soham Acharya
 
32
 
33
  [colab_notebook](https://colab.research.google.com/drive/1insSxvc3jjAXe0zmdIjmbG3ttb5mpRgQ?usp=sharing)
34
 
35
+ ## Основная информация
36
+ Основа для файнтюна (FT).
 
 
 
37
 
38
+ <antArtifact identifier="sql-model-analysis" type="text/markdown" title="Анализ SQL-модели для файнтюнинга в бизнес-информатике">
39
+ # Анализ базовой модели PipableAI/pip-library-etl-1.3b
40
 
41
+ ## Основные характеристики модели
42
+ - Размер: 1.3 миллиарда параметров
43
+ - Базовая архитектура: DeepSeek
44
+ - Специализация: ETL (Extract, Transform, Load) и SQL-операции
45
+ - Доступность: открытый доступ через Hugging Face
46
+ - Превосходит ChatGPT в SQL-ориентированных бенчмарках
47
 
48
+ ## Преимущества для бизнес-информатики МГПУ
49
+
50
+ ### 1. Техническая оптимальность
51
+ - Оптимальный размер для файнтюнинга (1.3B параметров)
52
+ - Возможность запуска на доступном оборудовании
53
+ - Эффективное использование вычислительных ресурсов
54
+
55
+ ### 2. Образовательные преимущества
56
+ - Специализация на SQL подходит для курсов по базам данных
57
+ - Поддержка ETL-процессов актуальна для бизнес-аналитики
58
+ - Возможность интеграции в учебные проекты
59
+
60
+ ### 3. Направления файнтюнинга для МГПУ
61
+ - Адаптация под специфику учебных задач
62
+ - Настройка на корпоративные кейсы
63
+ - Интеграция российских бизнес-практик
64
+
65
+ ## Рекомендации по файнтюнингу
66
+
67
+ ### 1. Приоритетные области настройки
68
+ - Работа с российскими СУБД
69
+ - Интеграция отраслевой специфики
70
+ - Адаптация под образовательные задачи
71
+
72
+ ### 2. Технические аспекты
73
+ - Использование LoRA для эффективной настройки
74
+ - Подготовка специализированных датасетов
75
+ - Валидация на реальных бизнес-кейсах
76
+
77
+ ### 3. Образовательные компоненты
78
+ - Создание учебных примеров
79
+ - Разработка практических заданий
80
+ - Интеграция в существующие курсы
81
+
82
+ ## Потенциальные применения
83
+
84
+ 1. Учебный процесс:
85
+ - Автоматическая проверка SQL-запросов студентов
86
+ - Генерация учебных примеров
87
+ - Поддержка практических занятий
88
+
89
+ 2. Исследовательская работа:
90
+ - Анализ больших наборов данных
91
+ - Поддержка научных исследований
92
+ - Обработка результатов экспериментов
93
+
94
+ 3. Практические проекты:
95
+ - Работа с реальными бизнес-задачами
96
+ - Создание прототипов решений
97
+ - Анализ бизнес-процессов
98
+ </antArtifact>
99
+
100
+ Эта модель представляет особую ценность для направления бизнес-информатики благодаря своей специализации на SQL и ETL-процессах.
101
+
102
+ ## Процесс обучения модели
103
+
104
+ Реализован через комбинированную функцию потерь, включающую:
105
+
106
+ 1. Softmax cross entropy (перекрёстная энтропия с софтмакс нормализацией) для оптимизации веро��тностного распределения предсказаний
107
+
108
+ 2. Модифицированный вариант policy gradient для оптимизации стратегии принятия решений
109
+
110
+ 3. Q-loss для оценки качества действий
111
+
112
+ Оптимизация производилась в рамках EM-фреймворка (Expectation-Maximization), что обеспечивает итеративное улучшение параметров модели через чередование шагов оценки ожидания и максимизации вероятности.
113
+
114
+ Такая архитектура потерь позволяет эффективно оптимизировать как точность генерации SQL-запросов, так и стратегическое качество принимаемых моделью решений.
115
+
116
+ ## Бенчмаркинг :
117
+ Оценка производительности модели выполнена на основе Semantic Evaluation for Text-to-SQL with Distilled Test Suites - официального фреймворка оценки, разработанного исследовательской группой Yale и Berkeley для бенчмарков Spider, SParC и CoSQL.
118
+
119
+ Тестовый набор данных включает 2200 примеров, что обеспечивает статистически значимую оценку качества генерации SQL-запросов и семантической точности модели.
120
 
121
 
122
  [Test Suite SQL Eval](https://github.com/taoyds/test-suite-sql-eval)
 
129
  |sqlcoder-7b|60.6|48.2|28.3|20.4|
130
  |gpt-3.5|58.8|44.7|31.0|28.4|
131
 
132
+ Мы также протестировали его на defog eval.
133
+ Он содержит 200 точек тестовых данных, отобранных вручную командой defog.
134
+ Вот ссылка на него:
135
 
136
 
137
  [Defog SQL-Eval](https://github.com/defog-ai/sql-eval)
138
+ Вот результаты -
139
 
140
  ![image/png](https://cdn-uploads.huggingface.co/production/uploads/64d32c6b921678fdc9de3302/fFeLSEYBNpQk_JWjFsF5M.png)
141
 
142
  ## License
143
+ Модель имеет открытый исходный код под лицензией Apache 2.0.
144
 
145
  ## Usage
146
 
 
257
  ```sql
258
  SELECT T1.customer_first_name , T1.customer_middle_initial , T1.customer_last_name FROM Customers AS T1 WHERE T1.customer_id NOT IN (SELECT T2.customer_id FROM Orders AS T2)
259
  ```