File size: 2,957 Bytes
86c402d
 
 
 
 
 
 
 
fd485d9
86c402d
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
fd485d9
86c402d
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
import json

import numpy as np
from sqlalchemy import ForeignKey, Integer, LargeBinary, String
from sqlalchemy.orm import Mapped, mapped_column, relationship
from sqlalchemy.types import TypeDecorator

from components.dbo.models.base import Base
from components.dbo.models.dataset import Dataset


class JSONType(TypeDecorator):
    """Тип для хранения JSON в SQLite."""
    
    impl = String
    cache_ok = True

    def process_bind_param(self, value, dialect):
        """Сохранение dict в JSON строку."""
        if value is None:
            return None
        return json.dumps(value)

    def process_result_value(self, value, dialect):
        """Загрузка JSON строки в dict."""
        if value is None:
            return None
        return json.loads(value)


class EmbeddingType(TypeDecorator):
    """Тип для хранения эмбеддингов в SQLite."""
    
    impl = LargeBinary
    cache_ok = True

    def process_bind_param(self, value, dialect):
        """Сохранение numpy array в базу."""
        if value is None:
            return None
        # Убеждаемся, что массив двумерный перед сохранением
        value = np.asarray(value, dtype=np.float32)
        if value.ndim == 1:
            value = value.reshape(1, -1)
        return value.tobytes()

    def process_result_value(self, value, dialect):
        """Загрузка из базы в numpy array."""
        if value is None:
            return None
        return np.frombuffer(value, dtype=np.float32)


class EntityModel(Base):
    """
    SQLAlchemy модель для хранения сущностей.
    """

    __tablename__ = "entity"

    uuid: Mapped[str] = mapped_column(String, unique=True)
    name: Mapped[str] = mapped_column(String, nullable=False)
    text: Mapped[str] = mapped_column(String, nullable=False)
    in_search_text: Mapped[str] = mapped_column(String, nullable=True)
    entity_type: Mapped[str] = mapped_column(String, nullable=False)

    # Поля для связей (триплетный подход)
    source_id: Mapped[str] = mapped_column(String, nullable=True)
    target_id: Mapped[str] = mapped_column(String, nullable=True)
    number_in_relation: Mapped[int] = mapped_column(Integer, nullable=True)

    # Поле для индекса чанка в документе
    chunk_index: Mapped[int] = mapped_column(Integer, nullable=True)

    # JSON-поле для хранения метаданных
    metadata_json: Mapped[dict] = mapped_column(JSONType, nullable=True)
    
    embedding: Mapped[np.ndarray] = mapped_column(EmbeddingType, nullable=True)

    dataset_id: Mapped[int] = mapped_column(Integer, ForeignKey("dataset.id"), nullable=False)

    dataset: Mapped["Dataset"] = relationship(
        "Dataset",
        back_populates="entities",
        cascade="all",
    )