File size: 2,253 Bytes

e80c8a1

# source TORCHTEST/bin/activate

# pip install --upgrade pip
# pip install ollama transformers
# pip install --upgrade diffusers[torch]

from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler, FluxPipeline
import torch
import ollama

original_image = 'p.jpg'

response = ollama.chat(
    model='gemma3:4b',
    messages=[{
        'role': 'user',
        'content': 'What is in this image? Describe in the details',
        'images': [original_image]
    }],
    options={
             'temperature': 0.4, # значение от 0,0 до 0,9 (или 1) определяет уровень креативности модели или ее неожиданных ответов.
              #'top_p': 0.9, #  от 0,1 до 0,9 определяет, какой набор токенов выбрать, исходя из их совокупной вероятности.
              #'top_k': 90, # от 1 до 100 определяет, из скольких лексем (например, слов в предложении) модель должна выбрать, чтобы выдать ответ.
              #'num_ctx': 500_000, # устанавливает максимальное используемое контекстное окно, которое является своего рода областью внимания модели.
             'num_predict': 250, # задает максимальное количество генерируемых токенов в ответах для рассмотрения (100 tokens ~ 75 words).
    		}
)

pipe = DiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-2-base", torch_dtype=torch.float16, variant="fp16")

# pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-schnell", torch_dtype=torch.bfloat16) # Access to model black-forest-labs/FLUX.1-schnell is restricted. You must have access to it and be authenticated to access it. Please log in.

pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")

prompt = response.message.content
print(f"Полученный запрос: {prompt}")
image = pipe(prompt, num_inference_steps=25).images[0]
image.save(f'neuro{original_image[:-4]}.png')