• Video

    txt2video A1111 WebUI extension is ready

    Вдогонку к предыдущей новости, уже выпустили Modelscope расширение для A1111 WebUI, пишут что даже на 8Gb работает, правда в разрешении почтовой марки, 256х256.
    Лиха беда начало. А что в конце никто не знает ) Хотя кого я обманываю, всё мы знаем, чьи изображения придут в движение первыми и фильмы какого жанра получат свои первые нейроОскары.

  • StableDiffusion,  Про ИИ по человечески

    txt2video is finally here

    Ну что, игры ̶в̶ ̶к̶а̶р̶т̶ы̶ ̶ с изображениями закончились, наступила эра видеоигр. Очередной энтузиаст из Азиатского региона после выхода в феврале ControlNet включил третью космическую и на этих выходных оторвавшись от кодинга опубликовал новость о том, что теперь мы живем в эпоху создания ВИДЕО из текстового запроса.


    Запустить локально сервис можно если ваша видеопамять 16Gb+
    git lfs install
    git clone https://huggingface.co/spaces/hysts/modelscope-text-to-video-synthesis

  • Про ИИ по человечески

    GPT4 is out / Состоялся релиз модели GPT4

    Ночью ̶С̶к̶а̶й̶н̶е̶т̶ ̶п̶о̶л̶у̶ч̶и̶л̶а̶ ̶о̶ч̶е̶р̶е̶д̶н̶о̶й̶ ̶а̶п̶д̶е̶й̶т̶,̶ ̶ объявлено о выпуске GPT4.

    Пишут, что в большинстве тестов модель показывала себя на уровне 10% лучших, в то время, как GPT3 часто оказывалась в последних рядах. Также пишут, что рядовому пользователю разница между ними будет не очень заметна. Отмечу такой пункт в релизе:»Visual inputs
    GPT–4 can accept a prompt of text and images, which—parallel to the text–only setting—lets the user specify any vision or language task.
    GPT–4 может принимать подсказки из текста и изображений, что — параллельно с настройкой только для текста — позволяет пользователю задать любую зрительную или языковую задачу. В частности, оно генерирует текстовые выходные данные (естественный язык, код и т.д.) на основе входных данных, состоящих из перемежающегося текста и изображений Ввод изображений все еще находится в стадии предварительного исследования и не доступен для общественности».

  • Art

    Art: Night club

    , crisp, sharp, high quality professional photo, (candid photo of people dancing at a nightclub:1.16), dark atmosphere, dimly lit club, dimly colored spotlights, (crowd shot:1.06), MILF, short tight dress, bare legs, high heels, large breasts, elbows bent, knees bent, dancing with several others, (shot from above:1.10), (candid photography:1.10), wide shot, 4k high quality, Canon EOS, (post processed:1.20), (best quality:1.30) , photorealistic, detailed skin, sharp focus, film grain, acne, (skin texture:1.2)
  • StableDiffusion

    Tools: model LoRA Epi_NoiseOffset

    Инcтрументы: модель вставка LoRA: Epi_NoiseOffset

    Как мы все видим и чувствуем — прогресс в области создания изображений идёт вверх по экспоненте и все проблемы, которые казались большими, уже давно позади — сейчас появилась проблема роста — существует множество дополнений и надо вдумчиво разобраться в них, понять, что действительно необходимо для расширения спектра возможностей художника. И вот сегодня я расскажу вам про один из свежих инструментов, который должен быть в вашей палитре. Этот инструмент, это модель вставка LoRA под названием Epi_NoiseOffset. Что же он позволяет?
    Начнем с того, что для фотографов изображение есть суть игры света и теней на объекте съемки, которые создают сочетание теней и освещенных областей в результате которого удачливый автор может запечатлеть неповторимый запоминающийся выразительный портрет или пейзаж.

    В изображениях же которые мы получали от нейросетей чаще всего видно практически идеальное освещение. И по понятным соображениям, ведь в широкий доступ откуда и были взяты изображения на которых учились все модели попадали только лучшие результаты, те где и фотографы и художники добились хорошего освещения. Плохие снимки удаляют все, даже хорошие фотографы, да,да… И оставляют нейросетям для обучения в основном те, которые впоследствии и становились составными токенами award winning, trending, high quality, best, masterpiece  и тому подобное.
    Чтобы получить от нейросети что–то необычно оригинальное, приходилось крутиться и придумывать различные контр–слова в запросе, от простого dark до gloomy и даже до death доходило. Но нейросеть упорно создавала изображения с усредненным балансом светлых и темных областей. Происходило это потому, что инструмент txt2img начинает работу с генерации случайного шума (noise), а сама формула этого шума, пусть и случайно сгенерированного выдавала результат в котором присутствовало 50% светлых и 50% темных пикселей.
    Наиболее искушенные художники быстро поняли, как это хитро обойти, и пользовались вместо стандартного txt2img другим инструментом — img2img которому на вход давали шум той степени темноты, которую хотели. Но это было неудобно и вот теперь у всех есть способ получше, он называется Noise Offset и его то и реализует в частности модель вставка LoRA Epi_NoiseOffset.

    Теперь, если вы хотите получить изображение черной кошки в не очень освещенной комнате, вам надо скачать эту модель тут, положить её к другим вашим LoRA моделям в папку../stablediffusion–webui/models/Lora и пользоваться.

    Для этого надо будет добавлять в ваши тёмные запросы такой текст:  <lora:epiNoiseoffset_v2:1.5>,  где 1.5 — это сила воздействия, она прекрасно меняется в диапазоне до примерно 4. Меняя это число вы увеличиваете темноту изображения, которое хотите получить.
    Да, конечно же в запросе тоже надо уточнять, что вы хотите тьму потемнее, для этого можно указывать в запросе что–то типа: dark studio, rim lighting, two tone lighting, dimly lit, low key, shadows.

    И вот теперь вы действительно мастер света и тени! До новых нейровстреч!

  • StableDiffusion

    Extensions PosEx

    Расширения для Stable Diffusion A1111 WebUI: POSEX

    После того, как вы все уже поставили и начали пользоваться ControlNet, у вас наверняка разбегались глаза от новых возможностей по контролю над изобразительным процессом. Самым востребованным из инструментов ControlNet для генерации портретов, несомненно стал для всех openpose — возможность выбирать позу вашего персонажа, что значительно облегчило и сделало менее зависимым процесс композиции от точности ваших текстовых формулировок.

    Несомненным плюсом Openpose ControlNet является возможность весьма корректно вычислить позу персонажей по предоставленной вами фотографии. Вы выбираете preproccessor openpose вставляете из клипборда или файла вашу фотографию и перед началом генерации происходит вычисление при помощи магии и на выходе появляется разноцветный скелетон, который затем уже передается на вход для нейросети как база для поз генерируемых персонажей. Эти вычисленные скелетоны в виде маленьких картинок формата png сохраняются во временной папке Stable Diffusion и их можно потом просто скопировать и подставлять в качестве позы в ControlNet, выключив preprocessor.

    Preprosessing from GettyImages example

    Это уже было великолепно, но что если вам захотелось немного подправить позу скелетона, изменить положение руки или поворот головы. Тут на помощь пришло расширение OpenposeEditor, после его установки у вас появлялся новый tab в WebUI где можно было создавать новые позы перетаскиванием ключевых точек скелетона.

    Openpose Editor

    Это расширение уже многим помогло, но не прошло и года (недели), как вышло еще более мощное расширение, Posex, которое позволяет не только редактировать скелетон, но и крутить его в 3D, давая таким образом выбор нужного ракурса для будущего изображения. Важный момент, оно появляется не отдельным табом, как OpenposeEditor, а вкладкой в списке расширений внизу. Чтобы его активировать включите галочку Send this image to ControlNet.

    Posex

    На этом пока всё, долго не писал, с выходом ControlNet все стало настолько проще, что даже и новостей особых не появлялось, нам всем теперь доступно гораздо гораздо больше возможностей поэтому всем вдохновения и нейроуспехов!

  • StableDiffusion

    ControlNet!

    Тут похоже люди сделали Stable Diffusion 1.5++ — ControlNet
    И уже прикрутили её к A1111 WebUI.

    Если получилось поставить по инструкции, и ничего не вылетело в процессе, то появляется новая опция в txt2img — возможность использовать изображения в качестве части запроса. Таким образом если раньше можно было писать txt2img только словами, то ControlNet позволяет закинуть уже готовую картинку (или детский набросок) и использовать его как часть запроса. Да, вы не ошиблись, это очень похоже на то, что и так было возможно в img2img. Но есть коренные отличия и очень скоро мы обязательно увидим — какие именно.

    Цитата: «в отличие от модели Stability, ControlNet получает полную карту глубины 512×512, а не 64×64. Обратите внимание, что модель глубины SD2 от Stability использует карты глубины 64*64. Это означает, что ControlNet сохраняет больше деталей в карте глубины.»

  • StableDiffusion

    Embeddings: CharTurnerV2 textual inversion

    Давайте поговорим о вещах, которыми вы можете в буквальном смысле расширить спектр ваших возможностей для создания фантастически красивых изображений. Сегодня речь пойдёт о CharacterTurner, маленьком файле textual inversion с широким диапазоном применения.
    Скачайте, добавьте в папку.\embeddings, впишите название файла в ваш запрос, задайте ширину изображения раза в три больше высоты и нейросеть сгенерирует несколько разных поз и планов вашего персонажа. Если вы пропишете в запросе обстановку, скажем улицу или стадион, все эти планы будут в эту обстановку органично вписаны.
    Во второй версии автор усовершенствовал модель и усилил вероятность появления планов со всех сторон, для этого надо упомянуть в запросе multiple views или character turnaround.

    1152x512 px

    Еще раз напомню, что преимущество файлов embeddings, будь–то textual inversion, hypernetworks или LoRA в том, что вы можете их использовать с любой моделью.

  • StableDiffusion

    Tools: Ultimate Upscale

    Как только у вас стало более менее получаться находить нужные запросы и запреты для получения желаемой композиции, настала пора улучшать качество получаемого изображения. Возможно вы хотите его распечатать, возможно — прорисовать какие–то мелкие детали, но в любом случае вам нужно что–то большее чем стандартные 512х768. На помощь приходят инструменты Upscale.
    С самого начала работы с Automatic1111 WebUI для улучшения детализации пользователи пробовали использовать встроенный инструмент Highres.fix, но он был в основном предназначен для борьбы с проблемами композиции и вместо улучшения качества нередко вылетал с ошибкой нехватки видеопамяти. Для увеличения изображеий почти сразу появился другой более надежный способ — отдельный скрипт: SD Upscale. Им то все и пользовались, пока не появился инструмент, о котором и пойдет речь — расширение Ultimate Upscale за авторством Jopezzia (он же Антон Антонов). Это замечательное расширение, которое будет работать на любых видеокартах и делает всё что необходимо с минимумом ошибок и при этом довольно качественно.

    1152x1024 px

    Как им пользоваться? Да очень просто, сначала его нужно установить: заходите в A1111 WebUI находите в Extensions, загружаете расширение

    867x56 px

    перегружаете интерфейс, и оно появляется в списке скриптов доступных в инструменте Img2Img.

    466x354 px

    Возьмём любое сгенерированное вами изображение, которое вы хотите увеличить и улучшить детализацию. Для этого можно либо сразу послать его в инструмент img2img либо сначала файл закинуть во вкладку PNG Info и оттуда послать в img2img. Путь через PNG Info позволит не вводить запрос, запрет и размеры, всё подтянется автоматически, останется только уменьшить denoise и выбрать Ultimate Upscale в списке скриптов.

    Немного о том, что вы здесь увидите:

    920x556 px

    1. Изображение будет увеличено согласно настройкам, соответственно выберите Scale from Image Size, это значит отталкиваться от реального размера изображения и выставьте нужный коэффициент

    2. Помните, что можно увеличить в любое количество раз, но количество времени будет расти по экспоненте.

    Дальше выберите модель для работы над изображением. None, Lanczos, Nearest — не нужны. LDSR — по слухам очень качественный, очень самостоятельный (сам тихонько скачивает себе 2Gb файл модели) и ОЧЕНЬ медленный. Я пользуюсь всеми остальными, чтобы расширить выбор имеющихся моделей для Upscale дополнительно скачал несколько моделей примерно по 100Мб:
    4x–UltraSharp
    4x_UniversalUpscalerV2–Neutral_115000_swaG
    Swin2SR_RealworldSR_X4_64_BSRGAN_PSNR.v2
    4x_RealisticRescaler_100000_G

    После скачивания файлов (как правило расширение у них pth) кладете их в папку в A1111 WebUI .\models\ESRGAN\ .
    Отмечу, что модели я скачивал по ссылкам из обширного списка различных моделей постобработки улучшения качества на сайте Upscale.wiki. Там несколько десятков моделей с описанием для чего их лучше использовать, например, модели натренированные на увеличение JPG, или модели, которые можно использовать для работы над улучшением качества видео с кассет VHS или для восстановления старых потрескавшихся фотоснимков, в целом, очень большой выбор для интересующихся вопросом. Для очень интересующихся есть даже 4Gb модель апскейла, непосредственно от StabilityAI (разработчика Stable Diffusion).

    3. Выбор Linear / Chess. Это выбор способа обработки кусков мозаики. Алгооритм улучшения качества таков, что изображение разбивается на несколько кусков каждый из которых обрабатывается отдельно, а потом все вместе сшивается воедино. В этом пункте выбирается очередность обработки частей, считается, что шахматный (Chess) порядок лучше скрывает границы разных квадратов, разрывая последовательность.

    4. Seams Fix. Это способ работы над склеиванием границ отдельных квадратов. В общем и целом у меня пока опыта использования нет, всё устраивает и без включения этой опции, пишите ваши впечатления.

    5. Здесь все понятно: настройки минимальной высоты и ширины квадратов мозаики, размер и уровень маски перекрытия соседних квадратов. Чаще всего всё подходит по умолчанию.
    Всё, кликайте генерацию и смотрите как идёт работа над отдельными квадратиками вашего изображения.

    Самая распостраненная ошибка, приводящая тем не менее к удивительно красивым результатам, это оставить при запуске расширения параметр denoise по умолчанию — 0.75, и получить после продолжительного ожидания изображение, где каждый квадрат мозаики будет представлять собой отдельную картину сгененерированную согласно вашему запросу. Если это не ваша задача, то следите, чтобы параметр denoise был около 0.3–0.4.

    Приятный эффект в том, что с увеличением изображения появляется место для нормальной прорисовки лиц, и не обязательно делать Restore Faces, степень изменений к лучшему будет зависеть от параметра denoise.

    Что делать с запросом и seed. Запрос можно значительно сократить, чтобы не было лишних забот. Seed — можно оставить, можно убрать. Оба этих параметра при низких значениях denoise практически не влияют на результат.

  • StableDiffusion

    Models: Realistic Monsters

    Realistic Monsters

    Кто-то, кому наша жизнь кажется слишком доброй и красивой выложил для общественности модель, в которой смешаны две модели Monsters Clowns Robots и Realistic Vision в соотношении 50/50. В описании автор предупреждает, что теперь у всех получится генерировать реально выглядящие кошмары.
    Если вы тоже хотите порадовать близких и друзей на ночь глядя, то эта модель (7Gb) для вас. Создатель не выложил safetensors, что не очень хорошо, но поправимо — уже давно можно вполне самостоятельно конвертировать в другой формат и, при желании, уменьшать (prune) объем моделей на дому при помощи toolkit extension к A1111 WebUI

На платформе MonsterInsights