YouTube Transcript:
用ComfyUI玩照片转动漫 Photo 2 Anime

Skip watching entire videos - get the full transcript, search for keywords, and copy with one click.

AutoDub

Understand YouTube Foreign Videos

Immersive YouTube Dubbing in English

Break language barriers, embrace global quality content

Use for Free

Video Transcript

大家好我是大头

我们今天来讲一个工作流

叫photo to Anime

然后这是我新做的一个版本

它是基于ollama这个节点的

或者说这个这个服务的

就是一个在本地运行语言模型

或者说视觉模型的这样的一个服务

那么其实上面一期呢

我们讲的是

用ollama来自动优化comfyUI的关键词

好那就是这一期的内容

然后这个新的Photo to Anime呢

跟上一期内容是有一定关联的

就是我们也需要用语言模型

来自动帮我们优化提示词

当然我们多了一个步骤

就是需要用它来

去读取我们原来这个图片里面的信息

比如说，这个图片是一个古墓丽影的场景

然后里面有一个女性的主体

然后她在这样的一个环境中

我们需要把这个内容给它解读出来

然后再去在这个基础上

再去优化关键词

比如这个

这个是两个人的合影

然后呢

我们要知道这里边是一男一女

然后再给它画成这样子

好我们看一下大概的效果啊

这个是

吉卜力风格的

就是我们把这个张照片变成一个

宫崎骏动画片的这样的一个风格

那这个呢

是一个怎么说呢

一个简单的线条的这样的一个风格

原图是这样

然后变成这样子

这个是90年代动画片的风格

有点像美少女战士啊

什么什么之类的

有点像那个时代的这种风格

然后这个有点像韩漫

其实

这个提示词也是线条

线条的这种素描

但是画出来有点像韩漫

就这个模型的这个效果是这样子的

最后这个呢

是一个类似于

3D模型的3D渲染的这样的一个效果

它能够适应很多种不同的风格

你的照片

或者说照片是一个游戏截图

或者说本来就是一个卡通图片

然后呢可以把它变换成其他的风格

那我们今天就来讲讲

这个是怎么来做的

好那准备活动呢

准备工作呢

就是需要这个

今天需要这个LLaVA模型

LLaVA模型我这边用的是13B 1.6

呃 13B 1.6

好这个我今天用的是13B

1.6 q6K 11GB的这个模型

它会这边有这样的一个语句

我们去复制它

就能够自动下载

就能够自动安装了

运行的方法还是和上次一样

先打开一个命令行

然后把这个贴进去

好它就开始下载了

我们这一步比时间比较长

而且这个本地已经有了

它现在已经有了

其实它就直接启动了

它就没有显示下载的过程

好那这个我们就跳过

不聊它了

然后安装

这个Ollama的节点呢

上一次也讲过了

大家可以去到上一个视频去看

那我们现在就直接开始讲这个工作流

好这个工作流分为两大部分

那上面呢是生成提示词

就是基于这个画面

我们把整个提示词给生成出来

然后下面这部分呢

是基于提示词

然后把这个画面给重绘出来

就是生成

生成图片

那总共其实分为两个关键点

第一个关键点呢

就是保持原图中的主体和构图

我们想要做的是风格迁移

那你总得保持一点原来的东西

才能说是风格迁移

才能跟才能跟原图比较像

对吧那最重要的东西呢

就是主体

比如说里面是人

那就要保持原来的人

那比如说原来里边是一只老虎

或者一只熊猫

那主体是这样的一个动物

那我们要保持这个这个主体不变

这样才能实现一个风格上面的变化

啊所以这个是一个大的关键点

第二个关键点呢

就是替换原图的风格

就是比如原图是照片

原图是游戏

那我们给它替换成

吉卜力

或者说替换成这个韩漫

来改变它的风格

这个是两个大的关键点

那在这个这个里边呢

是有一些细节的

比如说第一点

怎么样保持这个主体和构图

首先

我们要在提示词的层面要做一些工作

就是如果完全没有提示词

只是靠controlnet

只是靠潜空间去做

那这个效果会差很多

所以呢我们需要来生成这个

原来这张照片里边的主体的

比如说名称啊

它的一些细节啊

它是人对吧

那我们就1boy 1girl

它如果是老虎那么就1Tiger

那他的性别是什么

就是而且特别要具体一点

比如左边这个人的性别是什么

右边这个人的性别是什么

然后分别的肤色是什么样的

发色是什么样的

甚至眼球的颜色

瞳孔的颜色是什么样的

那这些我们都说的越具体越好

他就能尽量的去保持

这个主体的一些主要特征

这样子的话

在迁移的时候

这个不变的因素

就能够很明显的形成一种对应的关系

第二个呢

就是深度图

如果用边缘图

比如说canny啊

或者说用其他的图

来控制这个图片的话

有的时候他控制的会过于具体

比如说他会尽可能保留原来的发型

什么之类的

没有给这个动漫去发挥的一些空间

比如说眼球的这个大小什么之类的

那用深度图我测下来是效果比较好的

哎这个深度图怎么都没显示出来呢

好先不管它啊

用深度图的效果是比较好的

深度图能够保持它的姿势

还有空间关系

谁在前谁在后

然后它和背景有多远

等等这些很重要的信息

但是呢又不会做非常具体的规定

就是里边的衣衣服啊

里边的这个发型啊什么之类的

这些都是可以变化的

眼特别是眼睛大小

这些可以给模型去发挥

所以用深度图加上controlnet

来对这个构图进行控制

这个是

比较重要的一个点

第三个呢

就是潜空间

这个其实可用可不用

我们可以把这张照片

或者说这个原始的图片

它也可能是游戏图片

给它通过

潜空间编码

通过这个VAE encode

把它给变成一个潜空间

把这个像素给转换成

stable diffusion

它能够识别的潜空间

然后把这个传进去

这个时候

我们可以控制这个降噪的这个程度

这个其实就可以

就可以看成是重绘比例

它如果是降噪0.9的话

那就是只有10%的幅度给它去

呃给给这个原来的这个图片去用

就是它保留10%的信息

然后90%都是重绘的

就是重绘的比例非常高

如果这个地方是一呢

那就是100%重绘

如果这个地方是0.5呢

那就是有有一半保留

有一半重绘啊

一般来说

在这种做风格迁移的时候

我自己建议是0.7-1

所以你可以完全重绘

但是呢

你最好不要低于70%的这个重绘比例

否则就非常像原图

非常像原来那个照片

我们这边还是给它改回0.9

这个其实是1也可以的

这个也没有问题

好这个是潜空间

这边其实为什么说不用也可以呢

因为你选择1的时候

百分百重绘的时候

其实跟没有用这个潜空间

是几乎没有区别的

但是呢要生成一个

跟这个原图尺寸一样的潜空间

还是要去用一些节点来读取它的size

比如说image size

然后把它的宽度高度取出来

再把这个宽度高度

放到生成潜空间的一个节点上面去

才能够生成

跟这个图片尺寸一样的一个潜空间

但这一步骤也是比较麻烦的

就是从节点的数量的角度来讲

其实它比用这张图片

去直接生成一个潜空间

还麻烦所以呢

我比较喜欢直接把它放到潜空间里面

去直接对它这个原图进行编码

这样的话尺寸就不用变了

然后就是第二大部分

就是第二大关键点

就是替换原图的风格

嗯这边其实也是分为三个细节

第一个呢

就是提示词

在提示词里面增加一些风格上面的词

比如说我们想要Ghibli风格对吧

那我们就在提示词里边要增加

把这个studio Ghibli写进去

然后还可以写一些别的东西

这个是这个lora的触发词

所以我也放在这边了

就是我们是通过这个提示词

来影响整个图片的风格的

嗯我们再来看一下这个是怎么写的

好 2D铅笔素描

然后粗线条

粗的漫画线条

看来这个是怎么写的

90年代动画风格

啊也是线条素描

嗯

最好的质量

3D渲染然后c4d

好

嗯

这个提示词的

这个是提示词里面写的

这个风格是非常重要的

我们是希望它来遵循我们的这个风格

然后来去绘画

那这边呢

接下来就是模型的选择了

就是如果你这个模型

能够听得懂这个提示词

你让它画一个line Sketch

它就画一个line Sketch

那就能出图

如果它听不懂呢

可能配上一些lora它也可以明白

比如说吉卜力这个

其实我就给它配了一个lora

嗯这个模型是dreamshaper

它是一个比较擅长真人的

这样的一个写实的一个模型

但是配上这个lora了之后呢

我们就可以让它出吉卜力的风格了

然后再配上这个lora的

触发词

触发词就是这个

我也不知道它为什么弄成这样的

一个字符串

然后再加上一个studio chibli

好那这个就是第二点

就是怎么样来替换它的风格

第三点呢

就是重绘幅度

这个一定要高

就刚才讲了就最好在70%以上

那100%也没有问题

重绘幅度低的话

就风格的变化就会非常有限

嗯没办法变很明显的风格

好主要就是这两个大点

然后每个点里边有三个小点

那我们再来整个过一下这个工作流

啊首先这个是输入了

就是我们输入了一张图片

然后呢

在这边做了一个对这个图片选中高亮

然后看这个白色线条

对这个图片做了一个变换

让它在100万像素左右

这个100万像素

其实是一个非常适合SDXL的

这样的一个像素

因为它的呃

绘画的训练的这个尺寸是1024x1024

它的很多出图的尺寸

其实也都是在长和宽相乘

100万像素左右

所以呢给它设定在100万像素

会非常适合他去发挥

不太容易出错

如果这个地方设的比较大

比如说设成150万

设成200万

那就很容易让这个人变成两三个头啊

或者身体被奇怪的拉长啊什么之类的

会出现一些这样的问题

所以呢这边就是给他先弄到100万

它如果太小也不行

所以不管它这个图是大是小

然后用这个节点

可以很方便的把它变成一个标准化的

100万像素的

这样的一个图片

好那接下来有了一个图片之后

我们就开始来来这个反推提示词了

嗯这边就用到了刚才的这个

我们安装的这个llava

我们把这个llava的这个模型的名字

输进去

就是这边这个

就这个

把它输进去

然后呢第一个分为两个部分吧

第一个部分呢

是让他忽略这张图片的艺术风格

然后把这个图片的场景

描绘成一个动漫场景

好

然后他就整体的来描述这个图片了

在这个图片里边

我们看到这是一个比较正式的活动

然后左边一个人穿着黑色礼服

然后那右边一个人

穿着这个浅色的礼服

背景比较简单

等等等等等等

好这样是这样的一个描述

然后接下来呢

这个提示词呢

是说如果图片里边有人的话

请告诉我有多少个人

并且呢挨个去描述他们

从左到右

从上到下

然后按照这个格式

第一个人

他是左边

或者是上面的第一个

然后他的性别

年龄种族

肤色发型颜

这个头发颜色

眼睛颜色

衣服等等等等等等

嗯然后是第二个人

然后不要描述其他的东西

就是在这个部分就不要再描述场景啊

不要再描述其他东西了

然后这边是他

是这个llava模型给出来的结果

第一个人

是一个男性

然后年纪呢

是在20岁左右

可能可能不到30或者30出头

嗯是东亚人

嗯深色头发

短头发第二个人女性

也是

可能20多岁

30出头也是东亚女性

嗯浅色皮肤长头发

好这些都描绘好了

然后把这把这两个呢合并

然后再跟下面这个提示词合并

这个是我们加的这个风格提示词就

先给它加进去

然后让这个上一次我们讲的提示词

润色的这个工作流好

这边就是上次的提示词润色的工作流

让他来处理

好他这边分析了一通

然后这边先是列出来啊

有几个有几个人啊

有一个male

有一个female

然后用一个短语来描述

这边其实有点问题

我其实强调了不要用

不要用逗号来分割

你可以用and

但是他没有

他用了一个逗号

不过还好

因为我们有深度图

我们还有潜空间

所以对这个影响还不算是特别大

他这样描述也还好

好

它就来自于什么场景

因为我们这边这个下面加了

这样的一个场景风格的提示词

所以它把这个studio Ghibli就加进去了

然后接下来来基于这个开头去润色

嗯

好润色了一通

然后呢把它放到了一个

这样的一个大括号里边

方便提取好

接下来呢

就是在这个里面提取

不要加其他东西啊

这边我们用的是这个llama3:8B

好提取出来生成这样的一个提示词

啊这个

这个有点问题

他把两个分开了

他先写了一个1boy

然后又写了一个1girl

嗯

可能这边我们输入的这个

输入的这些东西太长了

然后它这个处理不如之前

不如之前处理那么好

不过还好

因为刚才讲了

有这个潜空间的图片作为参考

然后还有一张深度图作为参考

好那接下来就是来生成了

这边呢

是就是标准的一个生成的流程了

这个是载入我们的SDXL的模型

它是一个Lightning模型

只用画4步

你看是不是

只用画4步就能把这个图片给画出来

然后加上了一个这样的一个lora

嗯

这边呢是正面提示词

就是连

这边最后输出的这个提示词

我担心他会把这个

lora的触发词给弄没

然后所以呢

我又给它连在一起了

把这个又追加到了这个后面

然后把整个这个给到这个正面提示词

然后后面提示词呢

就是把不想要的东西

比如说不希望它是一张照片

不希望它是3D

不希望它是cg

然后把这些写进去

好这边加了一个controlnet

嗯这个controlnet的力度是0.9

嗯这边呢

是一个深度的

它是一个深度的controlnet

然后呢这边用的是这个嗯

depth anything的这样的一个模型

来去生成这张深度图

然后这个图片的来源呢

就是刚才缩放过之后的图片

把它放到进这边来

然后这边呃

分辨率写的是1024

然后它来生成这样的一张深度图

用这张深度图来控制这张图片的生成

好这边是这个

把这张图片进行潜空间编码

输入进来

作为潜空间

然后呢这个

嗯模型就连这个模型

模型是它先经过这样一个lora

然后从lora到这边

再到这边

嗯正面提示词呢

就是

就是经过这个正面提示词

再经过controlnet啊

到达这里

然后负面提示词呢

就直接是负面提示词

然后这边呢

是潜空间

嗯

这个Lighting model的CFG

比较低这边是3.0

然后步数呢

是4

呃降噪重绘幅度呢

就是100% 然后我们就得到了这样

这样的图片

嗯

这个效果还是可以的

然后如果我们想要其他的风格呢

其实呃

最重要的就是这几点吧

就是你要改变这个风格提示词

然后你可以更换一些checkpoint

或者是lora

比如这边

我们把风格提示词换成了2D铅笔

然后漫画粗线条

那模型呢

这边用的这个

嗯

然后这个模型

它可以直接响应那个提示词

所以我们就不用不用lora了

lora的这个东西就去掉了

然后这边为了加快这个采样步数啊

我用了一个align your steps

这个是nvidia新出的一个加速的东西

就比如说

原来需要30步采样

才能够出这样的一张图片

那么用了它之后

用10步基本上画质也没有什么损失

就能出一样的

就能出一样的图片

啊在这边我用了这个

嗯所以步数呢

就是10步

嗯它的CFG它不是一个拉伸模型

它就是一个标准的checkpoint模型

所以CFG是7

OK啊然后这个就是一个出图的效果

嗯这边的提示词呢

是90年代的动画片

看一下啊

这个模型还是这个

然后别的都没变

这个其实只是更换了提示词

因为它是一个专用的动漫模型

这边其实更换这个提示词的话

就可以画出来很多种画风啊

或者

你把这个动画片作品的名字写进去

比如说把火影忍者放进去

把进击的巨人放进去

它都在一定程度上可以响应

它就可以变成类似的那种画风

这个是一个比较好用的模型

还有提示词

我们再看这个类似于韩漫的这个风格

是怎么做的

嗯这边就说的是线条素描

然后呢这边用的是另外一个

新出的这个动漫模型

这个模型我测下来

它这个线条的风格是比较好的啊

这就是深度图

这个深度图其实它比较模糊

嗯

就是细节没有那么多

但是给这个模型

可以去发挥的空间比较大

而且它的它是一个深度信息嘛

它把这个主体啊

空间信息啊

前后的这些东西啊

这些东西规定的是比较对的

所以画出来不太容易出现奇怪的变形

什么之类的

深度图在这个风格迁移里边

是比较合适的

啊这个就是它画出来的

安排了一个类似于婚礼的

这样的一个场景

这个也挺好

这个模型也可以想一些其他提示词

这个大家可以到时候啊去试一试

去自己玩一玩

嗯最后一个呢

是嗯

3D风格的

嗯这个模型其实如果画东亚人的话

如果你特别说了是要画东亚人

他带有一点

我觉得他带有一点种族歧视

他对这个眼睛的处理啊什么之类的啊

非常非常典型的刻板印象的那种眼睛

嗯啊OK

我们我们先不说这个问题

我们就说他对这个呃画面的保留

还是就是对主体还有动作的这些保留

还是比较好的

然后至于他的风格呢

我个人不是特别喜欢他画这个

西方人就没有这些问题

好那下面这个提示词呢

就是3D风格

然后我们来看一下这个模型呢

啊这个模型是这个

叫什么samaritan3d

然后就是这样的一个模型

没有用lora啊

因为这个模型

本身就是画3D卡通的模型

然后

也是用了这个align your steps这个加速器

呃用10步来去生成这张图片

好那今天就讲到这

然后这个工作流呢

可以在这里下载

那这边呢

是只是这个吉卜力风格的

然后其他的呢

我会放到百度网盘里吧

我打包放到百度网盘里边

我把这几张图片都放进去

这些图片都是自带工作流的

然后拖到comfyui里面就可以去用啊

如果你想要参考对吧

就是可能可能自己重头搭比较麻烦

你想要直接参考

然后在这个基础上再去修改

再去修改这个提示词

然后再来换自己的风格去测试

就可以下载

百度网盘里边的这个文件包

里边的文件

那今天就到这里

如果大家还有什么想要了解的啊

想要了解其他的工作流

或者想要了解其他的一些技术

欢迎给我留言啊

这个是我的

这个是我的openart的页面

我在这边做了不少工作流了

其实刚才那个韩版的韩漫的风格

其实就就是跟这个提示词是类似的

但是它画人像的时候呢

就能画的比较黑白线条

但是用来用它来做风格迁移呢

就会彩色一些

纯粹靠提示词来控制风格

有的时候

确实没有lora

没有其他的一些方式控制那么好啊

这个地方大家可以逛一逛啊

有什么觉得好玩的想要了解的

那我们可以来展开来讲一讲

这两个也比较有意思

当你做了一个风格迁移之后

你给它加上一个动画过渡效果

其实那种类似于魔法的感觉就出来了

这个是模仿

模仿抖音上面的一个

工作流的效果

给它加了一个鸟的这样的一个过渡

就产生一些效果

其实这个是一个比较简单的

就是加了一个圆圈儿过渡

好这个是我的openart页面

然后这个里面有不少好玩的东西

大家有时间的话可以逛一逛啊

现在已经有不少的工作流了

里面都是带有

都是带有示例图片的

然后也都可以直接下载来用

没有任何保密的东西

也没有任何收费的东西

你下载下来就是整个的工作流

全部都在那

而且还比较贴心的写了一些注释

比如说像

比如说像这样

你在哪去下载这个模型

在哪去下载这个lora

然后放在什么位置

有一些写了

有一些偷懒就没写

欢迎大家在这边逛

好那我们今天就讲到这里

好结束拜拜

Click on any text or timestamp to jump to that moment in the video

Most transcripts ready in under 5 seconds

One-Click Copy125+ LanguagesSearch ContentJump to Timestamps

Paste YouTube URL

Enter any YouTube video link to get the full transcript

Most transcripts ready in under 5 seconds

Get Our Chrome Extension

Get transcripts instantly without leaving YouTube. Install our Chrome extension for one-click access to any video's transcript directly on the watch page.

Add to Chrome — Free

Works with YouTube, Coursera, Udemy and more educational platforms

Get Instant Transcripts: Just Edit the Domain in Your Address Bar!

YouTube

←

→

↻

https://www.youtube.com/watch?v=UF8uR6Z6KLc

YoutubeToText

←

→

↻

https://youtubetotext.net/watch?v=UF8uR6Z6KLc

YouTube TranscriptPreparing your results…