YouTube Transcript:
用ComfyUI玩照片转动漫 Photo 2 Anime
Skip watching entire videos - get the full transcript, search for keywords, and copy with one click.
Share:
Video Transcript
View:
大家好我是大头
我们今天来讲一个工作流
叫photo to Anime
然后这是我新做的一个版本
它是基于ollama这个节点的
或者说这个这个服务的
就是一个在本地运行语言模型
或者说视觉模型的这样的一个服务
那么其实上面一期呢
我们讲的是
用ollama来自动优化comfyUI的关键词
好那就是这一期的内容
然后这个新的Photo to Anime呢
跟上一期内容是有一定关联的
就是我们也需要用语言模型
来自动帮我们优化提示词
当然我们多了一个步骤
就是需要用它来
去读取我们原来这个图片里面的信息
比如说,这个图片是一个古墓丽影的场景
然后里面有一个女性的主体
然后她在这样的一个环境中
我们需要把这个内容给它解读出来
然后再去在这个基础上
再去优化关键词
比如这个
这个是两个人的合影
然后呢
我们要知道这里边是一男一女
然后再给它画成这样子
好我们看一下大概的效果啊
这个是
吉卜力风格的
就是我们把这个张照片变成一个
宫崎骏动画片的这样的一个风格
那这个呢
是一个怎么说呢
一个简单的线条的这样的一个风格
原图是这样
然后变成这样子
这个是90年代动画片的风格
有点像美少女战士啊
什么什么之类的
有点像那个时代的这种风格
然后这个有点像韩漫
其实
这个提示词也是线条
线条的这种素描
但是画出来有点像韩漫
就这个模型的这个效果是这样子的
最后这个呢
是一个类似于
3D模型的3D渲染的这样的一个效果
它能够适应很多种不同的风格
你的照片
或者说照片是一个游戏截图
或者说本来就是一个卡通图片
然后呢可以把它变换成其他的风格
那我们今天就来讲讲
这个是怎么来做的
好那准备活动呢
准备工作呢
就是需要这个
今天需要这个LLaVA模型
LLaVA模型我这边用的是13B 1.6
呃 13B 1.6
好这个我今天用的是13B
1.6 q6K 11GB的这个模型
它会这边有这样的一个语句
我们去复制它
就能够自动下载
就能够自动安装了
运行的方法还是和上次一样
先打开一个命令行
然后把这个贴进去
好它就开始下载了
我们这一步比时间比较长
而且这个本地已经有了
它现在已经有了
其实它就直接启动了
它就没有显示下载的过程
好那这个我们就跳过
不聊它了
然后安装
这个Ollama的节点呢
上一次也讲过了
大家可以去到上一个视频去看
那我们现在就直接开始讲这个工作流
好这个工作流分为两大部分
那上面呢是生成提示词
就是基于这个画面
我们把整个提示词给生成出来
然后下面这部分呢
是基于提示词
然后把这个画面给重绘出来
就是生成
生成图片
那总共其实分为两个关键点
第一个关键点呢
就是保持原图中的主体和构图
我们想要做的是风格迁移
那你总得保持一点原来的东西
才能说是风格迁移
才能跟才能跟原图比较像
对吧那最重要的东西呢
就是主体
比如说里面是人
那就要保持原来的人
那比如说原来里边是一只老虎
或者一只熊猫
那主体是这样的一个动物
那我们要保持这个这个主体不变
这样才能实现一个风格上面的变化
啊所以这个是一个大的关键点
第二个关键点呢
就是替换原图的风格
就是比如原图是照片
原图是游戏
那我们给它替换成
吉卜力
或者说替换成这个韩漫
来改变它的风格
这个是两个大的关键点
那在这个这个里边呢
是有一些细节的
比如说第一点
怎么样保持这个主体和构图
首先
我们要在提示词的层面要做一些工作
就是如果完全没有提示词
只是靠controlnet
只是靠潜空间去做
那这个效果会差很多
所以呢我们需要来生成这个
原来这张照片里边的主体的
比如说名称啊
它的一些细节啊
它是人对吧
那我们就1boy 1girl
它如果是老虎那么就1Tiger
那他的性别是什么
就是而且特别要具体一点
比如左边这个人的性别是什么
右边这个人的性别是什么
然后分别的肤色是什么样的
发色是什么样的
甚至眼球的颜色
瞳孔的颜色是什么样的
那这些我们都说的越具体越好
他就能尽量的去保持
这个主体的一些主要特征
这样子的话
在迁移的时候
这个不变的因素
就能够很明显的形成一种对应的关系
第二个呢
就是深度图
如果用边缘图
比如说canny啊
或者说用其他的图
来控制这个图片的话
有的时候他控制的会过于具体
比如说他会尽可能保留原来的发型
什么之类的
没有给这个动漫去发挥的一些空间
比如说眼球的这个大小什么之类的
那用深度图我测下来是效果比较好的
哎这个深度图怎么都没显示出来呢
好先不管它啊
用深度图的效果是比较好的
深度图能够保持它的姿势
还有空间关系
谁在前谁在后
然后它和背景有多远
等等这些很重要的信息
但是呢又不会做非常具体的规定
就是里边的衣衣服啊
里边的这个发型啊什么之类的
这些都是可以变化的
眼特别是眼睛大小
这些可以给模型去发挥
所以用深度图加上controlnet
来对这个构图进行控制
这个是
比较重要的一个点
第三个呢
就是潜空间
这个其实可用可不用
我们可以把这张照片
或者说这个原始的图片
它也可能是游戏图片
给它通过
潜空间编码
通过这个VAE encode
把它给变成一个潜空间
把这个像素给转换成
stable diffusion
它能够识别的潜空间
然后把这个传进去
这个时候
我们可以控制这个降噪的这个程度
这个其实就可以
就可以看成是重绘比例
它如果是降噪0.9的话
那就是只有10%的幅度给它去
呃给给这个原来的这个图片去用
就是它保留10%的信息
然后90%都是重绘的
就是重绘的比例非常高
如果这个地方是一呢
那就是100%重绘
如果这个地方是0.5呢
那就是有有一半保留
有一半重绘啊
一般来说
在这种做风格迁移的时候
我自己建议是0.7-1
所以你可以完全重绘
但是呢
你最好不要低于70%的这个重绘比例
否则就非常像原图
非常像原来那个照片
我们这边还是给它改回0.9
这个其实是1也可以的
这个也没有问题
好这个是潜空间
这边其实为什么说不用也可以呢
因为你选择1的时候
百分百重绘的时候
其实跟没有用这个潜空间
是几乎没有区别的
但是呢要生成一个
跟这个原图尺寸一样的潜空间
还是要去用一些节点来读取它的size
比如说image size
然后把它的宽度高度取出来
再把这个宽度高度
放到生成潜空间的一个节点上面去
才能够生成
跟这个图片尺寸一样的一个潜空间
但这一步骤也是比较麻烦的
就是从节点的数量的角度来讲
其实它比用这张图片
去直接生成一个潜空间
还麻烦所以呢
我比较喜欢直接把它放到潜空间里面
去直接对它这个原图进行编码
这样的话尺寸就不用变了
然后就是第二大部分
就是第二大关键点
就是替换原图的风格
嗯这边其实也是分为三个细节
第一个呢
就是提示词
在提示词里面增加一些风格上面的词
比如说我们想要Ghibli风格对吧
那我们就在提示词里边要增加
把这个studio Ghibli写进去
然后还可以写一些别的东西
这个是这个lora的触发词
所以我也放在这边了
就是我们是通过这个提示词
来影响整个图片的风格的
嗯我们再来看一下这个是怎么写的
好 2D铅笔素描
然后粗线条
粗的漫画线条
看来这个是怎么写的
90年代动画风格
啊也是线条素描
嗯
最好的质量
3D渲染然后c4d
好
嗯
这个提示词的
这个是提示词里面写的
这个风格是非常重要的
我们是希望它来遵循我们的这个风格
然后来去绘画
那这边呢
接下来就是模型的选择了
就是如果你这个模型
能够听得懂这个提示词
你让它画一个line Sketch
它就画一个line Sketch
那就能出图
如果它听不懂呢
可能配上一些lora它也可以明白
比如说吉卜力这个
其实我就给它配了一个lora
嗯这个模型是dreamshaper
它是一个比较擅长真人的
这样的一个写实的一个模型
但是配上这个lora了之后呢
我们就可以让它出吉卜力的风格了
然后再配上这个lora的
触发词
触发词就是这个
我也不知道它为什么弄成这样的
一个字符串
然后再加上一个studio chibli
好那这个就是第二点
就是怎么样来替换它的风格
第三点呢
就是重绘幅度
这个一定要高
就刚才讲了就最好在70%以上
那100%也没有问题
重绘幅度低的话
就风格的变化就会非常有限
嗯没办法变很明显的风格
好主要就是这两个大点
然后每个点里边有三个小点
那我们再来整个过一下这个工作流
啊首先这个是输入了
就是我们输入了一张图片
然后呢
在这边做了一个对这个图片选中高亮
然后看这个白色线条
对这个图片做了一个变换
让它在100万像素左右
这个100万像素
其实是一个非常适合SDXL的
这样的一个像素
因为它的呃
绘画的训练的这个尺寸是1024x1024
它的很多出图的尺寸
其实也都是在长和宽相乘
100万像素左右
所以呢给它设定在100万像素
会非常适合他去发挥
不太容易出错
如果这个地方设的比较大
比如说设成150万
设成200万
那就很容易让这个人变成两三个头啊
或者身体被奇怪的拉长啊什么之类的
会出现一些这样的问题
所以呢这边就是给他先弄到100万
它如果太小也不行
所以不管它这个图是大是小
然后用这个节点
可以很方便的把它变成一个标准化的
100万像素的
这样的一个图片
好那接下来有了一个图片之后
我们就开始来来这个反推提示词了
嗯这边就用到了刚才的这个
我们安装的这个llava
我们把这个llava的这个模型的名字
输进去
就是这边这个
就这个
把它输进去
然后呢第一个分为两个部分吧
第一个部分呢
是让他忽略这张图片的艺术风格
然后把这个图片的场景
描绘成一个动漫场景
好
然后他就整体的来描述这个图片了
在这个图片里边
我们看到这是一个比较正式的活动
然后左边一个人穿着黑色礼服
然后那右边一个人
穿着这个浅色的礼服
背景比较简单
等等等等等等
好这样是这样的一个描述
然后接下来呢
这个提示词呢
是说如果图片里边有人的话
请告诉我有多少个人
并且呢挨个去描述他们
从左到右
从上到下
然后按照这个格式
第一个人
他是左边
或者是上面的第一个
然后他的性别
年龄种族
肤色发型颜
这个头发颜色
眼睛颜色
衣服等等等等等等
嗯然后是第二个人
然后不要描述其他的东西
就是在这个部分就不要再描述场景啊
不要再描述其他东西了
然后这边是他
是这个llava模型给出来的结果
第一个人
是一个男性
然后年纪呢
是在20岁左右
可能可能不到30或者30出头
嗯是东亚人
嗯深色头发
短头发第二个人女性
也是
可能20多岁
30出头也是东亚女性
嗯浅色皮肤长头发
好这些都描绘好了
然后把这把这两个呢合并
然后再跟下面这个提示词合并
这个是我们加的这个风格提示词就
先给它加进去
然后让这个上一次我们讲的提示词
润色的这个工作流好
这边就是上次的提示词润色的工作流
让他来处理
好他这边分析了一通
然后这边先是列出来啊
有几个有几个人啊
有一个male
有一个female
然后用一个短语来描述
这边其实有点问题
我其实强调了不要用
不要用逗号来分割
你可以用and
但是他没有
他用了一个逗号
不过还好
因为我们有深度图
我们还有潜空间
所以对这个影响还不算是特别大
他这样描述也还好
好
它就来自于什么场景
因为我们这边这个下面加了
这样的一个场景风格的提示词
所以它把这个studio Ghibli就加进去了
然后接下来来基于这个开头去润色
嗯
好润色了一通
然后呢把它放到了一个
这样的一个大括号里边
方便提取好
接下来呢
就是在这个里面提取
不要加其他东西啊
这边我们用的是这个llama3:8B
好提取出来生成这样的一个提示词
啊这个
这个有点问题
他把两个分开了
他先写了一个1boy
然后又写了一个1girl
嗯
可能这边我们输入的这个
输入的这些东西太长了
然后它这个处理不如之前
不如之前处理那么好
不过还好
因为刚才讲了
有这个潜空间的图片作为参考
然后还有一张深度图作为参考
好那接下来就是来生成了
这边呢
是就是标准的一个生成的流程了
这个是载入我们的SDXL的模型
它是一个Lightning模型
只用画4步
你看是不是
只用画4步就能把这个图片给画出来
然后加上了一个这样的一个lora
嗯
这边呢是正面提示词
就是连
这边最后输出的这个提示词
我担心他会把这个
lora的触发词给弄没
然后所以呢
我又给它连在一起了
把这个又追加到了这个后面
然后把整个这个给到这个正面提示词
然后后面提示词呢
就是把不想要的东西
比如说不希望它是一张照片
不希望它是3D
不希望它是cg
然后把这些写进去
好这边加了一个controlnet
嗯这个controlnet的力度是0.9
嗯这边呢
是一个深度的
它是一个深度的controlnet
然后呢这边用的是这个嗯
depth anything的这样的一个模型
来去生成这张深度图
然后这个图片的来源呢
就是刚才缩放过之后的图片
把它放到进这边来
然后这边呃
分辨率写的是1024
然后它来生成这样的一张深度图
用这张深度图来控制这张图片的生成
好这边是这个
把这张图片进行潜空间编码
输入进来
作为潜空间
然后呢这个
嗯模型就连这个模型
模型是它先经过这样一个lora
然后从lora到这边
再到这边
嗯正面提示词呢
就是
就是经过这个正面提示词
再经过controlnet啊
到达这里
然后负面提示词呢
就直接是负面提示词
然后这边呢
是潜空间
嗯
这个Lighting model的CFG
比较低这边是3.0
然后步数呢
是4
呃降噪重绘幅度呢
就是100% 然后我们就得到了这样
这样的图片
嗯
这个效果还是可以的
然后如果我们想要其他的风格呢
其实呃
最重要的就是这几点吧
就是你要改变这个风格提示词
然后你可以更换一些checkpoint
或者是lora
比如这边
我们把风格提示词换成了2D铅笔
然后漫画粗线条
那模型呢
这边用的这个
嗯
然后这个模型
它可以直接响应那个提示词
所以我们就不用不用lora了
lora的这个东西就去掉了
然后这边为了加快这个采样步数啊
我用了一个align your steps
这个是nvidia新出的一个加速的东西
就比如说
原来需要30步采样
才能够出这样的一张图片
那么用了它之后
用10步基本上画质也没有什么损失
就能出一样的
就能出一样的图片
啊在这边我用了这个
嗯所以步数呢
就是10步
嗯它的CFG它不是一个拉伸模型
它就是一个标准的checkpoint模型
所以CFG是7
OK啊然后这个就是一个出图的效果
嗯这边的提示词呢
是90年代的动画片
看一下啊
这个模型还是这个
然后别的都没变
这个其实只是更换了提示词
因为它是一个专用的动漫模型
这边其实更换这个提示词的话
就可以画出来很多种画风啊
或者
你把这个动画片作品的名字写进去
比如说把火影忍者放进去
把进击的巨人放进去
它都在一定程度上可以响应
它就可以变成类似的那种画风
这个是一个比较好用的模型
还有提示词
我们再看这个类似于韩漫的这个风格
是怎么做的
嗯这边就说的是线条素描
然后呢这边用的是另外一个
新出的这个动漫模型
这个模型我测下来
它这个线条的风格是比较好的啊
这就是深度图
这个深度图其实它比较模糊
嗯
就是细节没有那么多
但是给这个模型
可以去发挥的空间比较大
而且它的它是一个深度信息嘛
它把这个主体啊
空间信息啊
前后的这些东西啊
这些东西规定的是比较对的
所以画出来不太容易出现奇怪的变形
什么之类的
深度图在这个风格迁移里边
是比较合适的
啊这个就是它画出来的
安排了一个类似于婚礼的
这样的一个场景
这个也挺好
这个模型也可以想一些其他提示词
这个大家可以到时候啊去试一试
去自己玩一玩
嗯最后一个呢
是嗯
3D风格的
嗯这个模型其实如果画东亚人的话
如果你特别说了是要画东亚人
他带有一点
我觉得他带有一点种族歧视
他对这个眼睛的处理啊什么之类的啊
非常非常典型的刻板印象的那种眼睛
嗯啊OK
我们我们先不说这个问题
我们就说他对这个呃画面的保留
还是就是对主体还有动作的这些保留
还是比较好的
然后至于他的风格呢
我个人不是特别喜欢他画这个
西方人就没有这些问题
好那下面这个提示词呢
就是3D风格
然后我们来看一下这个模型呢
啊这个模型是这个
叫什么samaritan3d
然后就是这样的一个模型
没有用lora啊
因为这个模型
本身就是画3D卡通的模型
然后
也是用了这个align your steps这个加速器
呃用10步来去生成这张图片
好那今天就讲到这
然后这个工作流呢
可以在这里下载
那这边呢
是只是这个吉卜力风格的
然后其他的呢
我会放到百度网盘里吧
我打包放到百度网盘里边
我把这几张图片都放进去
这些图片都是自带工作流的
然后拖到comfyui里面就可以去用啊
如果你想要参考对吧
就是可能可能自己重头搭比较麻烦
你想要直接参考
然后在这个基础上再去修改
再去修改这个提示词
然后再来换自己的风格去测试
就可以下载
百度网盘里边的这个文件包
里边的文件
那今天就到这里
如果大家还有什么想要了解的啊
想要了解其他的工作流
或者想要了解其他的一些技术
欢迎给我留言啊
这个是我的
这个是我的openart的页面
我在这边做了不少工作流了
其实刚才那个韩版的韩漫的风格
其实就就是跟这个提示词是类似的
但是它画人像的时候呢
就能画的比较黑白线条
但是用来用它来做风格迁移呢
就会彩色一些
纯粹靠提示词来控制风格
有的时候
确实没有lora
没有其他的一些方式控制那么好啊
这个地方大家可以逛一逛啊
有什么觉得好玩的想要了解的
那我们可以来展开来讲一讲
这两个也比较有意思
当你做了一个风格迁移之后
你给它加上一个动画过渡效果
其实那种类似于魔法的感觉就出来了
这个是模仿
模仿抖音上面的一个
工作流的效果
给它加了一个鸟的这样的一个过渡
就产生一些效果
其实这个是一个比较简单的
就是加了一个圆圈儿过渡
好这个是我的openart页面
然后这个里面有不少好玩的东西
大家有时间的话可以逛一逛啊
现在已经有不少的工作流了
里面都是带有
都是带有示例图片的
然后也都可以直接下载来用
没有任何保密的东西
也没有任何收费的东西
你下载下来就是整个的工作流
全部都在那
而且还比较贴心的写了一些注释
比如说像
比如说像这样
你在哪去下载这个模型
在哪去下载这个lora
然后放在什么位置
有一些写了
有一些偷懒就没写
欢迎大家在这边逛
好那我们今天就讲到这里
好结束拜拜
Click on any text or timestamp to jump to that moment in the video
Share:
Most transcripts ready in under 5 seconds
One-Click Copy125+ LanguagesSearch ContentJump to Timestamps
Paste YouTube URL
Enter any YouTube video link to get the full transcript
Transcript Extraction Form
Most transcripts ready in under 5 seconds
Get Our Chrome Extension
Get transcripts instantly without leaving YouTube. Install our Chrome extension for one-click access to any video's transcript directly on the watch page.
Works with YouTube, Coursera, Udemy and more educational platforms
Get Instant Transcripts: Just Edit the Domain in Your Address Bar!
YouTube
←
→
↻
https://www.youtube.com/watch?v=UF8uR6Z6KLc
YoutubeToText
←
→
↻
https://youtubetotext.net/watch?v=UF8uR6Z6KLc