YouTube Transcript:
用ComfyUI玩照片转动漫 Photo 2 Anime
Skip watching entire videos - get the full transcript, search for keywords, and copy with one click.
Share:
Video Transcript
大家好我是大头 我们今天来讲一个工作流 叫photo to Anime 然后这是我新做的一个版本 它是基于ollama这个节点的 或者说这个这个服务的 就是一个在本地运行语言模型 或者说视觉模型的这样的一个服务 那么其实上面一期呢 我们讲的是 用ollama来自动优化comfyUI的关键词 好那就是这一期的内容 然后这个新的Photo to Anime呢 跟上一期内容是有一定关联的 就是我们也需要用语言模型 来自动帮我们优化提示词 当然我们多了一个步骤 就是需要用它来 去读取我们原来这个图片里面的信息 比如说,这个图片是一个古墓丽影的场景 然后里面有一个女性的主体 然后她在这样的一个环境中 我们需要把这个内容给它解读出来 然后再去在这个基础上 再去优化关键词 比如这个 这个是两个人的合影 然后呢 我们要知道这里边是一男一女 然后再给它画成这样子 好我们看一下大概的效果啊 这个是 吉卜力风格的 就是我们把这个张照片变成一个 宫崎骏动画片的这样的一个风格 那这个呢 是一个怎么说呢 一个简单的线条的这样的一个风格 原图是这样 然后变成这样子 这个是90年代动画片的风格 有点像美少女战士啊 什么什么之类的 有点像那个时代的这种风格 然后这个有点像韩漫 其实 这个提示词也是线条 线条的这种素描 但是画出来有点像韩漫 就这个模型的这个效果是这样子的 最后这个呢 是一个类似于 3D模型的3D渲染的这样的一个效果 它能够适应很多种不同的风格 你的照片 或者说照片是一个游戏截图 或者说本来就是一个卡通图片 然后呢可以把它变换成其他的风格 那我们今天就来讲讲 这个是怎么来做的 好那准备活动呢 准备工作呢 就是需要这个 今天需要这个LLaVA模型 LLaVA模型我这边用的是13B 1.6 呃 13B 1.6 好这个我今天用的是13B 1.6 q6K 11GB的这个模型 它会这边有这样的一个语句 我们去复制它 就能够自动下载 就能够自动安装了 运行的方法还是和上次一样 先打开一个命令行 然后把这个贴进去 好它就开始下载了 我们这一步比时间比较长 而且这个本地已经有了 它现在已经有了 其实它就直接启动了 它就没有显示下载的过程 好那这个我们就跳过 不聊它了 然后安装 这个Ollama的节点呢 上一次也讲过了 大家可以去到上一个视频去看 那我们现在就直接开始讲这个工作流 好这个工作流分为两大部分 那上面呢是生成提示词 就是基于这个画面 我们把整个提示词给生成出来 然后下面这部分呢 是基于提示词 然后把这个画面给重绘出来 就是生成 生成图片 那总共其实分为两个关键点 第一个关键点呢 就是保持原图中的主体和构图 我们想要做的是风格迁移 那你总得保持一点原来的东西 才能说是风格迁移 才能跟才能跟原图比较像 对吧那最重要的东西呢 就是主体 比如说里面是人 那就要保持原来的人 那比如说原来里边是一只老虎 或者一只熊猫 那主体是这样的一个动物 那我们要保持这个这个主体不变 这样才能实现一个风格上面的变化 啊所以这个是一个大的关键点 第二个关键点呢 就是替换原图的风格 就是比如原图是照片 原图是游戏 那我们给它替换成 吉卜力 或者说替换成这个韩漫 来改变它的风格 这个是两个大的关键点 那在这个这个里边呢 是有一些细节的 比如说第一点 怎么样保持这个主体和构图 首先 我们要在提示词的层面要做一些工作 就是如果完全没有提示词 只是靠controlnet 只是靠潜空间去做 那这个效果会差很多 所以呢我们需要来生成这个 原来这张照片里边的主体的 比如说名称啊 它的一些细节啊 它是人对吧 那我们就1boy 1girl 它如果是老虎那么就1Tiger 那他的性别是什么 就是而且特别要具体一点 比如左边这个人的性别是什么 右边这个人的性别是什么 然后分别的肤色是什么样的 发色是什么样的 甚至眼球的颜色 瞳孔的颜色是什么样的 那这些我们都说的越具体越好 他就能尽量的去保持 这个主体的一些主要特征 这样子的话 在迁移的时候 这个不变的因素 就能够很明显的形成一种对应的关系 第二个呢 就是深度图 如果用边缘图 比如说canny啊 或者说用其他的图 来控制这个图片的话 有的时候他控制的会过于具体 比如说他会尽可能保留原来的发型 什么之类的 没有给这个动漫去发挥的一些空间 比如说眼球的这个大小什么之类的 那用深度图我测下来是效果比较好的 哎这个深度图怎么都没显示出来呢 好先不管它啊 用深度图的效果是比较好的 深度图能够保持它的姿势 还有空间关系 谁在前谁在后 然后它和背景有多远 等等这些很重要的信息 但是呢又不会做非常具体的规定 就是里边的衣衣服啊 里边的这个发型啊什么之类的 这些都是可以变化的 眼特别是眼睛大小 这些可以给模型去发挥 所以用深度图加上controlnet 来对这个构图进行控制 这个是 比较重要的一个点 第三个呢 就是潜空间 这个其实可用可不用 我们可以把这张照片 或者说这个原始的图片 它也可能是游戏图片 给它通过 潜空间编码 通过这个VAE encode 把它给变成一个潜空间 把这个像素给转换成 stable diffusion 它能够识别的潜空间 然后把这个传进去 这个时候 我们可以控制这个降噪的这个程度 这个其实就可以 就可以看成是重绘比例 它如果是降噪0.9的话 那就是只有10%的幅度给它去 呃给给这个原来的这个图片去用 就是它保留10%的信息 然后90%都是重绘的 就是重绘的比例非常高 如果这个地方是一呢 那就是100%重绘 如果这个地方是0.5呢 那就是有有一半保留 有一半重绘啊 一般来说 在这种做风格迁移的时候 我自己建议是0.7-1 所以你可以完全重绘 但是呢 你最好不要低于70%的这个重绘比例 否则就非常像原图 非常像原来那个照片 我们这边还是给它改回0.9 这个其实是1也可以的 这个也没有问题 好这个是潜空间 这边其实为什么说不用也可以呢 因为你选择1的时候 百分百重绘的时候 其实跟没有用这个潜空间 是几乎没有区别的 但是呢要生成一个 跟这个原图尺寸一样的潜空间 还是要去用一些节点来读取它的size 比如说image size 然后把它的宽度高度取出来 再把这个宽度高度 放到生成潜空间的一个节点上面去 才能够生成 跟这个图片尺寸一样的一个潜空间 但这一步骤也是比较麻烦的 就是从节点的数量的角度来讲 其实它比用这张图片 去直接生成一个潜空间 还麻烦所以呢 我比较喜欢直接把它放到潜空间里面 去直接对它这个原图进行编码 这样的话尺寸就不用变了 然后就是第二大部分 就是第二大关键点 就是替换原图的风格 嗯这边其实也是分为三个细节 第一个呢 就是提示词 在提示词里面增加一些风格上面的词 比如说我们想要Ghibli风格对吧 那我们就在提示词里边要增加 把这个studio Ghibli写进去 然后还可以写一些别的东西 这个是这个lora的触发词 所以我也放在这边了 就是我们是通过这个提示词 来影响整个图片的风格的 嗯我们再来看一下这个是怎么写的 好 2D铅笔素描 然后粗线条 粗的漫画线条 看来这个是怎么写的 90年代动画风格 啊也是线条素描 嗯 最好的质量 3D渲染然后c4d 好 嗯 这个提示词的 这个是提示词里面写的 这个风格是非常重要的 我们是希望它来遵循我们的这个风格 然后来去绘画 那这边呢 接下来就是模型的选择了 就是如果你这个模型 能够听得懂这个提示词 你让它画一个line Sketch 它就画一个line Sketch 那就能出图 如果它听不懂呢 可能配上一些lora它也可以明白 比如说吉卜力这个 其实我就给它配了一个lora 嗯这个模型是dreamshaper 它是一个比较擅长真人的 这样的一个写实的一个模型 但是配上这个lora了之后呢 我们就可以让它出吉卜力的风格了 然后再配上这个lora的 触发词 触发词就是这个 我也不知道它为什么弄成这样的 一个字符串 然后再加上一个studio chibli 好那这个就是第二点 就是怎么样来替换它的风格 第三点呢 就是重绘幅度 这个一定要高 就刚才讲了就最好在70%以上 那100%也没有问题 重绘幅度低的话 就风格的变化就会非常有限 嗯没办法变很明显的风格 好主要就是这两个大点 然后每个点里边有三个小点 那我们再来整个过一下这个工作流 啊首先这个是输入了 就是我们输入了一张图片 然后呢 在这边做了一个对这个图片选中高亮 然后看这个白色线条 对这个图片做了一个变换 让它在100万像素左右 这个100万像素 其实是一个非常适合SDXL的 这样的一个像素 因为它的呃 绘画的训练的这个尺寸是1024x1024 它的很多出图的尺寸 其实也都是在长和宽相乘 100万像素左右 所以呢给它设定在100万像素 会非常适合他去发挥 不太容易出错 如果这个地方设的比较大 比如说设成150万 设成200万 那就很容易让这个人变成两三个头啊 或者身体被奇怪的拉长啊什么之类的 会出现一些这样的问题 所以呢这边就是给他先弄到100万 它如果太小也不行 所以不管它这个图是大是小 然后用这个节点 可以很方便的把它变成一个标准化的 100万像素的 这样的一个图片 好那接下来有了一个图片之后 我们就开始来来这个反推提示词了 嗯这边就用到了刚才的这个 我们安装的这个llava 我们把这个llava的这个模型的名字 输进去 就是这边这个 就这个 把它输进去 然后呢第一个分为两个部分吧 第一个部分呢 是让他忽略这张图片的艺术风格 然后把这个图片的场景 描绘成一个动漫场景 好 然后他就整体的来描述这个图片了 在这个图片里边 我们看到这是一个比较正式的活动 然后左边一个人穿着黑色礼服 然后那右边一个人 穿着这个浅色的礼服 背景比较简单 等等等等等等 好这样是这样的一个描述 然后接下来呢 这个提示词呢 是说如果图片里边有人的话 请告诉我有多少个人 并且呢挨个去描述他们 从左到右 从上到下 然后按照这个格式 第一个人 他是左边 或者是上面的第一个 然后他的性别 年龄种族 肤色发型颜 这个头发颜色 眼睛颜色 衣服等等等等等等 嗯然后是第二个人 然后不要描述其他的东西 就是在这个部分就不要再描述场景啊 不要再描述其他东西了 然后这边是他 是这个llava模型给出来的结果 第一个人 是一个男性 然后年纪呢 是在20岁左右 可能可能不到30或者30出头 嗯是东亚人 嗯深色头发 短头发第二个人女性 也是 可能20多岁 30出头也是东亚女性 嗯浅色皮肤长头发 好这些都描绘好了 然后把这把这两个呢合并 然后再跟下面这个提示词合并 这个是我们加的这个风格提示词就 先给它加进去 然后让这个上一次我们讲的提示词 润色的这个工作流好 这边就是上次的提示词润色的工作流 让他来处理 好他这边分析了一通 然后这边先是列出来啊 有几个有几个人啊 有一个male 有一个female 然后用一个短语来描述 这边其实有点问题 我其实强调了不要用 不要用逗号来分割 你可以用and 但是他没有 他用了一个逗号 不过还好 因为我们有深度图 我们还有潜空间 所以对这个影响还不算是特别大 他这样描述也还好 好 它就来自于什么场景 因为我们这边这个下面加了 这样的一个场景风格的提示词 所以它把这个studio Ghibli就加进去了 然后接下来来基于这个开头去润色 嗯 好润色了一通 然后呢把它放到了一个 这样的一个大括号里边 方便提取好 接下来呢 就是在这个里面提取 不要加其他东西啊 这边我们用的是这个llama3:8B 好提取出来生成这样的一个提示词 啊这个 这个有点问题 他把两个分开了 他先写了一个1boy 然后又写了一个1girl 嗯 可能这边我们输入的这个 输入的这些东西太长了 然后它这个处理不如之前 不如之前处理那么好 不过还好 因为刚才讲了 有这个潜空间的图片作为参考 然后还有一张深度图作为参考 好那接下来就是来生成了 这边呢 是就是标准的一个生成的流程了 这个是载入我们的SDXL的模型 它是一个Lightning模型 只用画4步 你看是不是 只用画4步就能把这个图片给画出来 然后加上了一个这样的一个lora 嗯 这边呢是正面提示词 就是连 这边最后输出的这个提示词 我担心他会把这个 lora的触发词给弄没 然后所以呢 我又给它连在一起了 把这个又追加到了这个后面 然后把整个这个给到这个正面提示词 然后后面提示词呢 就是把不想要的东西 比如说不希望它是一张照片 不希望它是3D 不希望它是cg 然后把这些写进去 好这边加了一个controlnet 嗯这个controlnet的力度是0.9 嗯这边呢 是一个深度的 它是一个深度的controlnet 然后呢这边用的是这个嗯 depth anything的这样的一个模型 来去生成这张深度图 然后这个图片的来源呢 就是刚才缩放过之后的图片 把它放到进这边来 然后这边呃 分辨率写的是1024 然后它来生成这样的一张深度图 用这张深度图来控制这张图片的生成 好这边是这个 把这张图片进行潜空间编码 输入进来 作为潜空间 然后呢这个 嗯模型就连这个模型 模型是它先经过这样一个lora 然后从lora到这边 再到这边 嗯正面提示词呢 就是 就是经过这个正面提示词 再经过controlnet啊 到达这里 然后负面提示词呢 就直接是负面提示词 然后这边呢 是潜空间 嗯 这个Lighting model的CFG 比较低这边是3.0 然后步数呢 是4 呃降噪重绘幅度呢 就是100% 然后我们就得到了这样 这样的图片 嗯 这个效果还是可以的 然后如果我们想要其他的风格呢 其实呃 最重要的就是这几点吧 就是你要改变这个风格提示词 然后你可以更换一些checkpoint 或者是lora 比如这边 我们把风格提示词换成了2D铅笔 然后漫画粗线条 那模型呢 这边用的这个 嗯 然后这个模型 它可以直接响应那个提示词 所以我们就不用不用lora了 lora的这个东西就去掉了 然后这边为了加快这个采样步数啊 我用了一个align your steps 这个是nvidia新出的一个加速的东西 就比如说 原来需要30步采样 才能够出这样的一张图片 那么用了它之后 用10步基本上画质也没有什么损失 就能出一样的 就能出一样的图片 啊在这边我用了这个 嗯所以步数呢 就是10步 嗯它的CFG它不是一个拉伸模型 它就是一个标准的checkpoint模型 所以CFG是7 OK啊然后这个就是一个出图的效果 嗯这边的提示词呢 是90年代的动画片 看一下啊 这个模型还是这个 然后别的都没变 这个其实只是更换了提示词 因为它是一个专用的动漫模型 这边其实更换这个提示词的话 就可以画出来很多种画风啊 或者 你把这个动画片作品的名字写进去 比如说把火影忍者放进去 把进击的巨人放进去 它都在一定程度上可以响应 它就可以变成类似的那种画风 这个是一个比较好用的模型 还有提示词 我们再看这个类似于韩漫的这个风格 是怎么做的 嗯这边就说的是线条素描 然后呢这边用的是另外一个 新出的这个动漫模型 这个模型我测下来 它这个线条的风格是比较好的啊 这就是深度图 这个深度图其实它比较模糊 嗯 就是细节没有那么多 但是给这个模型 可以去发挥的空间比较大 而且它的它是一个深度信息嘛 它把这个主体啊 空间信息啊 前后的这些东西啊 这些东西规定的是比较对的 所以画出来不太容易出现奇怪的变形 什么之类的 深度图在这个风格迁移里边 是比较合适的 啊这个就是它画出来的 安排了一个类似于婚礼的 这样的一个场景 这个也挺好 这个模型也可以想一些其他提示词 这个大家可以到时候啊去试一试 去自己玩一玩 嗯最后一个呢 是嗯 3D风格的 嗯这个模型其实如果画东亚人的话 如果你特别说了是要画东亚人 他带有一点 我觉得他带有一点种族歧视 他对这个眼睛的处理啊什么之类的啊 非常非常典型的刻板印象的那种眼睛 嗯啊OK 我们我们先不说这个问题 我们就说他对这个呃画面的保留 还是就是对主体还有动作的这些保留 还是比较好的 然后至于他的风格呢 我个人不是特别喜欢他画这个 西方人就没有这些问题 好那下面这个提示词呢 就是3D风格 然后我们来看一下这个模型呢 啊这个模型是这个 叫什么samaritan3d 然后就是这样的一个模型 没有用lora啊 因为这个模型 本身就是画3D卡通的模型 然后 也是用了这个align your steps这个加速器 呃用10步来去生成这张图片 好那今天就讲到这 然后这个工作流呢 可以在这里下载 那这边呢 是只是这个吉卜力风格的 然后其他的呢 我会放到百度网盘里吧 我打包放到百度网盘里边 我把这几张图片都放进去 这些图片都是自带工作流的 然后拖到comfyui里面就可以去用啊 如果你想要参考对吧 就是可能可能自己重头搭比较麻烦 你想要直接参考 然后在这个基础上再去修改 再去修改这个提示词 然后再来换自己的风格去测试 就可以下载 百度网盘里边的这个文件包 里边的文件 那今天就到这里 如果大家还有什么想要了解的啊 想要了解其他的工作流 或者想要了解其他的一些技术 欢迎给我留言啊 这个是我的 这个是我的openart的页面 我在这边做了不少工作流了 其实刚才那个韩版的韩漫的风格 其实就就是跟这个提示词是类似的 但是它画人像的时候呢 就能画的比较黑白线条 但是用来用它来做风格迁移呢 就会彩色一些 纯粹靠提示词来控制风格 有的时候 确实没有lora 没有其他的一些方式控制那么好啊 这个地方大家可以逛一逛啊 有什么觉得好玩的想要了解的 那我们可以来展开来讲一讲 这两个也比较有意思 当你做了一个风格迁移之后 你给它加上一个动画过渡效果 其实那种类似于魔法的感觉就出来了 这个是模仿 模仿抖音上面的一个 工作流的效果 给它加了一个鸟的这样的一个过渡 就产生一些效果 其实这个是一个比较简单的 就是加了一个圆圈儿过渡 好这个是我的openart页面 然后这个里面有不少好玩的东西 大家有时间的话可以逛一逛啊 现在已经有不少的工作流了 里面都是带有 都是带有示例图片的 然后也都可以直接下载来用 没有任何保密的东西 也没有任何收费的东西 你下载下来就是整个的工作流 全部都在那 而且还比较贴心的写了一些注释 比如说像 比如说像这样 你在哪去下载这个模型 在哪去下载这个lora 然后放在什么位置 有一些写了 有一些偷懒就没写 欢迎大家在这边逛 好那我们今天就讲到这里 好结束拜拜
Share:
Paste YouTube URL
Enter any YouTube video link to get the full transcript
Transcript Extraction Form
How It Works
Copy YouTube Link
Grab any YouTube video URL from your browser
Paste & Extract
Paste the URL and we'll fetch the transcript
Use the Text
Search, copy, or save the transcript
Why you need YouTube Transcript?
Extract value from videos without watching every second - save time and work smarter
YouTube videos contain valuable information for learning and entertainment, but watching entire videos is time-consuming. This transcript tool helps you quickly access, search, and repurpose video content in text format.
For Note Takers
- Copy text directly into your study notes
- Get podcast transcripts for better retention
- Translate content to your native language
For Content Creators
- Create blog posts from video content
- Extract quotes for social media posts
- Add SEO-rich descriptions to videos
With AI Tools
- Generate concise summaries instantly
- Create quiz questions from content
- Extract key information automatically
Creative Ways to Use YouTube Transcripts
For Learning & Research
- Generate study guides from educational videos
- Extract key points from lectures and tutorials
- Ask AI tools specific questions about video content
For Content Creation
- Create engaging infographics from video content
- Extract quotes for newsletters and email campaigns
- Create shareable memes using memorable quotes
Power Up with AI Integration
Combine YouTube transcripts with AI tools like ChatGPT for powerful content analysis and creation:
Frequently Asked Questions
Is this tool really free?
Yes! YouTubeToText is completely free. No hidden fees, no registration needed, and no credit card required.
Can I translate the transcript to other languages?
Absolutely! You can translate subtitles to over 125 languages. After generating the transcript, simply select your desired language from the options.
Is there a limit to video length?
Nope, you can transcribe videos of any length - from short clips to multi-hour lectures.
How do I use the transcript with AI tools?
Simply use the one-click copy button to copy the transcript, then paste it into ChatGPT or your favorite AI tool. Ask the AI to summarize content, extract key points, or create notes.
Timestamp Navigation
Soon you'll be able to click any part of the transcript to jump to that exact moment in the video.
Have a feature suggestion? Let me know!Get Our Chrome Extension
Get transcripts instantly without leaving YouTube. Install our Chrome extension for one-click access to any video's transcript directly on the watch page.