AIGC|图像生成领域,Prompt的七个缺陷

上海/UX设计师/1年前/78浏览
AIGC|图像生成领域,Prompt的七个缺陷
Prompt
是向AI模型传递指令的核心形式,随着AI绘画从艺术领域向设计领域深入,创作诉求趋于严谨、精确,Prompt作为创作意图的重要载体,一些缺陷日益凸显,对生成结果的可控性、可用性有很大影响。
01
1.写作技能
创作者要将大脑中构思的画面通过文字表达出来,画面是
三维的、立体的
,而文字却是
一维的、线性的
,对于较为复杂的创作意图,这个转化过程极具挑战性、技巧性,依赖反复书写带来的经验累积或是专门的学习。
AIGC|图像生成领域,Prompt的七个缺陷
2.文本特性
同一组用词,同一句话,受到语境、文化、群体共识等客观因素的影响,可能存在多重含义,面对
文本的多义性
,模型理解很容易发生偏差,生成内容无法切中创作者的真实意图。而创作者要基于错误反馈不断对导致歧义的内容进行替换、校正。
AIGC|图像生成领域,Prompt的七个缺陷
3.字数限制
尽管多一些描述可以给模型更多细节,但当前AI模型对字数始终存在一个模糊的
理解“上限”
,超过“上限”后的内容,要么理解错乱,要么直接无视,所以创作平台往往对Prompt字数加以限制,这就导致更多的创意想法无法被完整表达。
AIGC|图像生成领域,Prompt的七个缺陷
4.规则格式
相比口语化表达,模板化的描述指令更容易被模型理解而且更稳定,具有长期创作需求的创作者,需要学习并熟练掌握
基于技术逻辑反推出的的指令公式
(如:画面主体+场景+细节+风格修饰),还有控制各类权重的
命令参数
(如:-seed;-chaos;-::;—iw等)。
AIGC|图像生成领域,Prompt的七个缺陷
5.作用关系
对于不是描述主体的指令,往往难以判断它是否已对画面产生影响,因此我们看到“绝美、完美、超美”、“大师画质、超高画质、顶级画质”经常出现在一条Prompt中,
冗余甚至相互对立
。如需调整,则要通过删A留B,删B留A的方式
反复比对
来定位修改点。
AIGC|图像生成领域,Prompt的七个缺陷
6.细节控制
尤其是设计师的创作场景,对形式、位置、比例、层次、关系等要素的处理更加专业严谨,文字型指令可以做到但书写成本极高,用户能否写出“画面偏左四分之三居中位置,一条高一百像素的金鱼”?模型又能否对此精准执行?目前看,依靠Prompt进行精细化控制并不现实。
AIGC|图像生成领域,Prompt的七个缺陷
7.生成预期
除使用“创作相似”外,创作者生成前对生成结果不可预测,生成过程又类似于黑箱,所以大家往往先生成几张,看看什么效果,找到符合预期的那张再继续深入。这个交互关系中最大的问题在于反馈的
高延迟
,造成了过高的
尝试成本
AIGC|图像生成领域,Prompt的七个缺陷
Prompt的这些特点或问题,让人不得不想起PC系统早期的
DOS命令行界面
:需要掌握语言范式、缺乏提示反馈、没有快捷操作、不直观等问题,让很多计算机初学者望而却步。
AIGC|图像生成领域,Prompt的七个缺陷
02
以上为输入环节,而在模型一侧,Prompt的解码过程又会丢失一部分信息,使得创作者大量意图指令无法精准、有效的传递给生成模型,最终得到一个错误的或是可用性较低的生成结果,人们感到挫败并对技术能力产生质疑,其实,生成模型的能力往往由于语义理解的限制,并没有得到充分发挥。
如果经常使用AI绘画平台,可能对这些Prompt功能并不陌生:
一键复制、创作相似、灵感推荐、智能补全、咒语大全、咒语生成器、创作手册、词包、撰写教程
等等。这些功能在一定程度上降低了Prompt的撰写成本,尤其针对体验型、尝鲜型的用户,创作效率和质量均有提升,但对带有明确应用场景的设计师群体来说,上述问题依然存在。
03
那Prompt指令的问题如何解决?又如何让操作体验真正做到“平民化”呢?
显然技术侧的进展更快,涂抹、叠加、扩展等二次编辑能力,以Lora为代表的微调模型,还有Controlnet技术,支持边缘检测、草图处理、姿势识别等前沿黑科技,都在试图
融合更多其他模态的意图信息
,与Prompt形成互补,让生成结果更加精准可控。
说回体验层面,以Prompt为核心的创作范式可能并非终极形态,这方面的探索尚未达成共识。我想,在PC时代,
图形用户界面
基于出色的交互体验,快速“取代”了DOS命令行一直影响至今,即使进入AIGC时代,答案也许仍在其中。
0
Report
|
1
Share
评论
in to comment
Add emoji
喜欢TA的作品吗?喜欢就快来夸夸TA吧!
Log in