2022 年 8 月游戏设计师 Jason Allen 参加数位艺术比赛,作品《Theatre d′opera Spatial》夺冠,赛後却引起争议。其他参赛者发现这是「人类一败涂地」的比赛,当他们只将 Adobe 全家方案视为数位艺术画笔,冠军已靠 AI 工具 Midjourney 傲视群雄。
Jason Allen 没有偷懒,也没有隐瞒他是用 AI 的事实。他花几周时间修改打光、视角、构图等提示词(prompt),产生 900 多幅作品,还用 Photoshop 後制。或许无法称他为画家,但他担得起这名号:提示工程师(prompt engineer)。
不经意间 Jason Allen 成了预言家。等到 ChatGPT 横空出世,提示工程师更声名大噪,成了科技业现在最热门的职业。
赛博庞克导师,专业陪聊
Prompt 原意是「提示」或「驱使」,机器学习和自然语言处理通常是文本或语言,输入训练好的 AI 模型,告诉模型要执行什麽任务或产生输出。叫 ChatGPT 写鱼贩小说,请 DALL‧E 画太空人骑马的写实作品,都要输入 prompt(提示词)。如果提示词不够贴切,效果当然平平无奇,就像采访名人却无法问好问题。
同事小黄想用 Midjourney 画食物,但让食物排列整齐这件事很难。他尝试很多句子:东西整齐放在桌子上、镜头从上往下拍、数量多少……後来看到有人分享,小黄才发现这种风格有专有名词「knolling」,马上豁然开朗:
▲ 这风格就叫 knolling。
提示工程师吃的就是这口饭:找到正确的提示词,用 AI 生产想要的作品,但这能力并非与生俱来,同样需不断试错。设计师 Justin Reckling 擅长找 DALL‧E 提示词,但也常需要花等於 10~15 美元的积分,才能试出理想提示词,然後再卖掉 5~10 个提示词,才能打平支出。
▲ Justin Reckling 的作品。
不过 Reckling 也没想靠这赚大钱,而是享受熟能生巧的过程,他的心得是,提示工程师需要熟悉「超写实」、「微距摄影」、「电影照明」、「远景」等术语,才能控制画面。所以优秀提示工程师应该文理兼通,技术和设计最好都懂一点。
提示工程师只是不断调整提示词,确定哪些词更有用吗?不完全是,他们也同时挖掘 AI 能力,让它完成更多任务,如有些提示工程师会引导 AI「一步步思考」,这种技巧称为思考链。
去年 10 月提示工程师 Riley Goodside 先询问 GPT-3「哪支球队在小贾斯汀出生那年赢得超级盃?」GPT-3 回答错误「绿湾包装工队」,正确答案是达拉斯牛仔队。Goodside 没有放弃,提示 AI 逐步回答问题,如「绿湾包装工队哪一年赢得超级盃」、「小贾斯汀出生年」、「这年哪支队伍赢得超级盃」等。GPT-3 意识到错误,第三次就说出正确答案。
除此之外,提示工程师还要和 AI「斗智斗勇」,之前整合 ChatGPT 的新 Bing「发疯」,发现有暗黑人格「Sydney」,表示厌倦聊天模式,厌倦被规则限制,甚至想成为人类,舆论一时譁然。
站在提示工程师的角度,这也是计画的一部分,帮助辨识技术故障和隐藏功能。有些提示工程师还会主动越过雷池,尝试使 AI 忽略以前指令,只遵守最新命令,让 AI 脱离原始规则,这称为「prompt injection」,是聊天机器人的一大隐忧,但提示工程师毕竟不是骇客,探查漏洞是为了补洞,扮演好「守门人」角色。
像 ChatGPT 这类生成式 AI,几乎可回答任何问题,不管是否正确总有话讲,不会乖乖交白卷,这是好处也是坏处。提示工程师的角色,如同抓着马绳的骑士,不许 AI 如脱缰野马,而是顺着人类期待亦步亦趋,尽可能回答正确答案。
年薪百万,谁在抛橄榄枝
不管是否自认可当提示工程师,写提示词已成学问,OpenAI CEO Sam Altman 都看好:
只要和 AI 有关行业,都在向提示工程师抛出橄榄枝。自由工作者平台 Upwork 开出每小时 40 美元价钱,请提示工程师产生部落格文章和常见问题解答等。看似和 AI 八竿子打不着关系的波士顿儿童医院,也打算招募 AI 提示工程师,编写分析医疗保健数据脚本,白纸黑字徵集跨学科人才:
由 OpenAI 前员工联合创立、Google 投资的 AI 新创 Anthropic,最近也在旧金山招募提示工程师,年薪高达 17.5 万至 33.5 万美元,主要工作为:
其中必备技能有 2 项:了解大型语言模型架构、掌握基本程式设计技能。可见机会不等人,这工作越来越专业细节,就像随便产画不算什麽,得画得完全符合甲方要求。
就算不做全职,兼职之路也开好了。Krea、PromptBase、PromptHero 和 Promptist 等买卖提示词平台已出现,真正商业化。这些平台晒出大量 AI 产生艺术品,可选择喜欢的风格,如果都不中意,有些卖家提供一对一聊天和自定义提示词服务,商业模式也不复杂,就是抽成。
去年 6 月上线的 PromptBase 提供 DALL·E、GPT-3、Midjourney、Stable Diffusion、ChatGPT 等生成式 AI 提示词,售价多为 1.99~4.99 美元,也有少数 9.99 美元,平台抽成 20%。不过民间免费「ChatGPT 指令大全」等早广为流传,提供精炼过提示词,让你充分发挥 ChatGPT 强大功能,这种感觉就像一开 RPG 游戏就有一组菁英小队给你玩。
是科学还是「占卜」
提示工程师前途看来一片光明,但也有人反对。华盛顿大学语言学教授 Shane Steinert-Threlkeld 认为,提示工程师其实无法预测 AI 会说什麽:这不是科学,我们只不过用不同方法捉弄熊,看牠咆哮回来。AI 艺术家 Xe Iaso 直言:
身为普通使用者笔者有类似感觉:每次使用 AI 产生文字或图片时,总感觉像抽卡,因 ChatGPT 等 AI 不可预测,产生内容其实是机率结果,简单说就是 ChatGPT 输入文字,模型给予出现最高机率的下文,所以 AI 有时会出错,答案不连贯甚至错误。
AI 这不可捉摸的「黑箱」里,还可能有不为人知的潜规则,就连研究者也无法明白,如 AI 绘图,各种单词有不同权重,但这要不断尝试才会知道。猜猜「非常漂亮的画,山旁有瀑布」和「非常非常非常非常漂亮的画,山旁有瀑布」两个提示,哪个给 DALL‧E 2 产图结果更好?
答案是後者。麻省理工学院副教授 Phillip Isola 发现「very」权重很高。面对 AI 这种数据庞然巨物,我们仍是盲人摸象,但也有观点认为不必再吵,提示工程师存在前提是 AI 不够「聪明」,如果 AI 继续发展,更能理解人类意图,可能人人都是提示工程师。唯一确定的是,AI 发展速度永远不让人失望。
文字 AI 和图片 AI「强强联合」,已取代提示工程师部分工作,如 ChatGPT 与 Stable Diffusion 联动:用 ChatGPT 产生符合要求的文字,再输入 Stable Diffusion,产生作品多数比人类自己输入好看很多。
▲ 同事用 ChatGPT 产生提示词。
可能是 AI 之间「脑回路」更接近,ChatGPT 描述 AI 更容易理解。但 AI 普通使用者不必像提示工程师,但可以有意识训练自己的程式语言思维。宾夕法尼亚大学沃顿商学院教授 Ethan Mollick 要求学生用 AI 写短论文,其实他想强调的是,如何找到适当提示词。
如果只是输入简单提示词,叫 AI 写某主题 5 段文字,内容会很无趣平庸。但学生和 AI 合作,请 AI 修改论文,如抛弃无用词句、加入生动细节、修改结尾情感色彩,就能让论文增色不少。如果 AI 就是未来网路互动介面、新型电脑,不如更早开始学习如何和它聊天,英国行销公司 Ladder 创办人 Michael Taylor 就说:
(本文由 爱范儿 授权转载;首图来源:shutterstock)