我的AI工具箱探索之旅:从聊天机器人到动手搞事情!

June 9, 2025
·Zeiki

老实说,这AI圈发展是真快啊,对吧?有时候感觉我一眨眼的功夫,唰唰唰就冒出来十几个新工具、新概念。真有点应接不暇,感觉信息量大得跟拿消防水龙头往嘴里灌似的!

最近看了一个特长、特详细的油管视频,它试着把整个AI的版图给画出来——从最基础的聊天机器人,一路讲到不用写多少代码就能自己搭小应用。这可把我给点燃了,说实话,看完我就一头扎进去,各种工具挨个儿试了个遍。

所以呢,我就琢磨着把我这趟“探险”的心得体会,还有踩过的一些坑,跟大家说道说道。你就当是我自己摸索、捣鼓这些AI玩意儿的“田野笔记”吧。希望能帮大家理理思路,看看这些工具到底能怎么玩。

跟AI聊天 —— 不止是问个问题那么简单

好,咱先从大多数人可能都玩过的开始:聊天AI,比如ChatGPT。

ChatGPT

其实ChatGPT我用挺久了,平时主要是问点快问快答(“这段代码bug咋修?”或者“用大白话再给我讲讲量子物理呗...”)。但那个视频里提到的一些功能,我发现自己之前还真没用透。

  • 问得更“刁钻”点: 不光是问“是啥”,更要问“咋办”。比如,不只问“怎么谈加薪?”,我试着加了更多背景:“我在金融行业,老板有点难搞,我该怎么去谈加薪?” 嘿,你猜怎么着?给出的建议具体多了!挺有意思。

  • 让它上网搜: 现在不少这类工具都能联网了。我试了让ChatGPT(打开搜索功能后)帮我查最新的NBA季后赛结果,顺便拟个推文草稿。它麻溜地把信息找来,还写了个基础版的推文。对付临时需求,效率还行。

  • 项目空间 & 定制指令 : 这个对我来说简直是游戏规则改变者!我学着视频里的“Riley's Tweets”例子,自己在ChatGPT里建了个“项目(Project)”,专门用来起草我的社交媒体帖子。关键一步来了:我给它喂了定制指令。我告诉它我的写作风格偏好(“别用emoji、别加话题标签、每句话占一行,跟我平时一样”)。最重要的是,我还上传了一个包含我过去表现最好的几条推文的文档。为啥要最好的?因为你得让AI学那些真正有用的东西嘛!

    • 具体操作就是:我扒拉出五条效果不错的旧推文,扔进Google Doc,存成PDF,然后上传到这个项目里。

    • 接着,我让它就一个新话题(比如那个视频教程的点子)写条推文,并要求它参考我上传文件里的风格。结果呢?哇塞,写出来的东西明显更像我自己的口气了!格式对了,讨厌的东西也没了……感觉更“是我”了。说实话,这感觉就像给自己定制了一个专属的AI写作小助手,真挺酷的。

  • 玩转图片 & 画布编辑 (Canvas): GPT-4o处理图片是越来越溜了。我试着把截图粘贴进去,然后问关于图片的问题。它居然能分析图片内容!还有那个“在画布中编辑(Edit in Canvas)”功能,会弹出一个侧边编辑器,你可以直接修改AI的回复,甚至让它换个语气(比如模仿别人的风格重写),加个标题啥的……这让修改输出内容变得互动性强多了。写到这儿,我突然意识到,这功能对跟AI一起起草长文稿件潜力巨大啊。

Gemini & Perplexity

Gemini我稍微玩了下,感觉跟ChatGPT很多地方挺像的,可能界面设计上更 slick(时髦)一点?它那个画布模式能直接“导出到Google Docs”的功能,如果你像我一样是谷歌全家桶用户,那可太方便了。Gemini Studio甚至能分析视频——理解时间戳和内容。哇哦,听起来很强大,虽然我还没亲自试。Perplexity最早是做AI搜索起家的,虽然现在别家也加了搜索,但感觉它在找资料、列出处这方面还是挺强的。它们有个叫“Spaces”的功能,类似ChatGPT的“项目”,方便你整理研究资料。

P图、做视频

好嘞,说完文字,咱来看看更刺激、更好玩的……AI搞图片和视频!

GPT-4o

我被那个用GPT-4o通过自然语言生成、编辑图片的例子给迷住了。那个给房子刷漆的,我必须得试试啊!我从网上随便找了张房子照片(不是我家的,保证!),然后跟ChatGPT说:“请把这房子刷成深灰色,其他所有东西保持原样。” 嗖!它就生成了一张新图,房子果然变灰了。虽然不是完美(有些砖它也给刷了,现实中可能不会),但想想这潜力!给客户秒看各种涂料效果,多方便!

然后我又试了产品图的例子。我传了张古龙水的照片,让它做成专业、性感的 产品照,背景要酷,但瓶子本身得一模一样。结果出乎意料地好!接着,我用聊天界面里的选择工具,圈出瓶身上的文字,让它改字。基本成功了,虽然有时候选区不太好控制。换背景也很简单——“把背景换成丝绒红。” 这对小商家或者内容创作者来说,需要快速出图时简直是福音。

Midjourney

要说纯粹的图片生成,特别是搞艺术风或者照片级写实的,Midjourney一直是我心头好。视频也印证了我的感觉——它在写实这块儿常常还是王者。我喜欢Midjourney(通常在Discord里用)的地方是它的速度和迭代能力。

  • 批量生成: 你可以飞快地扔一堆指令。需要App图标?我试了那个“橙色猴子极简风App图标”的点子。我把指令跑了大概8次,一分钟不到就生成了32个不同风格的变体。这对头脑风暴找感觉特友好。

  • 变体 & 放大: 在那32只猴子里找到一个我喜欢的风格后,可以点“Vary(变体)”生成类似的选项,逐步逼近完美效果。然后,“Upscale(放大)”能提高分辨率,让图真正能用。

  • 编辑功能: Midjourney现在也有编辑器了。我试了那个毛线帽的例子:选了张猴子图标,打开编辑器,用橡皮擦擦掉它的头顶,然后输入“戴着紫色毛线帽,顶上有个绒球”。它就生成了几个戴着帽子、基本保持原风格的新版本!这对于创意探索来说,既好玩又强大。我还生成了那个超夸张的“老虎在白宫台阶上玩滑板”的图——那真实感,有时候简直让人惊叹。

视频生成

这才是我脑子真正开始高速运转的地方。把一张静态AI图变成会动的?想想就激动!

  • 工具选手: Kling AI和Runway这两家,是把图片或文字提示变成短视频的佼佼者。还有谷歌的Veo、Sora等等也在这个赛道上。

  • 我的小项目:“啥也不干按钮”广告片: 受视频启发,我决定自己动手,只用AI工具(好吧,几乎是)从零做一个搞笑小广告。

    1. 点子: 问ChatGPT来点搞笑产品创意。最后看中了“啥也不干按钮 (Do Nothing Button)”。

    2. 图像: 让ChatGPT(用GPT-4o)生成一张“一个男人正要按下桌上的这个按钮”的图片,风格指定为“宫崎骏工作室”。效果拔群!顺便也生成了一张只有按钮的特写图。

    3. 视频片段: 把这两张图扔进Crea(用了Cling模型,因为视频说它控制力更好,我试下来感觉确实如此——Runway老让角色张嘴说话!)。生成了一段男主压力山大、双手抱头的片段,还有一段镜头推近按钮的片段。这些工具生成要等几分钟,得有点耐心。外面好像有点吵……希望麦克风没录进去……咳,说回正题。

    4. 音效 & 配音: 转战11Labs。生成了一个“卡通按钮按下失败”的音效。然后用它的文本转语音(TTS)功能,找了个低沉的嗓音念:“隆重推出,啥也不干按钮。它,啥也不干。” 还加了句搞笑的开场白。

    5. 背景音乐: 去了趟Suno.ai。让它生成“轻快、氛围感、带点焦虑的纯音乐”。找到一小段循环,感觉跟这沙雕气质挺搭。

    6. 组装: 把所有素材拖进Premiere Pro(好吧,用了一个非AI工具,但用剪映CapCut也行!)。把视频片段拼好,铺上背景音乐,对准按钮按下的地方加上音效,把配音放进去。还用了Premiere的自动字幕功能(这个也是AI驱动的!)。

    7. 成品: 一个大概15秒左右、怪诞有趣的广告片,几乎完全由AI生成的素材构成,总共花了可能三四十分钟?虽说不是好莱坞大片级别,但它能用啊!这充分展示了组合使用这些专业AI工具的力量。

  • AI数字人 (HeyGen): HeyGen做的AI数字人,你可以输入文字,让一个看起来挺真实的(或者半真半假)数字人给你念出来。我在网上见过有人用。技术在进步,但有时候还是有点“恐怖谷”那味儿。不过对某些特定类型的内容创作可能挺有用的。

让AI给我干活 —— 自动化与智能体

行,单个工具玩得溜是挺酷,但能不能让它们自动配合起来干活呢?

把重复劳动自动化

Zapier这玩意儿,就像数字世界的“万能胶带”。它能让你把不同的App连起来,不用写代码就能搞定自动化流程。我大致跟着视频的思路概念试了下:

  • 触发器 (Trigger): 当Notion数据库里增加一个新条目时(比如你列了个博客选题清单)。

  • 动作1 (Action):1: 把选题标题发给OpenAI(通过API调用DALL-E 3)生成一张相关的图片。

  • 动作2 (Action 2): 把同一个标题发给OpenAI(通过API调用GPT-4o)写一段简短摘要或者社交媒体文案(可以加上特定指令,比如“用Sam Altman的口吻写”)。

  • 动作3 (Action 3): 回到Notion,更新刚才那个条目,把生成的图片链接和摘要文本填进去。

设置这个流程大概就是:选触发App(Notion)和事件(新建数据库项),然后添加OpenAI的动作步骤(生成图片、对话),最后再加一个Notion的动作(更新数据库项),把各个步骤之间的数据关联起来。发布之后,理论上每次我在Notion里加一行新选题,Zapier就会(稍微延迟一点)自动把图片和摘要给我填好。这种自动化能省下巨多时间!

智能体 - ChatGPT深度研究, Manus

这部分就有点科幻未来的感觉了。AI智能体(Agent)不只是被动回答问题,它们被设计用来自主搞定复杂任务。

  • ChatGPT深度研究: 这个功能(我印象里好像还是有限开放?)能接一个复杂的请求(比如:“给我的内容公司Vibe Code研究下最好用的AI视频/图片/文字模型,分析下我的网站vibecodeapp.com获取背景信息,再给我推荐几种工作流程图”),然后它就自己跑去上网搜、整理来源(能找几十个!)、分析、最后写出一份详细报告。这过程需要点时间(大概5到20分钟),所以你就把任务派出去,过会儿再回来看结果。

  • Manus: 视频里介绍了Manus,说它是个“多智能体系统”,能调研、分析数据、生成报告、写代码,甚至在很少监督的情况下部署网站。我去!另一个AI聊天工具Claude(它那个侧边栏输出“Artifacts”功能挺有名的)生成了一个流程图展示Manus的工作方式:接到任务 -> 浏览网站 -> 处理数据 -> (需要的话)写代码 -> 创建交付物 -> 通知用户。

  • 打扑克的比喻: 这让我陷入了沉思。视频的讲解者把管理这些智能体比作在线扑克高手同时玩好几桌(“多桌打牌”)。当一个智能体完成任务或需要你介入时,那张“桌子”就会亮起来。你作为操作者,就像在异步地指挥调度这些AI员工。未来的CEO会不会就是坐在几块屏幕前,管理着一群AI智能体来运营公司?这想法挺疯狂,但也许并没那么遥远。据说Greg Eisenberg管这叫“Vibe Marketing”,但视频作者觉得这概念应该更广。多桌智能体(Multi-Table Agents, MTA)……嗯,听起来有点意思。

视频里的例子显示,ChatGPT深度研究和Manus都根据指令交付了详细的报告。Manis甚至生成了带图片的格式化PDF报告。而且你能看到智能体执行任务的步骤,这对于调试或者优化指令很有帮助——这点有时候跟人类外包合作反而不容易做到!

用AI搞点创造 —— Vibe Coding

这部分最让我兴奋——用AI不光是生成内容,而是帮助构建真正的软件体验。视频里管这叫“Vibe Coding”(凭感觉编程)。

快速搭个网站 (V0)

Vercel出的V0是个AI工具,能根据文字描述甚至草图、图片,生成网站前端代码(技术上是React组件+Tailwind CSS)。我看了那个给“甲壳虫(Slug Bugs)”(类似大众甲壳虫)做一个带特定复古花纹的落地页的例子:

  1. 让V0生成一个只有首屏和页脚、带有指定花纹的极简页面。它立刻生成代码和预览。

  2. 用ChatGPT(GPT-4o)生成一张带有同样花纹的甲壳虫汽车图片。

  3. 回到V0,上传图片,告诉它:“把这张图设为背景。”

  4. 用Runway给刚才那张AI生成的车图做个简短的开出屏幕的动画视频。

  5. 再回到V0,上传视频,然后下指令:“当我鼠标靠近车图时,把它换成这个视频,让车开走,3秒后弹出一个带‘立即购买 $20,000’和小车图的弹窗。” 你甚至可以上传音效(比如从11Labs搞个“汽车开动”的声音),让V0在视频开始时播放!

虽然不一定一次成功(视频里也演示了需要反复调整),但这种用自然语言和AI生成的素材,迭代式地设计和编写动态网页体验的能力……简直了,哇!

构建真正的App (Cursor & API)

好,网站是一回事,那真正的应用程序呢?这就需要用到API(应用程序编程接口)了——你可以把它想象成一份菜单,让你的App能从其他服务(比如OpenAI的大脑)那里“点菜”要功能。

  • Cursor: 这玩意儿就像一个被AI超能力加持过的代码编辑器(基于VS Code)。我看了那个开发“AA制结账App”的例子。指令很详细:“创建一个Next.js应用来分摊账单。允许上传收据图片,用OpenAI API(GPT-4o)提取商品/价格为结构化数据,让我可以把商品分给指定的人(比如Riley、Kevin),最后显示总额。” 关键在于,你需要从OpenAI获取一个API密钥(就像密码一样),你的App才能调用他们的服务。视频里演示了把密钥直接粘贴到指令里(并强调用完要立刻删除!)。然后Cursor就生成了App所需的所有文件。过程花了几分钟,甚至还遇到了报错,但把错误信息复制粘贴回Cursor,AI居然自己给修复了!最终做出来的App,可以上传收据图片,通过OpenAI API处理得到结构化的商品数据(是JSON格式,不是纯文本!),在表格里显示出来,让你点选分配商品,最后计算出每个人的分摊总额。用几句指令就能做到这个程度,太神奇了。

  • 结构化数据是关键: 为啥要用API而不是直接把收据文字粘贴给ChatGPT呢?因为API能返回结构化数据(比如JSON)。这种规整的格式对App来说至关重要,它能可靠地理解和展示信息(比如把商品和价格整齐地显示在列表里)。非结构化的纯文本对代码来说,处理起来一致性就差远了。

收个尾,聊聊我的想法

呼!行了,信息量确实有点大。一头扎进这些东西里,哪怕只是跟着视频学、自己动手试了那么几下,也真是大开眼界。

我最大的几点感悟:

  1. AI正在变成一个工具箱: 与其说是一个万能的神器,不如说它更像一个工具箱,关键在于你要知道针对不同的任务(聊天、图像、视频、音频、自动化、编码)该选用哪个趁手的工具,以及怎么把它们组合起来用。

  2. 门槛在降低: 像ChatGPT的图片编辑、V0、Cursor还有那个Vibe Code App这样的工具,正在让强大的能力变得触手可及,哪怕你不是技术大牛也能玩起来(当然,懂点概念总归是好的!)。

  3. 提问是门艺术: 想得到好结果,往往需要给出清晰的指令、背景信息和实例(就像我那个推文项目)。学会怎么跟这些AI系统“对话”,正变得越来越重要。

  4. API是超能力插件: 通过API把各种工具连接起来,能释放出惊人的自动化潜力,也能用来构建真正有用的应用程序。

  5. 现在还是“拓荒期”: 工具会出bug,模型会“一本正经地胡说八道”(幻觉),各有各的脾气。耐心和乐于反复尝试是必备素质。但话说回来,这进步速度也太惊人了。

老实说,我对这一切的未来走向感到超级兴奋。感觉就像我们正在获得创造力和生产力的“超能力”。虽然现在这个领域还有点“蛮荒”,充满未知,但我认为,最好的学习方式就是亲自跳进去,动手去“折腾”一番。

那么,你呢?你最近在捣鼓哪些AI工具吗?有没有做出什么酷炫的东西,或者发现了什么有意思的玩法?对哪个领域特别激动,或者有点小担忧?在评论区分享下你的想法吧——我一直很喜欢听听大家都在玩些啥!