https://mp.weixin.qq.com/s/2AG_41e_gw2zlQNwJffI_A


































Gemini 2.5 Flash Image:图像编辑与生成,融合用户上传的房间照片与产品图像。
Gemini 2.5 Flash-Lite:轻量化处理,优化移动端AR渲染。
多模态能力:结合文本提示(如“现代风格”)进行场景优化。

把左边的拖到右侧的任意位置~


– Pixshop:AI照片编辑器,通过文本提示修图、应用创意滤镜、专业调整。简化专业图像编辑,降低技术门槛。
Gemini 2.5 Flash Image:图像编辑与生成,支持角色一致性。
多模态能力:文本提示驱动图像处理(如“增强亮度”)。





Gemini 2.5 Flash:文本生成与理解,解析URL中的API文档。
URL Context:处理外部文档内容,生成自然语言解答。

这个值得看一下的,可以直接利用 AI 的能力做一个建议的垂类知识库,比如为企业提供内部文档查询工具。
– VibeCheck:批量测试视觉输出提示,验证AI生成效果。优化提示设计,减少试错时间。
用到的能力:
Gemini 2.5 Pro/Flash:图像生成与文本处理,批量生成视觉输出。
代码生成:自动化测试脚本生成。

– Infinite Wiki:生成动态wiki,每个词语链接到实时生成的描述。 提供无限扩展的知识库,简化信息检索。
用到的能力:
Gemini 2.5 Flash-Lite:轻量化文本生成,实时创建wiki内容。
多模态能力:结合文本与超链接生成动态内容。


这个也非常有意思!
– Gemini OS功能:模拟动态生成的用户界面,基于用户交互生成UI。
用到的能力:
Gemini 2.5 Flash-Lite:生成式UI,动态生成交互界面。
多模态能力:结合文本与视觉输入生成UI。



后面还有一个叫Gemini 95的,也是类似的界面实现。

– Live Audio:实时语音聊天,3D视觉随对话动态反应。
用到的能力:
Gemini 2.5 Flash Audio:实时语音处理。
Live API:支持3D视觉与语音同步。

就是一个实时对话的,可以用来当虚拟人陪伴,学英语讲故事都行,界面挺科幻的。
– MCP Maps 3D:通过自然语言生成3D地图,结合Gemini与MCP工具。快速生成3D地图,降低空间设计成本。
用到的能力:
Gemini 2.5 Flash:文本处理与地图生成。
Google Maps API:提供地图数据与3D渲染。
MCP:增强空间数据处理。

– Tiny Cats:以可爱猫咪插图讲解复杂话题。灵感就是可以开发儿童教育APP,结合AI生成趣味科普内容。为科普平台提供AI讲解工具。同样的,我们也可以用这个方法来做公众号或者短视频的素材内容。
用到的能力:
Gemini 2.0 Flash:文本生成与图像生成。
Native Image Gen:生成猫咪插图。





– Magical GIF Maker:将文本提示转为动画GIF。开发营销GIF生成工具,快速生成品牌动画。为社交平台提供GIF创作插件。
用到的能力:
Native Image Gen:生成动画GIF。
Gemini 2.5 Flash:文本提示驱动图像生成。


强烈建议把案例里的每一个都点开体验体验,不光可以看到别人做了什么,更方便去理解这个「技术的边界」。
大部分人都是看个热闹,自娱自乐一下,剩下的一小部分人知道如何用这个结合到自己的业务或者吃到这波流量去,看到别人的案例或者社交媒体上的需求马上就知道如何利用这个「技术」来举一反三了。所以有时候带着去挣钱或者搞成产品的角度去体验,感受会有很大的不同。
哪怕光一个合照环节都可以延伸出无数个细分~情侣纪念照生成、宠物与主人合影、已故亲人”重聚”照片、明星粉丝合照等等。
当然,即便看到这里,依然会有很多人嗤之以鼻,说:就这?我随便用个 AI 工具做出来不香么?还要花钱来找你这里做的?

别人“傻”到投广告去抢这个词~下个月数据更新的时候,我们会看到这个山寨网站会有多少流量~

再想想上一次4o画图惊艳全球的时候,光一个吉卜力图片转换,很多人就做了很多产品~吃到了很多红利。
总有人像狗一样用他灵敏的嗅觉到处抓机会,同样也有人永远站在旁边各种看不上。特别像最近又因为 vibe coding 吵起来的所谓正统程序员和只会用AI编程的,核心矛盾就是双方认知上的“傲慢”——觉得自己了解的代表全部,别人用的工具或方法不符合自己的预期就开喷。
永远都是那些能快速适应、灵活运用新工具的人,能抓住时间窗口获得先发优势。
🙏感谢捧场。
