人工智能(AI)的出现,在包括艺术在内的各个领域带来了一场革命。使用Stable DiffusionAI的AI在艺术中的创新应用之一是创建独特的耳语框架。这种人工智能驱动的设备可以监听对话并生成相关图像,从而将日常对话转化为一种独特的艺术形式。
耳语框架是技术和创造力的迷人融合。它使用带有重新扬声器四麦克风阵列的树莓派来收听和转录对话。这种Raspberry Pi和Respeaker四麦克风阵列设置是该设备不可或缺的一部分,使其能够在房间内录制对话。然后将转录发送到OpenAI Whisper API,该API生成对话的脚本。
使用Stable Diffusion从对话中生成 AI 艺术
成绩单不是最终产品,而是通往最终艺术品的垫脚石。脚本用于生成图像提示,这是使用 GPT-4 完成的。GPT-4 是一种功能强大的语言模型,可从对话脚本中提取主题并将其转换为图像提示。此过程证明了 GPT-4 的功能,它可以理解对话的上下文并生成相关提示。
一旦图像提示准备就绪,它就会被发送到图像生成器Stable Diffusion。Stable Diffusion接受提示并基于它生成图像。图像生成过程证明了Stable Diffusion的功能,它可以根据提示创建独特且相关的图像。
由Stable Diffusion驱动的耳语框架
然后,生成的图像将显示在三星相框上。三星相框是一款数码相框,为耳语相框增添了一丝优雅。它不仅可以显示生成的图像,还可以增强设备的整体美学吸引力。
在耳语框架的开发过程中面临的挑战之一是沉默期间的转录问题。为了克服这个问题,该设备使用Pico语音眼镜蛇语音活动检测。该软件可确保设备仅在音频流中存在人声时才收听,从而消除静音期间不必要的转录。
除了生成图像外,耳语帧还为每个图像生成艺术家的名字,并在标志上显示提示。此符号使用 Adafruit.io 作为 MQTT 代理进行集成。该标志为设备增添了一层额外的吸引力,让观众可以一窥每张图像背后的灵感。
耳语框架还有一个公共网站,朋友们可以看到客厅里显示的内容,并使用稳定AI创建的Stable Diffusion创建。此功能允许设备与更广泛的受众分享其创作,从而扩展其独特艺术形式的覆盖范围。
尽管具有创新的概念和先进的技术,但耳语框架在图像生成方面并不总是准确的。有时,它会绘制不相关的图像,在绘制地图和字母时遇到困难,或者以意想不到的方式解释提示。例如,当提示提到墨水和笔时,它可能在绘图中包含笔。然而,这些怪癖为设备增添了一丝不可预测性和惊喜,使其更加有趣。
耳语框架一直受到客人的喜爱,并已用于生成各种图像。它的创造者甚至为他的办公室建造了第二个,这表明该设备具有广泛使用的潜力。但是,值得注意的是,耳语帧有时会生成对工作不安全的图像,这突出表明需要进一步完善其图像生成功能。
耳语相框是技术和艺术的独特融合,使用 AI 将对话转换为数码相框上显示的艺术。尽管存在怪癖和挑战,但它代表了人工智能在艺术领域的迷人应用,为创造性表达开辟了新的可能性。