GPT-4 Turbo with Vision 现已推出：转变视觉数据处理

OpenAI 正式推出 GPT-4 Turbo with Vision （GPT-4V），标志着其人工智能大型语言模型的进步。这个新版本通过集成 Vision 增强了 GPT-4 Turbo 的功能，从而实现了视觉数据和文本的处理。这一发展可能会彻底改变开发人员使用人工智能的方式，特别是在需要分析图像的应用程序中。

面向开发人员的增强功能

GPT-4V 引入了几个旨在简化开发过程的关键功能。值得注意的是，它支持 JSON 模式和函数调用，便于与现有代码库集成。该模型在其前身 GPT-4 Turbo 的上下文窗口中保留了令人印象深刻的 128,000 个代币，允许在单个请求中进行广泛的数据处理。开发人员现在可以通过直接链接或传递 base64 编码图像来输入图像，从而扩展模型在各种应用程序中的实用性。

GPT-4V 的突出方面之一是它能够解释和分析图像。虽然它可以识别图像中的对象，但重要的是要注意一些限制。例如，模型可能难以确定视野中特定物品的精确位置或颜色。这一局限性凸显了人工智能对复杂视觉环境的理解现状，这一挑战仍然是一个积极的研究和开发领域。

实际应用和局限性

GPT-4V 的引入为开发人员开辟了大量可能性。从创建更具交互性和响应性的应用程序到增强数据分析工具，潜在的用例是巨大的。然而，OpenAI 警告不要使用 GPT-4V 处理医学图像，例如 CT 扫描，这表明该模型还不适合此类专业任务。

此外，OpenAI 还提供了有关管理与处理图像相关的代币成本的指导。例如，对 1024 x 1024 正方形图像的详细分析将消耗大约 765 个代币，这凸显了开发人员需要考虑其项目的计算和财务影响。

谷歌首次亮相 Imagen 2

OpenAI 扩展了 GPT-4 Turbo 的图像功能，谷歌正在推出其 Imagen 2 AI 图像模型。该工具现已在 Google 的 Vertex AI 开发者平台上提供，标志着 AI 驱动的内容创作领域向前迈出了重要一步。Imagen 2 的显着功能之一是内画和外画，它们分别允许删除图像中不需要的部分并添加新元素或扩展图像的边框。但是，更新的亮点是“文本到实时图像”功能，该功能可以从文本提示创建视频剪辑。

正文完