使用AI智能体构建应用-第三章智能体系统的用户体验设计

随着智能体系统（Agent Systems）逐渐成为我们数字环境不可或缺的一部分——无论是通过聊天机器人、虚拟助手，还是完全自主的工作流——所交付的用户体验（UX）都在其成功中扮演着关键角色。虽然基础模型和智能体架构赋予了这些系统卓越的技术能力，但用户与这些智能体交互的方式最终决定了它们的有效性、可信度和采用率。一个设计良好的智能体体验不仅能赋能用户，还能建立信心，最大限度地减少挫败感，并确保清晰地传达智能体的能力与局限。

本书代码请见：https://github.com/alanhou/ai-agent。

智能体 UX 领域正以前所未有的速度发展。新的界面范式、模态组合和用户交互模型几乎每个月都在涌现。本章提供的基础设计原则，即使在具体技术和能力持续快速进步的情况下，依然保持相关性。

为智能体系统设计 UX 带来了独特的挑战和机遇。智能体可以通过多种模态进行交互，包括文本、图形界面、语音甚至视频。

表 3-1. 模态概览

模态	普及度	示例用例	理想场景
文本 (Text)	非常普遍	客服聊天机器人、生产力助手	需要清晰、异步或可搜索的沟通时
图形用户界面 (GUI)	普遍	工作流编排仪表盘、像 Cursor 这样的 AI 编程助手	当视觉结构、上下文管理或多步骤工作流很重要时
语音 (Speech/Voice)	较少见	Siri、智能家居助手（Alexa, Google Home）、呼叫中心自动化	需要免提交互或自然对话时
视频 (Video)	罕见	虚拟导师、治疗虚拟形象、交互式学习智能体	需要视觉演示、丰富表情或沉浸式学习时

另一个关键的 UX 考量是上下文（Context）如何随时间管理。一些生成式 AI 应用没有记忆或学习能力，因此只能精确处理你在该会话中呈现给它们的信息。这要求用户将信息复制并粘贴到提示词（Prompt）中。更现代的应用程序会自动管理这种上下文。例如，Cursor 利用集成开发环境（IDE）智能地识别并在每次模型推理中包含相关代码。一些应用程序会随着时间的推移保留记忆，使智能体能够记住过去的交互，维持对话流畅度，并适应用户的偏好。如果没有这些能力，即使在技术上很先进的智能体也会让人感到脱节或反应迟钝。

同样，沟通智能体的能力、局限性和不确定性对于设定现实的用户期望和防止误解至关重要。用户必须知道智能体能做什么，不能做什么，以及何时可能需要他们介入或提供指导。

最后，信任（Trust）和透明度（Transparency）仍然是智能体系统良好用户体验的基石。可预测的智能体行为和对行动的清晰解释，有助于建立一种关系，使用户在关键场景中能自信地依赖智能体。

本章将探讨智能体系统 UX 设计的这些核心方面，提供原则、最佳实践和可操作的见解，帮助你设计直观、可靠且符合用户需求的交互。无论你是构建聊天机器人、AI 驱动的个人助理，还是完全自主的工作流智能体，本章中的原则都将帮助你创造用户可以信赖的有意义且有效的体验。

使用AI智能体构建应用-第三章智能体系统的用户体验设计

交互模态 (Interaction Modalities)

智能体系统通过各种模态与用户交互，每种模态都有其独特的优势、局限性和设计考量。无论是通过文本、图形界面、语音还是视频，模态的选择都塑造了用户感知和与智能体交互的方式。基于文本的界面在清晰度和可追溯性方面表现出色；图形界面提供视觉丰富性和直观的控制；语音交互提供免提的便利；而视频界面则实现了动态的实时交流。

在下一节中，我们将探讨这些交互模态，通过了解它们的主要优势、挑战和最佳实践，为智能体系统交付卓越的 UX。

基于文本 (Text-Based)

基于文本的界面是用户与智能体系统交互的最常见和通用的方式之一——从客服聊天机器人和命令行工具，到集成在消息平台中的生产力助手，无处不在。它们的广泛采用归功于其简单性、熟悉度以及易于集成到现有工作流中。文本界面提供了一个独特的优势：它们既支持（实时的）同步对话，也支持（用户可以在方便时返回对话而不丢失上下文的）异步交互。此外，文本交互创建了清晰且可追溯的交流记录，实现了透明度、责任划分，并在出现问题时更易于故障排除。

近年来，在终端环境中集成先进 AI 能力的推动下，基于文本的模态正在经历复兴。像 Warp、Claude Code 和 Gemini CLI 这样的工具生动地展示了这一转变。Warp 通过集成自然语言命令翻译、智能自动补全和上下文感知解释，重新构想了传统的开发者终端，将命令行转变为一个协作的、AI 增强的工作空间。

为了说明这一趋势，图 3-1 展示了一个受 Claude Code 和 Gemini CLI 等现代工具启发的 AI 赋能终端界面示例。此演示捕捉了开发者如何使用自然语言提示与终端交互，从而无缝地生成、运行和调试命令，而无需记忆复杂的语法或标记（flags）。

同样，Claude Code 和 Gemini CLI 将自然语言交互扩展到直接在终端工作流中进行代码生成、执行和文件操作，使开发者仅需用简单的文字描述目标即可执行复杂任务。这凸显了 AI 如何重振不起眼的终端，将其从仅供拥有深厚命令行专业知识的人使用的工具，转变为新手和专家用户都能通过自然语言与系统交互的平易近人且强大的网关。

这种趋势反映了对基于文本的界面所能实现目标的更广泛反思。现代基础模型惊人的自然语言理解能力，使得普通的基于文本的交互比以往任何时候都更强大。传统的终端需要精确的语法知识和命令标记的记忆，而 AI 终端现在充当对话伙伴，解释用户意图，建议最佳实践，甚至实时调试错误。这种转变正在使强大的系统运维、脚本编写和数据工作流变得民主化，让终端“焕然一新”，成为新手和专家用户皆可使用的智能网关。

使用AI智能体构建应用-第三章智能体系统的用户体验设计

图 3-1. AI 赋能的终端界面 ：一个 AI 增强终端的演示，自然语言输入被解释为可执行命令。此类界面将传统命令行转变为系统运维和开发工作流的智能对话伙伴。

然而，基于文本的界面有一个关键限制是可发现性（Discoverability）。用户通常不知道智能体支持哪些功能或如何有效地措辞命令。与图形界面（选项、按钮和菜单在视觉上指示可进行的操作）不同，文本界面要求用户猜测或回忆可用的功能。这种功能直观性的缺乏可能导致困惑、智能体能力利用不足，以及当请求超出智能体支持范围时用户的挫败感。例如，用户可能会要求支持聊天的机器人修改系统不支持的订单详情，结果收到的是模糊的拒绝，而不是关于可行操作的指导。

因此，设计有效的基于文本的智能体需要增强可发现性的策略。智能体应主动传达其支持的功能，无论是通过流程引导消息、定期的能力提醒，还是对话中的动态建议。例如，智能体不仅可以用“今天我能为您做什么？”来回应问候，还可以加上“我可以帮您取消订单、检查配送状态或更新账户详情。”这种方法确保用户了解智能体的操作边界，减少试错式交互。

除了可发现性，基于文本的设计还需要仔细关注清晰度、上下文保留和错误管理。智能体应以简洁明确的回复进行沟通，避免使用过于专业的术语或冗长的解释，以免让用户感到不知所措。在多轮对话中保持上下文同样重要；用户不应需要重复自己或澄清过去的指令。有效的智能体在失败时也能保持优雅，提供清晰的错误消息和回退机制，例如在无法满足请求时升级为人工服务或提供替代建议。轮流发言（Turn-taking）管理是另一个微妙但关键的元素——智能体必须自然地引导对话，平衡何时提出后续问题以及何时暂停等待用户输入。

自然语言的歧义性仍然是一个重大障碍，因为用户可能会以意想不到的措辞提出请求，这需要强大的意图识别来避免误解。此外，基于文本的智能体通常受到回复长度的限制——太短可能会晦涩难懂；太长则可能淹没或激怒用户。情感细微差别是另一个局限。没有语音语调、面部表情或视觉线索，基于文本的智能体必须依靠精心设计的语言来确保在适当的时候传达同理心、友好或紧迫感。

尽管存在这些挑战，基于文本的智能体在精确性、可追溯性和异步沟通等场景中大放异彩。它们在客户支持（聊天机器人快速回答常见问题）或生产力工具（命令行界面帮助用户高效执行任务）中表现出色。在知识检索系统中同样有效，可以回答特定问题或从结构化数据库中提取数据。

如果设计周到，基于文本的智能体在广泛的上下文中都是可靠、适应性强且非常有用的。例如，基于文本的智能体可能是消息应用程序（如 Slack、Teams 和 WhatsApp）上聊天界面的理想选择，用于与客户或员工进行可扩展的沟通，或者是客户服务、索赔处理或文本研究任务等文本密集型工作负载。它们的易用性和易于部署使其成为智能体 UX 设计的基石——只要通过清晰的能力沟通、强大的错误处理和对无缝对话流的关注来缓解其局限性（特别是可发现性方面）。

图形化界面 (Graphical Interfaces)

图形化界面为用户提供了一种视觉化和交互式的方式来与智能体系统互动，结合文本、按钮、图标和其他图形元素来促进沟通。这些界面在需要视觉清晰度、结构化工作流或多步骤流程的任务中特别有效，而在这些任务中，纯文本或语音交互可能会力不从心。常见的例子包括基于仪表盘的 AI 工具、图形化聊天界面以及带有可点击元素的智能体驱动的生产力平台。

图形界面的关键优势在于它们能够视觉化地呈现信息并减少认知负载。人类主要依赖视觉输入，并且处理视觉信息比文本信息更快、更容易。设计良好的界面可以以直观易懂的格式显示复杂数据、状态更新或任务进度。视觉线索，如进度条、颜色编码和警报图标，可以有效地引导用户，而无需冗长的解释。

例如，管理工作流的智能体可能会使用仪表盘来显示待处理任务、已完成步骤和错误通知，使用户能够一目了然地快速了解系统状态。像 LangSmith、n8n、Arize 和 AutoGen 等工具正开始以可视化的方式展示智能体工作流，使其更易于理解、调试和推理；我们未来可能会看到更多这种视觉编排。为了了解这些图形编排界面在实践中是如何涌现的，图 3-2 展示了一个现代智能体工作流构建器的示例。像这样的工具将智能体动作、工具调用、条件判断和输出显示为连接的视觉节点，使开发者和操作者能够轻松理解、调试和优化复杂的智能体流程，而无需仅仅通过原始代码来逐步调试。

使用AI智能体构建应用-第三章智能体系统的用户体验设计

图 3-2. n8n.io 中智能体工作流的视觉编排：此界面显示了一个集成了多个工具、模型和结构化解析组件的 AI 智能体，它们排列在一个基于节点的工作流中。这种视觉设计使得大规模构建、管理和迭代多步骤智能体管道变得更加容易。

同样，图 3-3 展示了一个AI 赋能的现代 IDE 界面，类似于 Cursor、Windsurf、Cline 等工具。这些环境将自然语言理解直接集成到编码工作流中，使开发者能够在一个单一、流畅的图形界面中提问、生成代码、重构函数并接收解释或性能优化建议。

使用AI智能体构建应用-第三章智能体系统的用户体验设计

图 3-3. AI 赋能的 IDE 界面： 一个增强了 AI 功能的集成开发环境 (IDE)，结合了传统的文件资源管理器和代码编辑器与自然语言助手面板，提供解释、调试建议和自动生成的代码改进。

这些例子共同说明了图形化智能体 UX 的快速演变。随着这些界面的成熟，它们将重新定义生产力型、AI 赋能工具的样子——不仅是对开发者而言，对每一个知识密集型职业都是如此。

图形智能体界面的一个增长前沿是生成式 UI (Generative UI) 的出现。生成式 UI 不再仅依赖于静态仪表盘或预先设计的布局，而是根据用户查询动态创建界面元素、数据可视化或结构化输出。例如，Perplexity AI 不仅提供文本答案，还生成针对所提问题定制的结构化知识卡片、参考列表和数据表。同样，AI 编码 Copilot 根据用户意图生成整个表单、配置文件或 UI 组件。

生成式 UI 结合了自然语言的灵活性与图形布局的清晰度和可发现性，使智能体能够按需创建丰富的、特定于上下文的界面。这将图形智能体的用途从预定义的工作流扩展到了视觉结构能增强理解的开放式任务。然而，设计生成式 UI 引入了新的挑战：确保生成的元素可用且在美学上具有连续性，并且不会用组织混乱或过多的信息淹没用户。认真的设计模式、布局约束和优先级逻辑对于保持生成式 UI 的有效性和用户友好性至关重要。

设计有效的图形智能体界面也伴随着传统的挑战。屏幕空间有限，需要对显示的信息进行优先级排序，以确保关键细节不会被杂乱的信息掩盖。智能体必须负责界面响应——用户期望实时更新和状态之间的平滑过渡，尤其是在智能体异步操作时。此外，图形元素必须在各种设备和屏幕尺寸上优雅地适配，确保在桌面、平板电脑或手机上查看时的一致性。

另一个关键考量是自动化与用户控制之间的平衡。图形界面通常混合了智能体自主性与用户驱动的操作，例如同意智能体建议的决策或手动覆盖推荐。例如，一个建议更改日历的智能体可能会通过按钮显示多个选项，给用户一种清晰高效的方式来做出最终决定。

图形界面在数据可视化、结构化交互和清晰状态更新至关重要的用例中表现出色。最近几年见证了像 Lovable、Cursor、Windsurf 和 GitHub Copilot 等工具的巨大增长，这些工具提供了高质量的 GUI，以惊人的流畅度管理上下文和复杂的多步骤操作。这些工具正在重新定义开发者的高效、智能体赋能界面是什么样的。现在是时候认真思考下一代 AI 赋能的智能体 UX 对于其他职业——律师、会计师、保险专业人士、产品经理和知识工作者——将会是什么样子了。未来的工作可能不再围绕文档、电子表格和幻灯片，而是围绕专为决策、分析和创造而构建的交互式、智能体驱动的界面。

语音和声控界面 (Speech and Voice Interfaces)

语音和声控界面为用户提供了一种自然且免提的方式来与智能体系统互动，利用口语作为主要的沟通模式。从亚马逊的 Alexa 和苹果的 Siri 等虚拟助手到客户服务语音机器人，这些界面在手动输入不现实或不可能的场景中表现出色——例如在驾驶、烹饪或操作机器时。它们还为视力障碍或行动不便的用户提供了无障碍选项，使智能体系统更具包容性。

历史上，延迟 (Latency) 一直是声控交互的主要障碍。实时处理口语——包括转录语音、解释意图和生成适当的回复——通常会导致延迟，从而破坏对话流畅度，使声控交互感觉笨拙或像机器人。然而，过去两年在这个领域见证了惊人的进步。新的低延迟语音识别模型，结合更高效的语言处理架构，极大地减少了延迟。同样重要的是，语音 AI 系统的流畅度和能力得到了提高，实现了更自然的听感交互，可以处理打断、句子中间的更正以及对话主题的转换。

优雅地处理打断 (Interruption) 是声控交互设计中特别重要的一方面。人类对话很少是线性的独白；人们会打断自己来澄清、改变方向或在句子中间完善请求。有效的语音智能体必须处理这种对话的灵活性，允许用户在不造成困惑的情况下打断命令，无缝地修改他们的输入，并从中断的地方继续，而无需强制完全重新开始。例如，用户可能会说，“给我订一张桌子——哦等等，改成明天吧，”一个设计良好的智能体将流畅地适应并包含更正，而不需要用户重新开始命令。这种能力不仅使交互感觉更自然，还能建立信任并减少挫败感，因为用户感觉智能体是在响应他们真实的沟通模式，而不是要求死板的、计算机式的输入。

另一个重大飞跃是工具使用 (Tool Use) 集成到语音智能体工作流中。现代语音智能体不再局限于解析命令和返回静态答案。相反，它们现在可以拉取外部上下文，更新记录，并根据动态对话输入采取实时行动——如安排预约、更改系统配置或下订单。这种结合自然语音交互与结构化后端操作的能力正在改变语音智能体所能实现的成就。

尽管有这些令人印象深刻的技术进步，但必须注意语音交互仍然是一项前沿技术。诚然，它们已进入智能扬声器和简单助手的主流使用。然而，完全对话式、多轮、上下文感知且具有行动能力的语音智能体尚未在各行各业广泛部署。许多企业才刚刚开始探索用于客户服务、医疗保健、物流和现场操作的语音交互。

部署语音交互的一个关键考量是理解人类处理口语与书面信息的速度。人类说话速度通常为每分钟 150-180 个单词，而阅读速度平均为每分钟 250-300 个单词，略读速度超过每分钟 500 个单词。这意味着对于密集或复杂的信息，语音交互本质上较慢，而基于文本的界面能实现更快的理解和更容易的参考。然而，在免提便利性、自然交互和即时上下文响应性超过这些速度限制的场景中，语音表现出色。

以下示例演示了一个使用 OpenAI Realtime Voice API 的最小化 FastAPI 服务器。它将浏览器中的麦克风音频流式传输给智能体，并实时播放助手的音频回复。值得注意的是，它优雅地处理了打断：如果用户在回复中途开始说话，它会立即截断助手的输出以保持对话自然。这个紧凑的实现展示了构建低延迟、具有打断感知能力的语音智能体界面的核心架构：

import os, json, base64, asyncio, websockets
from fastapi import FastAPI, WebSocket
from dotenv import load_dotenv

load_dotenv()

OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
VOICE          = "alloy"                 # GPT-4o 声音
PCM_SR         = 16000                   # 我们将在客户端使用的采样率
PORT           = 5050

app = FastAPI()

@app.websocket("/voice")
async def voice_bridge(ws: WebSocket) -> None:
    """
    1. 浏览器打开 ws://localhost:5050/voice
    2. 浏览器流式传输 base64 编码的 16 位单声道 PCM 数据块: {"audio": "<b64>"}
    3. 我们将数据块转发给 OpenAI Realtime (`input_audio_buffer.append`)
    4. 我们以同样的方式将助手的音频增量中继回浏览器
    5. 我们监听 'speech_started' 事件，如果用户打断则发送截断指令
    """
    await ws.accept()

    # websockets < 13 uses extra_headers, >= 13 uses additional_headers
    import websockets.version
    ws_version = tuple(map(int, websockets.version.version.split('.')[:2]))
    headers = {
        "Authorization": f"Bearer {OPENAI_API_KEY}",
        "OpenAI-Beta": "realtime=v1"
    }
    header_param = "additional_headers" if ws_version >= (13, 0) else "extra_headers"
    
    openai_ws = await websockets.connect(
        "wss://api.openai.com/v1/realtime?" + 
            "model=gpt-4o-realtime-preview-2024-10-01", 
        **{header_param: headers},
        max_size=None, max_queue=None  # 为了演示简单，不做限制
    )

    # 初始化实时会话
    await openai_ws.send(json.dumps({
        "type": "session.update",
        "session": {
            "turn_detection": {"type": "server_vad"},
            "input_audio_format": f"pcm_{PCM_SR}",
            "output_audio_format": f"pcm_{PCM_SR}",
            "voice": VOICE,
            "modalities": ["audio"],
            "instructions": "You are a concise AI assistant."
        }
    }))

    last_assistant_item = None          # 追踪当前助手回复
    latest_pcm_ts       = 0             # 来自客户端的 ms 时间戳
    pending_marks       = []

    async def from_client() -> None:
        """将麦克风 PCM 数据块从浏览器中继 → OpenAI。"""
        nonlocal latest_pcm_ts
        async for msg in ws.iter_text():
            data = json.loads(msg)
            pcm = base64.b64decode(data["audio"])
            latest_pcm_ts += int(len(pcm) / (PCM_SR * 2) * 1000) 
            await openai_ws.send(json.dumps({
                "type": "input_audio_buffer.append",
                "audio": base64.b64encode(pcm).decode("ascii")
            }))

    async def to_client() -> None:
        """中继助手音频 + 处理打断。"""
        nonlocal last_assistant_item, pending_marks
        async for raw in openai_ws:
            msg = json.loads(raw)

            # 助手发言
            if msg["type"] == "response.audio.delta":
                pcm = base64.b64decode(msg["delta"])
                await ws.send_json({"audio": 
                    base64.b64encode(pcm).decode("ascii")})
                last_assistant_item = msg.get("item_id")

            # 用户开始说话 → 取消助手语音
            started = "input_audio_buffer.speech_started"
            if msg["type"] == started and last_assistant_item:
                await openai_ws.send(json.dumps({
                    "type": "conversation.item.truncate",
                    "item_id": last_assistant_item,
                    "content_index": 0,
                    "audio_end_ms": 0   # 立即停止
                }))
                last_assistant_item = None
                pending_marks.clear()

    try:
        await asyncio.gather(from_client(), to_client())
    finally:
        await openai_ws.close()
        await ws.close()

if __name__ == "__main__":
    import uvicorn
    uvicorn.run(app, host="0.0.0.0", port=PORT)

100

101

102

103

import os, json, base64, asyncio, websockets

from fastapi import FastAPI, WebSocket

from dotenv import load_dotenv

load_dotenv()

OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")

VOICE = "alloy" # GPT-4o 声音

PCM_SR = 16000 # 我们将在客户端使用的采样率

PORT = 5050

app = FastAPI()

@app.websocket("/voice")

async def voice_bridge(ws: WebSocket) -> None:

"""

1. 浏览器打开 ws://localhost:5050/voice

2. 浏览器流式传输 base64 编码的 16 位单声道 PCM 数据块: {"audio": "<b64>"}

3. 我们将数据块转发给 OpenAI Realtime (`input_audio_buffer.append`)

4. 我们以同样的方式将助手的音频增量中继回浏览器

5. 我们监听 'speech_started' 事件，如果用户打断则发送截断指令

"""

await ws.accept()

# websockets < 13 uses extra_headers, >= 13 uses additional_headers

import websockets.version

ws_version = tuple(map(int, websockets.version.version.split('.')[:2]))

headers = {

"Authorization": f"Bearer {OPENAI_API_KEY}",

"OpenAI-Beta": "realtime=v1"

}

header_param = "additional_headers" if ws_version >= (13, 0) else "extra_headers"

openai_ws = await websockets.connect(

"wss://api.openai.com/v1/realtime?" +

"model=gpt-4o-realtime-preview-2024-10-01",

**{header_param: headers},

max_size=None, max_queue=None # 为了演示简单，不做限制

)

# 初始化实时会话

await openai_ws.send(json.dumps({

"type": "session.update",

"session": {

"turn_detection": {"type": "server_vad"},

"input_audio_format": f"pcm_{PCM_SR}",

"output_audio_format": f"pcm_{PCM_SR}",

"voice": VOICE,

"modalities": ["audio"],

"instructions": "You are a concise AI assistant."

}

}))

last_assistant_item = None # 追踪当前助手回复

latest_pcm_ts = 0 # 来自客户端的 ms 时间戳

pending_marks = []

async def from_client() -> None:

"""将麦克风 PCM 数据块从浏览器中继 → OpenAI。"""

nonlocal latest_pcm_ts

async for msg in ws.iter_text():

data = json.loads(msg)

pcm = base64.b64decode(data["audio"])

latest_pcm_ts += int(len(pcm) / (PCM_SR * 2) * 1000)

await openai_ws.send(json.dumps({

"type": "input_audio_buffer.append",

"audio": base64.b64encode(pcm).decode("ascii")

}))

async def to_client() -> None:

"""中继助手音频 + 处理打断。"""

nonlocal last_assistant_item, pending_marks

async for raw in openai_ws:

msg = json.loads(raw)

# 助手发言

if msg["type"] == "response.audio.delta":

pcm = base64.b64decode(msg["delta"])

await ws.send_json({"audio":

base64.b64encode(pcm).decode("ascii")})

last_assistant_item = msg.get("item_id")

# 用户开始说话 → 取消助手语音

started = "input_audio_buffer.speech_started"

if msg["type"] == started and last_assistant_item:

await openai_ws.send(json.dumps({

"type": "conversation.item.truncate",

"item_id": last_assistant_item,

"content_index": 0,

"audio_end_ms": 0 # 立即停止

}))

last_assistant_item = None

pending_marks.clear()

try:

await asyncio.gather(from_client(), to_client())

finally:

await openai_ws.close()

await ws.close()

if __name__ == "__main__":

import uvicorn

uvicorn.run(app, host="0.0.0.0", port=PORT)

更多代码请参见：https://github.com/alanhou/ai-agent

展望未来，随着成本下降、延迟降低、语音识别改进以及与后端工具更好的编排，我们可能会在未来几年看到高级语音界面的大量采用。在医疗保健领域，语音智能体可以协助医生在患者咨询期间进行免手持记录。在客户服务中，它们正在用流畅、像人一样的对话取代僵化的交互式语音应答 (IVR) 系统，以端到端地解决问题。在工业应用中，工人可以在不停下手中任务的情况下控制机器、记录观察结果或访问手册。

归根结底，语音界面对于简短、免提任务、快速查询和以行动为导向的工作流最为有效，而不是用于密集的信息消费或需要快速略读或并排比较的复杂决策。

如果设计周到，语音和语音界面在智能体交互中提供了无与伦比的便利性、可访问性和灵活性。随着这些技术继续成熟并与后端工具和知识系统深度集成，它们有望在日常工作流、个人助理和企业解决方案中变得不可或缺——从根本上改变用户与 AI 驱动的智能体交互的方式。

基于视频的界面 (Video-Based Interfaces)

基于视频的界面是智能体交互的一种新兴模态，将视觉、听觉，有时还有文本元素融合到单一的聚合体验中。这些界面的范围从模拟面对面对话的视频虚拟化身，到嵌入实时视频协作工具中的智能体。随着视频在我们的数字生活中变得越来越普遍——通过 Zoom、Microsoft Teams 和虚拟活动空间等平台——智能体正在寻找融入这些环境的新方法。虽然其中许多体验仍处于恐怖谷（uncanny valley）阶段，但快速的改进表明这项技术正接近黄金时段，越来越多的团队将开始围绕它构建体验。

视频界面的核心优势之一是它们能够将多种感官通道——视觉线索、语音、文本覆盖和动画——结合成更丰富、更具表现力的交互。视频智能体可以模仿人类的表情和手势，为其沟通增添情感细微差别。例如，一个 AI 驱动的客户服务虚拟形象可能会使用面部表情和手势来安抚沮丧的客户，用视觉同理心补充其口头回复。

然而，视频界面伴随着技术和设计挑战。高质量的视频交互需要巨大的处理能力和带宽，这可能会引入延迟或像素化，破坏用户体验。恐怖谷仍然是一个风险——如果智能体的面部表情、手势或口型同步感觉稍微不对劲，它可能会引起不适而不是参与感。此外，隐私问题在视频智能体中被放大，因为用户可能会对与 AI 系统共享视觉数据感到不安。

展望未来，视频界面有望实现显著增长，特别是随着渲染、实时动画和带宽优化的改进解决了当前的限制。在不久的将来，预计会看到智能体无缝嵌入到虚拟会议、增强现实 (AR) 叠加和数字客户服务虚拟形象中。

如果是深思熟虑地执行，视频界面能为智能体交互提供引人入胜的、类人的维度，增强清晰度、情感连接和整体有效性。随着技术的进步，基于视频的智能体将在远程医疗、教育、远程协作和互动娱乐等行业发挥更大的作用，重塑人类和智能体在沉浸式数字空间中的沟通方式。

结合模态以实现无缝体验

虽然每种交互模态——文本、图形界面、语音和视频——都有其自身的优势和局限性，但最引人注目的智能体体验通常将多种模态结合到单一、聚合的用户旅程中。用户不会按照模态边界来思考；他们只是想尽可能轻松自然地实现目标。能够在模态之间无缝切换——并在整个过程中保持状态和上下文——是伟大的智能体系统设计的标志。

例如，用户可能在驾驶时通过语音开始与智能体交互，走进会议室时在手机上通过文本继续对话，随后在笔记本电脑上查看总结结果的图形仪表盘。在另一个场景中，语音助手可能会在发送带有随附图表的详细文本版本以供后续参考之前，先读出分析报告的摘要。这种模态之间的流畅转换保留了用户上下文，尊重情境约束，并在每个时刻提供正确的交互风格。

为模态流动性进行设计需要细致的状态管理和上下文持久化，以便信息、任务进度和用户偏好永远不会在转换中丢失。智能体还必须调整其沟通风格以适应每种模态——例如，提供简洁的口头摘要，同时提供更详细的文本输出以供审查。

这是人机交互领域的一个激动人心的时刻。基础模型、多模态架构和智能体编排的最新进展正在解锁与智能系统交互的全新方式。这是第一次，在单一、统一的工作流中构建跨文本、语音、图像和视频吸引用户的智能体在技术上变得可行。

然而，尽管技术前沿正在迅速扩展，但必须记住核心的 UX 和产品原则保持不变。构建成功的智能体体验不是为了展示最新的模态集成或生成式 UI 能力本身。而是要深刻理解用户，满足他们的需求，并创造直观、值得信赖和令人愉悦的体验来解决他们生活中的实际问题。

最好的产品不是那些展示技术复杂性的产品，而是那些以优雅和不引人注目的方式利用技术来放大人类能力的产品。当我们继续推动模态设计的边界时，应脚踏实地，坚持伟大产品设计的永恒目标：创造人们喜欢使用的工具，让他们的生活更轻松，并赋予他们实现最重要目标的能力。

自主性滑块 (The Autonomy Slider)

UX 设计中一个关键但经常被忽视的维度是授予智能体的自主性水平。正如 Andrej Karpathy 所描述的，有效的智能体系统应允许用户平滑地调整智能体的自主性——从完全手动控制到部分自动化，再到完全自主操作。这个概念通常被称为自主性滑块（Autonomy Slider），它赋予用户权力，让他们选择在任何给定时间希望保留多少控制权与通过代理释放多少控制权。图 3-4 展示了一个简单的自主性滑块界面示例，使用户能够根据任务、信任和上下文将智能体设置为“手动”、“询问”或“代理”模式。

使用AI智能体构建应用-第三章智能体系统的用户体验设计

图 3-4. 自主性滑块让用户能够调整智能体的独立程度，范围从完全手动控制，到辅助的“询问”模式，再到完全自主的智能体执行。这种灵活性通过将系统行为与用户偏好、任务复杂性和上下文对齐来建立用户信任。

不同的用户、任务和上下文需要不同程度的智能体自主性。在某些情况下，用户更喜欢完全手动控制以确保精确性，而在其他情况下，他们可能希望将常规或复杂任务完全交付给智能体。关键是，这些偏好不是静态的；它们随着用户信任、任务熟悉度、风险和工作负载而演变。例如：

手动 (Manual): 开发者自己编写所有代码，无需智能体协助。IDE 纯粹充当带有语法高亮和代码检查的编辑器，但没有 AI 驱动的建议。
询问 (Ask/Assisted): 智能体主动建议代码补全、重构或文档片段，但开发者在应用之前审查并接受每个建议。这种模式加快了开发速度，同时让人类完全处于控制之中。
代理 (Agent): 智能体自主执行某些任务，例如应用标准重构、修复代码检查错误，或根据项目惯例生成样板代码文件，而无需单独批准。开发者会收到更改通知，但不需要批准每个操作。

使用AI智能体构建应用-第三章智能体系统的用户体验设计

这三种模式展示了自主性滑块如何赋予开发者在单一界面内平衡控制与效率的能力。同样的原则也适用于软件开发之外。例如，在客户支持平台中：

手动: 人类座席自己处理所有传入的客户查询。AI 不活动或仅用于后端分析，不用于一线交互。
询问 (Assisted): 智能体起草建议的回复，浮现推荐的响应、政策参考或故障排除步骤。人类座席审查、必要时编辑，并在发送前批准回复。这加快了响应时间，同时保持了人类的判断力。
代理 (Agent): 智能体自主处理常规查询——如密码重置、订单跟踪或常见问题解答——无需人工干预，仅将复杂或敏感问题升级给人类座席。用户会收到智能体操作的通知，但不需要批准标准交互的每条消息。

这三种模式共存于同一个客户支持系统中，使团队能够根据查询复杂性、客户概况和组织对 AI 的信任度来调整自主性。同样的自主性滑块模式可以扩展到任何受益于在手动执行、AI 协助和完全智能体自动化之间流畅切换的工作流领域。这种自主性频谱必须有意识地设计到智能体体验中。如果没有它，智能体就有可能感觉动力不足（如果它们需要太多手动输入）或过于霸道（如果它们在敏感上下文中未经用户同意就采取行动）。为了有效地集成自主性滑块，请考虑以下设计原则：

清晰地暴露自主性程度：用户应了解可用的智能体独立级别，从手动到辅助再到自主。用直观的语言标记这些模式，如“手动”、“辅助”和“自动”，并解释其含义。
实现无缝过渡：随着信心、上下文或工作负载的变化，用户必须能够毫不费力地在自主性级别之间切换。例如，界面中的切换开关或滑块应提供从审查模式到自动批准模式的快速过渡。
在每个级别提供可预测和透明的行为：每个自主性级别都应有明确定义的行为。例如，在部分自动化中，智能体可以草拟输出，但在执行前需要用户明确批准。在完全自主中，它仍应提供状态更新和干预选项。
传达每个级别的风险和收益：用户应意识到通过增加智能体自主性他们获得了什么或冒了什么风险。对于关键任务，建议在启用完全自主性之前要求明确的用户确认。
根据用户信任和能力调整自主性：智能系统可以随着用户获得信任以及智能体证明其可靠性，逐渐建议更高的自主性级别。例如，在手动模式下成功使用 10 次后，系统可能会建议尝试辅助模式以节省时间。

重要的是，自主性滑块不仅仅是一个功能——它是一个建立信任的机制。通过让用户控制智能体行使多少自主权，系统传达了对用户专业知识和代理权的尊重。它避免了“一刀切”式自主性的常见陷阱，即要么让用户不知所措，要么未能充分利用用户潜力。始终要问：用户在手动、辅助和完全自主模式之间切换的便利程度？这个问题的答案将决定你的智能体是被采纳为可靠的合作伙伴，还是作为不可信的工具被边缘化。

同步与异步智能体体验 (Synchronous Versus Asynchronous Agent Experiences)

智能体系统可以在同步或异步模式下运行，每种模式都提供独特的优势和挑战。在同步体验中，交互是实时发生的，用户与智能体之间有即时的来回交流。这些体验在聊天界面、语音对话和实时协作工具中很常见，其中快速响应对于保持流畅和参与度至关重要。相比之下，异步体验使智能体和用户能够独立操作，沟通随着时间的推移间歇性发生。例子包括类似电子邮件的交互、任务通知或在流程完成后交付的智能体生成的报告。

同步与异步设计之间的选择在很大程度上取决于任务的性质、用户期望和操作上下文。虽然同步智能体在需要即时反馈或现场决策的任务中表现出色，但异步智能体更适合任务可能需要较长时间、需要后台处理或不需要用户持续关注的工作流。在这些模式之间取得适当的平衡——并管理智能体何时主动吸引用户——可以极大地影响用户满意度和系统的整体有效性。两者都是有用且有效的模式，但强烈建议明确区分哪些体验属于哪一类，以免用户最终只能盯着旋转的光标等待。

使用AI智能体构建应用-第三章智能体系统的用户体验设计

同步体验的设计原则

同步智能体体验依靠即时性、清晰度和响应性而蓬勃发展。在这些设置中，用户期望智能体快速响应，并在没有明显延迟的情况下保持对话流畅和上下文。无论是在实时聊天、语音通话还是实时数据仪表盘中，同步交互都需要低延迟和上下文感知，以避免令人沮丧的停顿或重复的问题。

同步环境中的智能体应优先考虑回复的清晰度和简洁性。冗长的解释或过于复杂的输出可能会破坏实时交互的节奏。此外，交替发言机制——知道何时回应、何时等待以及何时升级——对于保持自然和富有成效的对话流至关重要。视觉线索，如打字提示或执行进度，可以让用户确信智能体正在积极处理他们的输入。

错误处理在同步设计中同样重要。智能体必须优雅地从误解或失败中恢复，而不会让交互脱轨。当出现不确定性时，同步智能体应提出待澄清问题或温和地重定向给用户，而不是做出有风险的假设。这些原则创造了一种流畅、直观的体验，使用户保持参与并在没有不必要摩擦的情况下维持上下文。

异步体验的设计原则

异步智能体体验优先考虑灵活性、持久性和随时间推移的清晰度。这些交互通常发生在不需要立即响应的上下文中，例如当智能体正在处理长时间运行的任务、准备详细报告或监控后台事件时。

有效的异步智能体必须擅长清晰地传达任务状态和结果。用户应始终了解智能体在做什么、任务处于什么阶段以及何时可以期待更新。通知、摘要和结构良好的报告成为保持透明度的关键工具。例如，生成分析报告的智能体可能会在处理开始时通知用户，提供预计完成时间，并在完成时交付简洁、可操作的摘要。

上下文管理是异步和同步智能体的另一个关键设计原则。由于用户与智能体交互之间可能存在长时间的延迟，智能体必须无缝地保留和引用历史上下文。用户在返回正在进行的任务时不应需要重复信息或回溯先前的步骤。我们将在第六章关于记忆的部分更详细地介绍这一点。

最后，异步智能体必须有效地管理用户期望。清晰的时间表、进度指示器和后续通知可以防止因不确定性或缺乏对智能体工作的可见性而引起的挫败感。

在主动与侵入式智能体行为之间寻找平衡

智能体设计中最微妙的方面之一——无论是同步还是异步——是确定智能体何时以及如何主动吸引用户。主动性可能会非常有帮助，例如当智能体提醒用户注意紧急问题、建议优化或提供及时提醒时。然而，时机不当的通知或侵入式行为可能会让用户感到沮丧，扰乱他们的工作流程，甚至导致他们完全脱离。

平衡主动性的关键在于上下文感知和用户控制。智能体应了解用户当前的关注点、紧迫程度和沟通偏好。例如，在高风险视频会议期间的主动警报破坏性可能远大于帮助，而通过电子邮件发送关于已完成任务的通知可能完全合适。

智能体在主动接触时也应优先考虑相关性。通知和建议必须增加真正的价值——解决问题或提供见解，而不是增加噪音。此外，用户应控制通知频率、渠道和升级阈值，使他们能够自定义智能体行为以适应他们的需求。

取得这种平衡不仅仅在于技术能力——它关乎对用户工作流和心理状态的同理心。设计良好的智能体将主动参与无缝地编织到交互中，提高生产力并减少摩擦，而不会变得令人难以忍受。

上下文留存与连续性 (Context Retention and Continuity)

确保跨用户交互的上下文留存和连续性是设计有效智能体系统的一个重要方面。无论智能体是引导用户通过多步骤工作流、继续暂停的对话，还是根据过去的交互调整其行为，其保持上下文的能力直接影响可用性、效率和用户信任。

虽然上下文留存是一种技术能力，但它本质上是一个 UX 考量，因为它决定了用户是将智能体体验为一个有凝聚力、专注的协作者，还是一个迫使他们重复自己的断开连接的工具。从用户的角度来看，记忆创造了一种连续性、个性化和智能感。如果智能体记住了之前的交互、用户偏好或进行中的任务，它可以无缝地继续对话和工作流，减少认知负载和挫败感。

实现方法直接塑造 UX。纯客户端上下文（例如，存储在浏览器内存中）在会话内可能感觉很快，但跨设备或登录会失去连续性，破坏无缝 UX。纯服务端上下文（例如，存储在绑定到用户 ID 的数据库中）实现了长期记忆和跨设备体验，但可能会引入延迟或隐私考量。混合方法——在客户端维护短期上下文以实现响应性，并在服务端持久化长期上下文以实现连续性——通常能实现最佳的 UX 平衡。选择哪种策略取决于用户旅程(user journey)、隐私要求和预期的个性化程度。归根结底，上下文即 UX：它是智能体记忆、适配和响应的方式，使其感觉是以人为本和支持性的，而不是无状态或机械的。

有效的上下文留存要求智能体有效地管理短期和长期记忆。短期记忆使智能体能够在正在进行的会话中保留细节，例如记住刚才提出的问题的细节或指令。另一方面，长期记忆使智能体能够跨多个会话保留偏好、过去的交互和更广泛的用户模式，使它们能够随时间推移进行适应。

然而，上下文管理引入了挑战。数据持久性、隐私问题和记忆限制都必须得到妥善解决。如果智能体在任务中途丢失了上下文，用户体验可能会感到脱节、重复和令人沮丧。相反，如果智能体保留了太多上下文或存储了不必要的细节，它可能会变得笨重甚至侵犯用户隐私。

在下一节中，我们将探讨上下文留存和连续性的两个关键方面：跨交互维持状态，以及个性化和适应性——这对交付流畅、直观和以用户为中心的智能体体验至关重要。

使用AI智能体构建应用-第三章智能体系统的用户体验设计

跨交互维持状态

状态管理是智能体系统中上下文连续性的基础。为了使交互感觉无缝，智能体必须准确地追踪到目前为止发生了什么，用户打算实现什么，以及下一个逻辑步骤是什么。这在多轮对话、任务交接和具有中间状态的工作流中尤为重要，在这些情况下丢失上下文可能导致挫败、低效和任务放弃。

有效的状态管理取决于系统如何识别和追踪用户或会话。对于已登录用户，状态可以直接绑定到他们的账户，实现跨设备和会话的记忆持久化。对于匿名交互，维持上下文通常需要会话标识符——如 cookie 或令牌——来追踪客户端和服务器之间的对话。

随着智能体系统扩展到成千上万或数百万用户，会话状态不应仅驻留在内存中。将状态持久化在数据库或分布式缓存中可确保跨服务器重启的连续性，支持负载均衡，并支持多设备体验。在基于用户的记忆（持久、个性化）和基于会话的记忆（短暂、会话范围）之间的选择取决于你的应用程序的隐私要求、用户期望和操作架构。无论实施方式如何，强大的识别和存储策略对于大规模交付无缝、上下文感知的智能体体验至关重要。

智能体可以通过短期会话记忆来维持状态，其中正在进行的交互细节——如用户最近的命令或未完成的任务——被临时存储直到会话结束。在更高级的系统中，持久状态管理使智能体能够跨多个会话恢复任务，以便用户不论是几小时或几天后都能从离开的地方继续。

有效的状态保留需要清晰的会话边界、数据验证和回退机制。如果智能体忘记了上下文，它应该通过提出澄清性问题来优雅地恢复，而不是做出错误的假设。此外，状态数据必须得到安全和负责任的管理，特别在当它涉及敏感或个人身份信息时。

如果做得好，维持状态使智能体能够引导用户完成复杂任务而无需不必要的重复，减少认知负载，并创造一种持续协作的感觉。无论智能体是帮助用户预订旅行住宿、解决技术问题还是管理多步骤审批流程，有效的状态管理都能确保交互保持顺畅、合乎逻辑且富有成效。

个性化与适应性

个性化不仅仅是记住上下文——它涉及使用过去的交互和偏好来为个人用户定制智能体的行为、回复和建议。一个适应性强的智能体不仅仅是维持状态；它从以前的交流中学习，以交付日益精炼和相关的结果。个性化可以采取多种形式：

偏好留存： 记住用户设置，如通知偏好或常用选项。
行为适应： 根据观察到的用户模式调整回复风格或交互流程。
主动协助： 预测用户需求并根据过去的行为提供建议。

例如，协助项目管理的智能体可能会识别用户的首选任务跟踪风格，并相应地调整其通知或摘要。同样，客服智能体可能会根据用户喜欢简洁的答案还是详细的解释来调整其语气和冗长程度。

然而，个性化伴随着挑战。必须仔细管理隐私问题，并透明地沟通正在存储什么数据以及如何使用这些数据。此外，智能体必须在有益的适应性和过度执着之间取得平衡——用户应始终可以选择重置或覆盖个性化设置。

最好的个性化是隐形但有影响力的，智能体微妙地改善用户体验而不引起对其调整的注意。在其巅峰状态，个性化创造了一种体验，让用户感到被理解和支持，仿佛智能体是一个体贴的合作者，而不是一个机械工具。

沟通智能体能力 (Communicating Agent Capabilities)

设计有效智能体体验最关键的方面之一是确保用户了解智能体能做什么以及如何有效地与它交互。虽然智能体的后端设计决定了它支持什么功能，但用户体验决定了这些能力在实践中是否可发现、直观和可用。在传统应用程序中，可发现性是直截了当的：菜单、按钮和界面元素在视觉上传达可用的操作。在智能体系统中，特别是那些使用文本或语音界面的系统，功能可见性的不足通常让用户不得不猜测智能体能做什么和不能做什么。

有效的智能体 UX 通过界面本身主动传达能力来解决这一挑战。例如，许多基于聊天的智能体在输入字段下方包含建议操作按钮，突出显示常见或上下文相关的操作，如“跟踪订单”、“生成摘要”或“创建会议记录”。这些按钮充当视觉功能可供性，引导用户走向所支持的工作流，而无需他们记住特定命令或猜测什么是可能的。同样，引导教程或首次使用演示可以向用户介绍智能体的核心功能，帮助他们尽早建立信心。

另一个有用的模式是包含可展开的菜单或能力卡片，以结构化的方式列出可用功能。例如，在图形智能体界面中，侧边栏可能包含用于数据检索、分析、摘要和工作流自动化的部分。这模拟了用户在传统应用程序中期望的菜单结构，同时预先传达了智能体能力的广度。动态建议，即系统根据用户输入推荐操作，也有助于弥合开放式自然语言与结构化工具调用之间的差距。如果用户开始输入“预订…”，智能体可能会建议“与 [姓名] 预订会议”、“预订会议室”或“预订旅行”，预测意图并使操作更易于执行。

在主要依赖开放式文本输入的系统中，智能体本身必须在对话中清楚地传达其能力。这可以包括会话开始时的主动介绍，例如：“您好，我可以帮您生成内容、分析数据或总结文档。您今天想做什么？”当用户请求超出当前能力的操作时，智能体不应简单地拒绝请求，而应提供替代方案：“我无法直接处理付款，但我可以更新您的账单偏好或将您连接到可以提供帮助的座席。”这种回复减少了用户的挫败感，同时强化了智能体的效用。

虽然展示能力很重要，但同样关键的是不要一次性用太多选项淹没用户。有效的设计优先考虑渐进式披露，最初显示核心能力，并在用户变得更舒适时揭示高级功能。上下文相关性也起着关键作用。根据当前用户输入、历史行为或工作流阶段显示最可能的动作，确保智能体感觉是支持性的而不是杂乱的。菜单或建议操作中的视觉分组和清晰层级有助于用户高效地浏览可用选项。

这些原则适用于各种模态。在基于文本的聊天界面中，快速回复按钮和示例提示提高了清晰度。在图形仪表盘中，能力菜单和工具提示传达功能而不拥挤界面。语音智能体必须在简洁与清晰之间取得平衡，一次只列出几个高优先级选项，以避免认知过载。生成式 UI 系统可以结合自然语言和动态生成的视觉输出，使可用能力立即可见且可操作。

归根结底，沟通智能体能力不仅仅是陈述智能体能做什么；它是关于设计一种体验，使用户能够自信高效地利用这些能力。当用户了解智能体的范围和局限性时，他们更有可能进行富有成效的互动，信任其输出，并将其集成到他们的工作流中。深思熟虑的 UX 设计将隐形功能转化为可见的功能可供性，将智能体从不透明的黑盒转变为透明、协作的数字伙伴。

使用AI智能体构建应用-第三章智能体系统的用户体验设计

沟通信心与不确定性

智能体通常在概率环境中运行，基于统计模型而不是确定性规则生成输出。因此，并非每个回复或动作都带有相同程度的信心。有效地沟通不确定性对于建立用户信任和帮助用户做出明智决策至关重要。

信心水平可以通过几种方式表达：

明确陈述： “我有 90% 的把握这是正确答案。”
视觉线索： 图形界面中的图标、颜色编码警报或信心仪表。
行为调整： 当信心较低时提供建议而不是坚定的推荐。

当不确定性很高时，智能体必须避免显得过于自信——如果智能体自信地交付了错误或误导性的回复，用户很快就会失去信任。同样，在低风险交互中过度对冲可能会使智能体显得犹豫或不可靠。

沟通信心和不确定性不仅仅是分享概率；它是关于以符合用户期望和交互风险的方式构建回复。在关键情境中，透明度是不可谈判的，而在低风险设置中，信心可以表现得更随意。

寻求用户的指导与输入

没有任何智能体，无论多么先进，能完美地解释模棱两可、模糊或冲突的用户输入。与其做出有风险的假设，智能体必须知道何时提出澄清性问题或寻求用户指导。这种能力将潜在的错误转化为协作的机会。

有效的智能体被设计为在遇到歧义时提出有针对性的、有帮助的问题。例如，如果用户说“给我订一张去芝加哥的票”，智能体可能会回答“您想要单程还是往返票，您有偏好的旅行日期吗？”智能体利用这个机会完善其理解，而不是默认为通用回复或做出错误的假设。

智能体寻求指导的方式也很重要。问题应清晰、礼貌且具有上下文感知能力，避免机械或重复的措辞。如果用户在对话的早期已经回答了问题的部分内容，智能体应引用该上下文而不是从头开始。

此外，智能体应透明地说明为什么要寻求澄清。一个简单的解释，如“我需要更多信息才能准确处理”，有助于用户理解问题背后的理由。

最后，智能体应避免一次问太多问题——这可能会让用户不知所措，使交互感觉像审讯。相反，它们应按逻辑顺序提问，首先解决最关键的歧义。

当智能体自信地寻求指导和输入时，它们将不确定性转化为富有成效的协作，赋予用户引导智能体走向成功结果的权力，同时保持伙伴关系和共享控制感。

优雅地失败 (Failing Gracefully)

在智能体系统中，失败是不可避免的。无论是由于数据不完整、用户输入模糊、技术限制还是意外的边缘情况，智能体都会遇到无法满足请求或完成任务的场景。然而，智能体如何处理失败与其如何处理成功同样重要。一个设计良好的智能体不仅会失败——它会优雅地失败，最大限度地减少用户挫败感，保持信任，并提供清晰的前进路径。

在其核心，优雅地失败涉及透明地承认问题，提供有帮助的解释，并建议可操作的后续步骤。例如，如果智能体无法找到查询的答案，它可能会回答“我找不到您要找的信息；您希望我将其升级给人工客服吗？”而不是产生错误或无意义的回复。

智能体还应设计为预测常见的失败点，并制定预定义的回退机制。例如，如果基于语音的智能体难以理解重复的用户输入，它可能会切换到基于文本的选项或提供清晰的解释，例如：“我很难理解您的请求。请您尝试重新措辞或输入您的问题好吗？”

在多步骤任务中，当智能体遇到失败时，状态保存同样重要。与其要求用户从头开始，智能体应保留进度并允许用户在问题解决后从中断的地方继续。这防止了不必要的重复和挫败。

优雅失败的另一个关键方面是道歉和同理心的语言。当出现问题时，智能体应以感觉人性化和体贴的方式承认失败，避免冷漠或过于技术的错误消息。例如：“很抱歉；处理您的请求时出错了。让我再试一次或将您连接到可以提供帮助的人。”

此外，智能体应提供清晰的解决路径。无论是提供故障排除步骤、升级给人工操作员，还是引导用户到替代资源，当智能体遇到障碍时，用户应始终知道有哪些选项可供选择。

最后，智能体必须尽可能从失败中学习。记录失败点，分析反复出现的问题，并将这些见解反馈到开发过程中，可以帮助减少未来类似失败的频率。根据失败模式迭代改进的智能体将随着时间的推移变得越来越有弹性和可靠。

总之，优雅地失败是关于即使在事情未按计划进行时也能维持用户信任并最大限度地减少挫败感。通过保持透明、同理心和行动导向，智能体可以将失败转化为加强与用户关系的机会，即使在不完美的时刻也能展示可靠性。

使用AI智能体构建应用-第三章智能体系统的用户体验设计

交互设计中的信任 (Trust in Interaction Design)

信任是点滴积累，斗量失去的。这无疑也适用于智能体系统。没有它，即使是最先进的智能体系统也难以获得用户的接受，无论其能力如何。透明度和可预测性是建立和维持智能体与用户之间信任的两个最强大的工具。用户需要了解智能体能做什么，它为什么做出特定决定，以及它的局限性是什么。这种清晰度可以培养信心，减少焦虑，并鼓励富有成效的协作。

透明度始于对智能体能力和约束的清晰沟通。用户永远不应该猜测智能体是否可以处理任务或它是否在其预期范围内运行。当智能体为其行动提供解释时——无论是它是如何得出建议的，为什么拒绝请求，还是它如何解释模棱两可的指令——它们为用户提供了对其推理的可见性。这不仅是关于建立信任；它还有助于用户完善他们的指令，提高未来交互的质量。

可预测性通过确保智能体在不同场景下表现一致来补充透明度。用户应能够根据先前的交互预测智能体将如何响应。不稳定或不一致的行为，即使在技术上是正确的，也会迅速侵蚀信任。例如，如果智能体在一个情境中建议采取谨慎的方法，但在几乎相同的场景中显得过于自信，用户可能会开始质疑智能体的可靠性。

然而，透明度并不意味着用不必要的细节淹没用户。用户不需要看到智能体推理过程的每一步——他们只需要足够的洞察力来对其行动感到自信。取得这种平衡需要深思熟虑的界面设计，使用视觉线索、状态消息和简短解释来沟通正在发生的事情，而不会造成认知过载。

当信任和透明度被优先考虑时，智能体系统不仅仅是工具——它们成为可靠的合作者。用户感到自信地委托任务，遵循智能体建议，并在休闲和高风险场景中依赖其输出。在本节的剩余部分，我们将探讨信任建立的两个关键组成部分：确保智能体行为的可预测性和可靠性。

可预测性和可靠性是信任的基础。用户必须能够指望智能体表现一致，响应得当，并优雅地处理错误。表现不稳定、给出冲突输出或产生意外行为的智能体——即使偶尔是正确的——也会迅速破坏用户信心。

可靠性始于智能体输出的一致性。如果用户在相同条件下问智能体相同的问题，他们应该收到相同的回复。在不可避免的可变性情况下（例如，来自语言模型的概率输出），智能体应清楚地发出信号，说明答案何时是不确定的或依赖于上下文的。

智能体还必须深思熟虑地处理边缘情况。例如，当它们遇到数据不完整、指令冲突或用户输入模糊时，它们应做出可预测的反应——要么提出澄清性问题，要么提供中立的回退回复，要么适当地升级问题。

可靠性的另一个关键方面是系统弹性。智能体应设计为从错误中恢复，跨中断维持状态，并防止级联故障。例如，如果智能体失去与外部 API 的连接，它应通知用户，解释问题，并提供明智的后续步骤，而不是默默失败或产生误导性输出。

最后，可靠性是关于始终如一地设定和满足期望。如果智能体声称它可以处理特定任务，它必须每次都兑现该承诺。期望错位——智能体过度承诺却交付不足——可能比仅仅预先承认局限性对用户信任造成的损害更大。

当智能体表现得可预测且可靠时，它们就变成了可依赖的数字伙伴，赋予用户信任其输出、自信地委托任务并依赖它们进行关键决策的权力。

使用AI智能体构建应用-第三章智能体系统的用户体验设计

结论 (Conclusion)

为智能体系统设计卓越的用户体验远远超出了技术功能——它需要理解人类如何跨不同模态、上下文和工作流与技术交互。无论是通过文本、图形界面、语音还是视频，每种交互模态都有其自身的优势、权衡和独特的设计考量。成功的智能体体验是那些模态与用户的任务、环境和期望无缝对齐的体验。

同步和异步智能体体验提出了独特的设计挑战，需要对时机、响应性和清晰度采取深思熟虑的方法。同步交互要求即时性和对话流畅度，而异步交互在持久性、透明度和深思熟虑的通知方面表现出色。在主动协助和侵入性干扰之间取得适当的平衡仍然是智能体设计中最微妙的方面之一。

卓越的智能体无缝地保留上下文并适应用户，跨交互记住关键细节并智能地适应用户偏好。这种能力不仅减少了认知负荷，而且培养了一种连续性和协作感，将智能体从孤立的工具转变为可靠的数字伙伴。请记住以下常见模式：

清晰地沟通能力： 通过引导、建议或按钮向用户展示智能体能做什么。
深思熟虑地结合模态： 将文本、GUI、语音或视频与任务和用户上下文对齐。
深思熟虑地保留上下文： 维持相关的对话状态而不淹没记忆或侵犯隐私。
优雅地处理错误： 当智能体无法满足请求时提供清晰、礼貌的回退。
建立信任： 对局限性、信心和推理保持透明。

同样重要的是智能体如何沟通其能力、局限性和不确定性。清晰的期望、诚实的信心信号和深思熟虑的澄清问题可以创造信任，减少挫败感，并防止误解。智能体还必须知道如何优雅地失败，引导用户走向替代解决方案，而不会让他们感到无助或困惑。

最后，通过可预测性、透明度和负责任的设计选择来建立信任，确保用户可以依赖智能体。信任不仅通过成功赢得，也通过智能体如何处理歧义、失败和恢复来赢得。

随着智能体格局的不断变化和扩展，设计师和开发者必须保持敏捷——不断重新评估交互范式，适应新的多模态能力，并尝试新颖的 UX 模式。此处描述的设计模式提供了一个强大的起点，但智能体 UX 的未来将由模态、上下文管理和人机协作方面的快速创新所塑造。在未来的岁月里，智能体系统将继续演变，更深入地嵌入到我们的个人和职业生活中。本章概述的原则——专注于清晰度、适应性、透明度和信任——为创建不仅功能齐全，而且直观、引人入胜且与人类需求深度契合的智能体体验提供了蓝图。

通过在开发的每个阶段优先考虑 UX，我们可以确保智能体不仅成为工具，而且成为我们日益智能的数字生态系统中不可或缺的伙伴。在第四章中，我们将介绍工具使用 (Tool Use)，这是我们如何从普通聊天机器人迈向能够为用户做实际工作的系统的关键。

翻译整理自Building Applications with AI Agents一书，仅供学习交流使用

交互模态 (Interaction Modalities)

基于文本 (Text-Based)

图形化界面 (Graphical Interfaces)

语音和声控界面 (Speech and Voice Interfaces)

基于视频的界面 (Video-Based Interfaces)

结合模态以实现无缝体验

自主性滑块 (The Autonomy Slider)

同步与异步智能体体验 (Synchronous Versus Asynchronous Agent Experiences)

同步体验的设计原则

异步体验的设计原则

在主动与侵入式智能体行为之间寻找平衡

上下文留存与连续性 (Context Retention and Continuity)

跨交互维持状态

个性化与适应性

沟通智能体能力 (Communicating Agent Capabilities)

沟通信心与不确定性

寻求用户的指导与输入

优雅地失败 (Failing Gracefully)

交互设计中的信任 (Trust in Interaction Design)

结论 (Conclusion)

Hi，您需要填写昵称和邮箱！