
马斯克旗下的人工智能团队xAI今日迈出关键一步:正式向所有网页用户开放Grok语音交互功能。这意味着无需手机APP,在电脑前动动嘴就能唤醒AI助手。此前该功能仅限移动端使用,此次升级直指办公场景痛点——开发者调试代码、设计师修改方案时,双手被键盘鼠标占据的难题终于迎来解法。
个性化语音军团上线
Grok网页版语音功能最引人注目的突破是提供了五款风格迥异的语音角色:幽默随性的Ara、理性严谨的Rex、温和知性的Eve、活力十足的Sal以及神秘硬核的Gork。这种设计让用户能像选择工作搭档般挑选对话风格,而非面对冰冷机械音。现场测试显示,当设计师对着屏幕上的草图说"Eve,这个配色需要调整吗",AI能结合视觉内容给出具体建议。
屏幕共享激活多模态协作
真正改变工作流的秘密武器是屏幕共享功能。用户可将整个桌面或单个应用窗口实时共享给Grok,实现"所见即所答"。开发者展示代码时直接提问:"为什么这个模块报错?"系统会定位问题行并给出修改方案;产品经理共享原型图询问交互逻辑,AI则能标注界面元素提出优化路径。这种"语音+视觉"的双通道交互,正在模糊人类与AI协作的界限。
技术痛点与市场野心并存
尽管有用户反馈初期存在连接不稳定现象,但xAI工程师团队已在社交媒体确认正在紧急修复。目前基础语音功能对所有网页用户免费开放,但消息人士透露,未来专业级功能可能纳入SuperGrok订阅服务。值得关注的是,xAI正在训练专攻编程的垂直模型,后续或将与语音功能结合,形成程序员专属的"实时编程教练"。
相比ChatGPT等竞品,Grok的差异化路线愈发清晰:当其他AI助手还在优化文本对话时,xAI已押注"语音+视觉"的协同战场。尤其网页端突破,使其在远程会议、在线教育等需要大屏协作的场景获得天然优势。技术论坛开发者社区的热议显示,用户更期待该功能与xAI正在研发的视频理解能力结合,实现真正的全模态交互。
AI交互迎来声控时代
Grok语音功能的跨平台落地,标志着AI助手正式进入"动口不动手"的实用阶段。随着编码专用模型与视频能力的持续整合,办公室里的"人机对话"将从科幻走向日常。不过技术团队仍需攻克响应延迟、多模态协同等工程难题——毕竟当设计师急着改稿时,可没耐心对AI说第二遍"刚才卡住了,你听见了吗?"
体验提示:登录grok.com授权麦克风即可开启语音对话,屏幕共享功能需Chrome/Edge最新版浏览器。技术团队建议初期使用避开高峰时段以获得更稳定体验。