代码 & 数学

豆包AI手机背后的VL模型

December 19, 2025

根据公开报道，豆包AI手机使用的模型是基于UI-TARS在手机上优化的闭源版本，UI-TARS是在阿里的Qwen2 VL上做SFT得来的，目前开源了7b的版本（Qwen2 VL开源了3b-72b的模型）。这里不再多介绍Qwen（Qwen2 VL其实也已经有了UI Operation的功能），主要关注UI-TARS模型在Qwen2 VL上的进一步改进，分数据和训练两部分。

PyTorch训练加速的量化分析

November 3, 2020

本文从一个baseline出发，通过软件+硬件各种方法逐步对训练速度进行优化，最终将训练时间减少为1/8

神经网络架构搜索(NAS)中的milestones

December 1, 2019

神经网络架构搜索(NAS)今年也是火的不行，本文简单梳理一下个人觉得比较有代表意义的工作，如果有错误或者遗漏欢迎大家指出hhhh

在深度学习中喂饱gpu

August 12, 2019

前段时间训练了不少模型，发现并不是大力出奇迹，显卡越多越好，有时候1张v100和2张v100可能没有什么区别，后来发现瓶颈在其他地方，写篇文章来总结一下自己用过的一些小trick

Learning to Push by Grasping: Using multiple tasks for effective learning

November 22, 2018

目前end-to-end的学习框架在机器人控制的领域内变得流行起来，这些框架的直接输入是状态/图像，然后直接输出预测的扭矩和动作参数。但是由于其对于数据的大量需求而受到了批判，并兴起了对于其可扩展性的讨论，即end-to-end的学习方式是否需要为每一个任务都单独建立一个模型？从直觉上来说任务间的共享是有帮助的，因为其对环境都需要有一些共同的理解。在该论文中尝试了数据驱动的end-to-end学习框架的下一步，即从特定任务的模型到多机器人任务的联合模型，得到了令人惊讶的结果：在同样数据量下多任务学习的效果要优于单任务学习。比如说对于grasp任务，2.5k的grasp数据+2.5k的push数据训练下的模型的表现要优于5k的grasp数据训练下的模型。

Playing Atari with Deep Reinforcement Learning

November 17, 2018

这篇论文是Volodymyr Mnih在nips2013上的一篇论文，差不多是DQN的开山之作，另一篇是nature2015年的论文

dataset-cityscapes

November 2, 2018

cityscapes通常被用作语义分割，里面的数据一共分为8个category，其中包含一个名为void的category，每个category中又有多个class，cityscapes一共有30个class，但是cityscapes编号过后的label一共有35种，其中也包含unlabeled等并没有算作class的label。

Efficient Dense Modules of Asymmetric Convolution for Real-Time Semantic Segmentation

October 30, 2018

之前的用于segmentation的网络要么速度比较慢，要么精度比较低，这里设计了一种EDANet模块，将asymmtric conv，dilated conv，dense connectivity相结合。在各个方面上都比FCN要好，并且不具有decoder structure，context module，post-processing scheme和pretrained model。在cityscapes和camvid上做了实验。