技术

豆包AI手机背后的VL模型

December 19, 2025

根据公开报道，豆包AI手机使用的模型是基于UI-TARS在手机上优化的闭源版本，UI-TARS是在阿里的Qwen2 VL上做SFT得来的，目前开源了7b的版本（Qwen2 VL开源了3b-72b的模型）。这里不再多介绍Qwen（Qwen2 VL其实也已经有了UI Operation的功能），主要关注UI-TARS模型在Qwen2 VL上的进一步改进，分数据和训练两部分。

PyTorch训练加速的量化分析

November 3, 2020

本文从一个baseline出发，通过软件+硬件各种方法逐步对训练速度进行优化，最终将训练时间减少为1/8

神经网络架构搜索(NAS)中的milestones

December 1, 2019

神经网络架构搜索(NAS)今年也是火的不行，本文简单梳理一下个人觉得比较有代表意义的工作，如果有错误或者遗漏欢迎大家指出hhhh

在深度学习中喂饱gpu

August 12, 2019

前段时间训练了不少模型，发现并不是大力出奇迹，显卡越多越好，有时候1张v100和2张v100可能没有什么区别，后来发现瓶颈在其他地方，写篇文章来总结一下自己用过的一些小trick

Learning to Push by Grasping: Using multiple tasks for effective learning

November 22, 2018

目前end-to-end的学习框架在机器人控制的领域内变得流行起来，这些框架的直接输入是状态/图像，然后直接输出预测的扭矩和动作参数。但是由于其对于数据的大量需求而受到了批判，并兴起了对于其可扩展性的讨论，即end-to-end的学习方式是否需要为每一个任务都单独建立一个模型？从直觉上来说任务间的共享是有帮助的，因为其对环境都需要有一些共同的理解。在该论文中尝试了数据驱动的end-to-end学习框架的下一步，即从特定任务的模型到多机器人任务的联合模型，得到了令人惊讶的结果：在同样数据量下多任务学习的效果要优于单任务学习。比如说对于grasp任务，2.5k的grasp数据+2.5k的push数据训练下的模型的表现要优于5k的grasp数据训练下的模型。

Playing Atari with Deep Reinforcement Learning

November 17, 2018

这篇论文是Volodymyr Mnih在nips2013上的一篇论文，差不多是DQN的开山之作，另一篇是nature2015年的论文

dataset-cityscapes

November 2, 2018

cityscapes通常被用作语义分割，里面的数据一共分为8个category，其中包含一个名为void的category，每个category中又有多个class，cityscapes一共有30个class，但是cityscapes编号过后的label一共有35种，其中也包含unlabeled等并没有算作class的label。

Efficient Dense Modules of Asymmetric Convolution for Real-Time Semantic Segmentation

October 30, 2018

之前的用于segmentation的网络要么速度比较慢，要么精度比较低，这里设计了一种EDANet模块，将asymmtric conv，dilated conv，dense connectivity相结合。在各个方面上都比FCN要好，并且不具有decoder structure，context module，post-processing scheme和pretrained model。在cityscapes和camvid上做了实验。

Darts: Differentiable Architecture Search

October 22, 2018

这篇论文旨在挑战结构搜索，通过将该任务定义成一个可微分的形式，而不是像传统的做法：在离散的不可微分的空间中利用增强学习来实现结构搜索。该方法基于结构表示的连续松弛，允许使用梯度下降等高效的方法进行结构搜索。后续实验表明该算法在探索高性能的用于图像识别的CNN结构和语言建模的RNN结构上都有良好的表现，并且比现有的state-of-the-art非微分结构要快得多。

Compressing Neural Networks with the Hashing Trick

October 15, 2018

深度网络在移动设备上应用越来越多，一个dilemma变得越来越明显：深度学习的趋势是开发能够吸收更大数据集的模型，然而移动设备的存储空间有限，不能存储过大的模型，这里提出了一种HashedNets，通过减少神经网络的内部固有冗余来实现模型尺寸的减少。HashedNets利用一个低开销的哈希函数来将连接权重随机分组进不同的哈希桶，而同一个哈希桶里面的所有连接都使用同一个参数值，这些参数在标准的反向传播过程中被进行调整。这个哈希过程不会引入额外的内存开销。在不同的benchmark数据集上性能说明HashedNets可以在保留泛化性能的基础上明显减少存储需要。

ShuffleNetV2

October 11, 2018

现在很多的网络设计在计算复杂度方面都只考虑了非直接度量（比如FLOPs），而对于直接度量（如速度等）并不只是由FLOPs来决定的，包括MAC（内存访问消耗）和平台特性都对速度有一定的影响。本文意在特定平台下进行直接度量，比仅仅考虑FLOPs要更好，并且在基于一系列控制实验下提出了一些对于高效率网络的指导准则，根据这些准则提出了ShuffleNetV2这样一种新的网络结构，全面的ablation experiments表明该模型在性能和精度的权衡上达到了state-of-the-art。

ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices

October 10, 2018

本文介绍了一种很高效的网络ShuffleNet，其主要在于pointwise group conv和channel shuffle两种操作，可以在维持精度的时候大量减少计算消耗，在ImageNet和COCO上面的表现都超过了之前的网络

MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

October 4, 2018

针对移动和嵌入式视觉应用，本文提出了一种高效的模型称之为MobileNets，基于depthwise separable convolutions构造的一种轻量级神经网络。该模型使用两个超参数来平衡准确率和延迟，并针对二者的平衡在ImageNet上做了广泛的实验，与其他模型相比展现出了强大的性能。并通过实验展现了ImageNet在各种应用上的强大之处，包括目标检测，精细化分类，人脸属性和大范围地理定位等。

InceptionV4总结

September 28, 2018

近些年，非常深的卷积神经网络在提升图像识别的性能表现上具有最大的促进作用。而Inception网络结构在具有很好的性能的同时还具有相对较低的计算消耗。最近的残差连接与传统结构的结合在2015 ILSVRC上取到了最好的结果，与InceptionV3的效果相近。考虑将Inception网络与残差连接相结合，充分的证据表明残差连接可以很大程度上加速Inception网络的训练，同样也有证据表明残差连接的Inception相比不带残差连接的几乎同样计算量的Inception网络性能要稍有优势。本文也提出了一些新的残差连接和不带残差连接的Inception网络，这些改变同样也明显改善了2012 ILSVRC的单帧分类性能。最后还提到了利用合适的激活缩放可以使非常宽的残差连接Inception网络的训练变得更加稳定。

关于向量与矩阵的求导

September 21, 2018

动态规划中股票问题的通用解法

September 14, 2018

有一类动态规划的问题是给定一个股票价格序列，然后计算买卖股票所能获得的最大收益，这类问题通常有很多变种，例如只允许交易一次，允许交易多次或者增收交易税等。即问题的最大收益通常由交易的时间和允许的最大交易次数（每次交易指一次买与一次卖的一个组合）决定的。

凸集的定义与常见凸集

August 31, 2018

与前文讨论的只含等式约束的优化问题求解类似，含不等式约束的优化问题同样可以用拉格朗日乘子法进行求解

SVM的推导(3)

August 24, 2018

SVM的推导(2)

August 18, 2018

上一篇文章(1)我们讨论了硬间隔SVM的推导及其对偶形式，其对偶问题可以化简成以下形式

SVM的推导(1)

August 10, 2018

SVM是机器学习中的一种经典方法，除了硬间隔SVM之外，还包括软间隔SVM，核技巧等SVM的变种，本文主要介绍**硬间隔SVM** 的推导。

求解线性方程组(3)

July 26, 2018

这里所介绍的伪逆是**Moore-Penrose逆矩阵**

求解线性方程组(2)

July 21, 2018

上一篇博文介绍了线性方程组的情况之一，即未知数数量小于方程个数的情况，介绍了最小二乘法，在本文中将介绍线性方程组的另一种情况，即方程个数小于未知数数量的情况，此时方程组有无限多的解，但是最接近原点的解，即范数最小的解只有一个，也就是这里将会介绍的线性方程组的**最小范数解**。

207. Course Schedule

July 20, 2018

该题目利用DFS和BFS来判断某个图是否能进行拓扑排序

求解线性方程组(1)

July 20, 2018

在本文中将讨论线性方程组中的一种情况的求解，即考虑线性方程组

机器学习中的数值计算(1)

July 14, 2018

机器学习算法通常需要大量的数值计算，即通过迭代求解近似值而非求得解析解。这些算法通常包括最优化和线性方程组的求解，在计算机中要通过有限位来表示各种浮点数是具有一定误差的，需要通过一些方法来保证我们的计算精度。

利用TensorFlow训练一个简单的神经网络

July 6, 2018

我们在这里利用TensorFlow的Eager Execution 来构建模型，这样不用像以前一样创建Graph和Session了，可以使神经网络的训练更加方便快捷，下面以Iris数据集为例来训练一个神经网络，代码来自谷歌的教程。

在极客云上进行深度学习

June 29, 2018

KITTI的雷达+摄像头数据融合

June 15, 2018

KITTI的数据集有很多，我们在这里选取了其中的raw_data(原始数据)进行融合

不等式约束的优化问题求解

June 8, 2018

与前文讨论的只含等式约束的优化问题求解类似，含不等式约束的优化问题同样可以用拉格朗日乘子法进行求解

C++中的构造函数

June 2, 2018

每个类都分别定义了它的对象被初始化的方式，类通过一个或多个特殊的成员函数来控制其对象的初始化过程，这些函数就叫做**构造函数(constructor)**。构造函数的任务是初始化类对象的数据成员，无论何时只要类的对象被创建，就会执行构造函数。

C++中的关联容器

June 1, 2018

关联容器支持高效的关键字查找和访问，两个主要的关联容器是set和map。map中的元素是一些键值对(key-value)，关键字起着索引的作用，值则表示与索引相关联的数据，set中的元素只包含一个关键字。set支持高效的关键字查找操作，底层应该是用的哈希表来实现的。

神经网络反向传播的推导

June 1, 2018

对于神经网络的训练过程而言，其反向传播算法是训练过程的核心

C++中顺序容器

May 25, 2018

一个容器就是一些特定类型对象的集合。顺序容器提供了控制元素存储和访问顺序的能力。

决策树和随机森林算法简介

May 24, 2018

决策树（decision tree）是一种分类与回归方法，本文主要讨论用于分类的决策树，决策树的结构呈树形结构，在分类问题中，其代表基于特征对数据进行分类的过程，通常可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型可读性好并且分类速度快。训练的时候，利用训练数据根据损失函数最小化的原则建立决策树模型。预测时对于新的数据，利用决策树进行分类。决策树的学习通常包括三个步骤：特征选择，生成决策树，对决策树进行剪枝。这些决策树的思想主要来自Quinlan在1986年提出的ID3算法和1993年提出的C4.5算法，以及Breiman等人在1984年提出的CART算法。

C++中的IO类

May 18, 2018

C++语言不直接处理输入输出，而是通过一组定义在标准库中的类型来处理IO。这些类型支持从设备读取数据，向设备写入数据的IO操作，设备可以是文件，控制台窗口等。还有一些类型允许内存IO，即从string读取数据，向string写入数据等。

等式约束的优化问题求解

May 18, 2018

本文将讨论下类形状的优化问题

线性规划中的对偶问题

May 11, 2018

每个线性规划问题都有一个与之对应的对偶问题，对偶问题也是一个线性规划问题，并且对偶问题的对偶问题是原问题。原问题的最优解可以由对偶问题得到，有时候利用对偶理论求解线性规划问题更加简单，也更能了解问题的本质。在对偶理论的启发下，单纯形法的性能得到了改进，也出现了一些求解线性规划问题的非单纯形法，本文暂不详解。

C++函数中的参数传递

May 4, 2018

在C++程序中，调用函数的时候需要向函数传入一个参数，除了空参数(void)之外，参数传递分为**引用传递** 和**值传递** 两种

求解线性规划问题的单纯形算法

May 4, 2018

1947年，丹齐格提出了一种求解线性规划问题的方法，即今天所称的单纯形法，这是一种简洁且高效的算法，被誉为20世纪对科学发展和工程实践影响最大的十大算法之一。

线性规划概述

April 27, 2018

在最优化问题中有一类问题被称作线性规划问题，属于有约束下的优化问题，线性规划是在**线性约束条件** 下（等式或不等式）**求解线性目标函数极值** 的问题。

C++中的const关键字

April 26, 2018

在编程的时候我们常常需要定义一种变量，但是这种变量的值是不变的，例如定义pi=3.14，e=2.72或者定义一种材料的弹性模量等，这时候需要用到const关键字