Thomas Blog

我干了什么究竟拿时间换了什么

Numerical Optimization: Line Search Methods

数值优化_线搜索方法

“线搜索方法是求解最优化问题的一类非常重要的迭代算法。” 一、定义线搜索方法迭代的过程是先选择一个迭代方向pk，然后决定在这个方向上移动的距离αk. 如下式

Posted by Thomas on January 14, 2019

Numerical Optimization: Fundamentals of Unconstrained Optimization

数值优化_无约束最优化问题

“无约束最优化问题，只需要最小化目标函数而无变量间的约束。” 一、数学表达举个例子: 假设有如下目标函数: φ(tj;x)如果要尽可能的接近观察值yj，定义它们之间的差: 其实我们要解决的是如下的问题: 局部最优解就是存在一个局部的x*使得它周围的x都有f(x*) < f(x). 二、局部最优解相关定理 1. 泰勒展开式: ...

Posted by Thomas on January 4, 2019

Numerical Optimization: Introduction

数值优化_序

“数值优化为解最优化问题提供一种迭代算法思路，通过迭代逐渐接近最优解。” 一、简介示例 1. 投资组合最优: 高回报，低风险 2. 自然界最优: 物理系统最低能量态 3. … 数值优化是通过迭代的方式解决最优化问题，是数学建模(modeling)的重要环节。 Modeling需要确定优化目标、目标依赖的变量以及变量间的约束关系。二、数学描述...

Posted by Thomas on January 3, 2019

强化学习_DDPG

DDPG: CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

“DDPG是Actor-Critic结构的model free & off-policy的方法.” 一、概述 DDPG (Deep Deterministic Policy Gradient)算法是model free（无环境模型）, off-policy（产生行为的策略和进行评估的策略不一样）的强化学习算法，且使用了深度神经网络用于函数近似。DDPG可以解决连续动作...

Posted by Thomas on December 3, 2018

Hello 2018

"Hello World, Hello Blog"

“Yeah It’s on. ” 前言 Thomas 的 Blog 开通测试。

Posted by Thomas on December 2, 2018