| 研 究 内 容 |
- 重点进行话题检测与追踪(Topic detection and tracking,TDT)与聚类算法的研究。TDT是一种面向信息安全的技术,主要对新闻、网络进行监听,获得与指定事件的相关报道。从1998年开始,一直由美国国防部DARPA支持,美国国家标准技术研究所(NIST)每年举办TDT评测。聚类是数据挖掘中的重要任务,被广泛应用于统计语言学习的多个任务当中。目前主要进行词聚类与文本聚类的研究工作。
- 熟悉统计自然语言处理和数据挖掘中的常用技术。包括:半指导学习 (Semi-Supervised Learning)、聚类算法(Clustering Algorithm)、n元语法模型(n-gram)等。
|
主 要 研 究 活 动 |
- 2004年3月-2005年11月 东北大学自然语言处理实验室学习 学习期间主要研究文本话题追踪的方法,构建了多个话题追踪的系统;
曾编写基于一元语法模型,多向量模型和主题词的话题追踪系统;
曾编写过基于前后匹配原则的汉语分词系统;
曾编写二元语法模型作词性标注程序;
曾编写话题追踪的系统。
- 研究工作由以下基金资助:
国家自然科学基金和微软联合资助项目:基于领域知识的主题分析和文本结构分析技术研究(项目编号:60203019);
国家自然科学基金项目:基于内容的话题检测和追踪关键技术研究(项目编号:60473140);
国家教育部科学技术研究重点项目:基于内容的网络非法信息监控过滤技术研究(项目编号:104065)。 |
实 习 经 历 |
- 2005年11年-2006年7月于北京法国电信研发中心实习。
- 实习部门:法国电信语音语言处理实验室(SNLP)。该实验室主要负责法国电信对语音及中文信息处理的研究开发。
- 本人实习期间的工作包括两部分:
- 研究工作:主要从事同义词聚类算法的研究,并应用词聚类进行文本的主题词分析。同时参与了sighan汉语分词的评测工作,在Open测试中排名第一。
- 系统开发工作:独立开发了多文本格式转换的工具和Page adapted for Mobile Phone & Content advertising System的应用平台附:多文本格式转换工具旨在实现PDF、PPT、DOC、HTML等文件格式到纯文本格式的转换;
Page adapted for Mobile Phone & Content advertising System使手机用户可以更方便地访问现有的互联网资源,同时,通过实时分析手机用户的搜索请求和其浏览的网页内容,自动投放与浏览的内容最相关的广告。
|
计 算 机 能 力 |
- 熟练应用C,C++ 语言。
- 熟练用perl脚本语言作文本处理。
- 熟练应用VB系统开发。
- 熟悉vi编辑器和GCC编译器等常用开发工具。
- 了解Linux操作系统。
|
发 表 论 文 |
- 王会珍,朱靖波,陈文亮, 季铎,张斌. 基于一元语法模型的中文话题追踪. 第二届全国计算语言学学生会议. pp.422-427. 2004.8
- 王会珍,朱靖波,季铎,张斌. 基于多向量模型的中文话题追踪. 全国第八届计算语言学联合学术会议. pp.669-671. 2005.8
- 王会珍,朱靖波,季铎,叶娜,张斌. 基于反馈学习自适应的中文话题追踪. 第二届全国信息检索与内容安全学术会议. Pp. 244-253. 2005.10
- Wang Huizhen, Zhu Jingbo, Ji Duo, Ye Na, Zhang Bin. Time Adaptive Boosting Model for Topic Tracking. IEEE International Conference on Natural Language Processing and Knowledge Engineering. Pp.488-492. 2005.10
- 薛永刚,朱靖波,季铎.面向文本分类的降维技术的研究. 辽宁省计算机学会2005年学术年会(《小型微型计算机系统》专刊), 已录用
- 季铎,朱靖波,基于词分布的初始点选取方法,中文信息学会成立二十五周年学术年会,2006
|
季铎,工学硕士,2007年毕业于东北大学,计算机软件与理论专业。主要从事人工智能领域中自然语言处理、机器学习、知识工程等方面的科研和教学工作。先后在东北大学、法国电信研发中心等地进行工作学习,并参与了基于内容的话题检测与追踪技术、基于知识管理的机器翻译技术等多项国家课题的研究工作。