N002

orsci中的分词调用函数

 

#include "pch.h"
#include "orsci.h"
#include "orsci_dm.h"
#include "orsci_nlp.h"

using namespace orsci;
using namespace orsci::vmt;
using namespace dm;
using namespace nlp;


void chaper10_1_1_exp_12()
{ //ELUS系统分词

wstring mSen = L"2020年05月03日庆祝学习文本分析与文本挖掘10年";
cout << TELUS::seg_forwardMM(mSen) << endl;
cout << TELUS::seg_backwardMM(mSen) << endl;
cout << TELUS::seg_bigram(mSen) << endl;
cout << TELUS::seg_trigram(mSen) << endl;
//执行结果:
//2020年05月03日 庆祝 学习 文本 分析 与 文本 挖掘 10年
//2020年05月03日 庆祝 学习 文本 分析 与 文本 挖掘 10年
//2020年05月03日 庆祝 学习 文本 分析 与 文本 挖掘 10年
//2020年05月03日 庆祝 学习 文本 分析 与 文本 挖掘 10年
}

void chaper10_1_1_exp_15()
{ //bigram文件分词:输入一个未切分的文件,输出一个分词后的文件。
TELUS::option_setSegTag(L"\t"); //修改为各词以<TAB>键分隔。
TELUS::seg_bigram_FileSeg("E:\\elus_raw.txt", "E:\\elus_seg.txt"); //bigram文件分词。
// TELUS::seg_trigram_FileSeg("E:\\elus_raw.txt", "E:\\elus_seg.txt"); //trigram文件分词。
}

输出

实现中文分词

书籍 姜维.《文本分析与文本挖掘》。
软件 orsci开发包(C++语言)。