加载中…
个人资料
曹华
曹华
  • 博客等级:
  • 博客积分:0
  • 博客访问:19,797
  • 关注人气:14
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
访客
加载中…
好友
加载中…
评论
加载中…
分类
博文
标签:

杂谈

对于有娃的家长来说,鸡娃or不鸡,that is thequestion…… 尤其当下,恐怕更多的不是“鸡”或“不鸡”,而是怎么“鸡”的问题了。

我们对番茄的态度,不是随意放任自流,但也不希望做拼命三郎,算是尽量找个平衡吧。

说起《千字文》,源于最初考虑用什么方式教番茄认字,试过文字卡片、看图识字等,但我个人觉得必须要有个“目标”,而且还要坚持。卡片类的东西,很容易淹没在番茄的各种玩物和书中,后来突然想到了《千字文》。

老祖宗的许多遗产,真是不错。《千字文》,是由一千个汉字组成的韵文,四字一句,行文工整,条理清晰。而且原文本是一千个不同的汉字,虽然现在使用的是简体字,有些重复,但绝大多数仍是不同的字。于是想尝试以此为目标,带番茄一起读并试试教她认字。

可能许多人觉得《千字文》太难,不适合小朋友学字;也有人觉得字数太多,开始没有必要把目标定的这么高;还有人认为,小朋友学习要培养兴趣为主,不能是辛苦学习,这样效果不好。

我个人觉

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

使用Julia的Plots包,加上Plotly(JS)做后端,可以方便地绘制出各类漂亮的图表。

前一阵儿,使用Plots包中的plot函数,绘制柱形图(类型参数设置为柱形图,seriestype = :bar)时,还会出错,提示参数不符。现在,又试了一下,发现已经可以使用,直接用plot函数就可以绘制柱形图。

因为需要绘制堆积柱形图,于是就查看Plots的文档,看应该如何设置参数,绘制柱形图。

看起来很简单,只要在plot函数中,将参数“bar_position”设置为“:stack”即可。但文档中还有一句提示,告知堆积参数可能无法完全生效。而柱形图默认的是叠加覆盖(overlay)模式。

尽管如此,还是尝试了一下,果然堆积参数无效,无法绘制出堆积柱形图,仍然是叠加覆盖模式。

于是寻求解决方案。

在Julia中文论坛和国外论坛、GitHub的Plots板块都进行了搜索,发现这的确是一个问题,而且目前似乎也没有解决。看到有网友建议使用StatsPlots包中的groupedbar函数,来实现堆积柱形图的绘制。

但尝试了一下,发现groupedbar所用参数与plot函数不尽相同,而StatsPlots文档中groupdebar的说明也非常“简陋”,只是举了个例子而已。

只好自己

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

杂谈

前一阵儿大热的连续剧《觉醒年代》,广受好评。不太追剧的我,也被其深深吸引触动……


 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

这几天,工作中需要整理大量文档,而且,需要将文档中特定部分摘录汇总。可是这些文档均为扫描而成的pdf文件,如果将其中需要的特定部分进行摘录,需要重新打字转录,那真是费时费力。可工作还要进行,这可如何是好?难道只能硬着头皮一个一个打字?那真是不符合我们“懒人”的做派。

突然想到Julia中可以使用Tesseract包实现OCR功能,于是就试试这个方案。

将文档中需要摘录的部分截屏存为图片,准备使用Julia来进行OCR。这里需要Images包和Tesseract包(using Images和using Tesseract)。

因为是英文文档,所以使用 download_languages('eng') 来初始化Tesseract进行OCR的语言。此前曾出现过无法正常下载语言文件,导致Tesseract不能正常运行的情况。如果遇到这个问题,可以直接下载语言文件,并放置入Tesseract相应文件夹中即可。

操作其实比较简单,先是TessInst('eng')初始化一个基于英语的实例,再使用 pix_read() 读取打开的图片文件。然后用 tess_image() 将读取的图片文件信息导入实例,最后将实例作为参数,使用 tess_text() ,即可获得OCR的文字了。

可是,不知什么原因,无论是用VS Code还是Jupyter Lab

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

近期,要做一个相对来说有些麻烦的数据分析,需要综合Excel多张表中数据,根据特定规则进行综合分析计算,以得到所要结果。

分析数据,首先是读取文件,文件中有几张表,总共大概三十万条数据。其中一张表中的数据是后期数据统计分析的基础。该表中七万多条数据,要以某列String型字段为关键字,首先选出基础数据集合,就是这些数据中,对关键字的重复进行筛除,以不重复的这些关键字所组成的集合作为后续分析的基础。

使用Gtk和XLSX来选取和读取文件,然后设置了一个元素类型为String的空集合,并开始遍历Excel表中数据,逐条读取后,形成集合。

看起来逻辑没有问题,谁知程序运行时却出现“假死”状态,后来耐着性子等,并用@Time看了一下,才发现,遍历七万多条数据读取,去除掉重复数据(这是Julia语言运行集合运算时,自动执行的),形成六万多元素的集合,竟然花费了差不多5000秒的时间——这也太夸张了。以为集合运算要判断元素重复的情况,所以花费时间(其实自己也知道应该不会是这个问题,如果这样,那更大的数据量怎么办?),就

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2021-02-11 18:09)
标签:

杂谈

金牛已至又岁除,

云霞明灭焕黼黻。

喜换新桃千家户,

繁灯流华掩星疏。

和风轻暖花锦簇,

金樽玉盏屠苏入。

欢声笑语凝丝竹,

幸福康安与君祝。

——恭祝大家新春快乐,万事如意,阖家团圆,幸福康安!

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2021-01-15 00:55)

话说这段儿时间,忙上课、忙作业、忙文献、忙工作,竟然还有空看“没用”的书,做“没用”的事儿?不过,前人有云,“不行无聊之事,何以遣有涯之生?”做些“没用”的事儿,权且当作生活的消遣调剂。

谈到古典小说,我个人觉得,恐怕《红楼梦》(此处及以下均指前八十回,不包括后四十回高鹗的狗尾续貂)稳居鳌头,无出其右者。

曹雪芹的神来之笔,无论细节勾绘或是结构框架,无论市井鄙俗或是朝堂高雅,无论诗词联楹或是行文刻画;黛玉之灵秀,宝钗之端庄,凤姐之泼辣,湘云之活泼;都描摹得入木三分。但这大部头的巨著,的确也不容易读,非要静心沉浸其中,否则难得其妙;而一旦得窥堂奥,恐怕就不是读一遍、两遍能放下的了。

前阵儿读完了刘心武先生的全套五册《刘心武妙品红楼梦》。回想自己看过几位大师关于《红楼梦》的著述评说,真是风格各异,趣味迥然。

这几位大师中,最具权威的,自然是周汝昌老先生。《周汝昌校订批点本石头记》、《红楼小讲》、《红楼新境》都曾拜读,但老先生成名作《红楼梦新证》,尚未读完。

周汝昌老先生,毕生钻研红学,尤其是考证,更是他对《红楼梦》研究的一大特色。周老先生对《红楼

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

前阵儿《定量方法与研究》的课程作业,是对给定的数据进行分析。尽管通常来说,应该使用SPSS操作,不过一来手头没有SPSS可用,二来也想找机会练习一下Julia,于是决定使用Julia作为工具进行数据分析。

大概Julia使用者还是远远不及Python,因此文档并不丰富,而且组织零散。尽管知道自己需要的数据分析功能,Julia及相关包(package)一定可以实现,但具体应该使用哪个包及包内功能却有些无所适从。

隐约记得Julia中与统计相关的包不少,而GLM包是和线性模型有关的。于是到GitHub(https://github.com/)和JuliaStats(https://juliastats.org/)搜寻。谁知,虽然看到GLM应该正是所需要的包,但GitHub中GLM包相关的部分却没有给出文档,在文档处无链接。记得以前在GitHub搜寻到Julia相关包的部分,往往都会给出文档可供参考的。

没找到GLM的“官方”文档说明,只好在 Julia DiscourseBoard(https://discourse.julialang.org/)看看能不能有别的发现。恰好见到有人在使用GLM包中的“lm”函数,好像是可以用来进行一元回归分析并构建模型。于

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2020-10-20 00:27)

七十年前的10月19日,有许多人,为了正义、为了和平、为了人民的安居乐业、为了祖国的安宁稳定,穿着单薄的衣衫、依靠简陋的武器、吃炒面、喝雪水,与武器装备精良、后勤保障充裕、武装到牙齿的敌人,进行了一场艰苦卓绝的战斗。

这些人,在零下四十度的严寒中,爬冰卧雪;在震耳欲聋的炮声中,坚守阵地;在敌人疯狂的扫射中,英勇挺身;在熊熊燃烧的烈火中,百炼成钢。

他们,就是中国人民志愿军,为祖国和人民,英勇顽强、不畏牺牲,雄赳赳、气昂昂,奔赴战场,与敌作战。

著名作家魏巍,称他们为“最可爱的人”。“我在这里吃雪,正是为了我们祖国的人民不吃雪”,“可是我在这里蹲防空洞,祖国的人民就可以不蹲防空洞啊”,他们的话语朴实,却又闪烁着高尚的光芒。

国庆期间,带番茄来到鸭绿江断桥。虽然我算是半个军迷,但番茄是女孩儿,而且年纪又小,我从来没有给她讲过战争或武器,她对此也毫无概念。站在断桥旁的高射炮上,她开心地学小猫叫。

我想,正是无数先烈

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2020-10-01 18:18)
谧夜朗月稀星,
琴瑟丝竹箫笙,
绿蚁珍馔香茗,
落桂随风,
家欢聚国安宁。
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
  

新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

新浪公司 版权所有