博文

使用 AI 对音乐进行分类打标签的相关研究工作

图片
 发现这一门的相关研究还比较前沿,但基本上很多项目都停留在几年前。很多项目已经被设置为隐私模式,需要登陆,或者直接删库了,难道是因为这种类型的项目发展到了瓶颈,相关人员已经到大厂入职了,所以删库保留自己的工作的价值? 最早的 GPT 提醒我使用 musicnn 这个项目,但已经6 年没有更新了,我是在低版本的 python 里运行成功了,但是依赖于第三方插件都比较旧,不能支持 GPU 运行。 python3.8 musicNN_tags.py  很多项目是基于这个的,经过几天的折腾,最终放弃,无论是使用 docker 和还是自己编译都不行。 后来 GPT 推荐使用musicnn_keras,说是这个是支持最新的相关 Python 的插件,但实现上在 naivida 的 cuda12 里无法使用,降级到 cuda10,显示内核错误,后面又降级到 cuda11 也不行,放弃。这个项目实际也是很久不更新了,只是比 musicnn 稍晚一些,是基于 TensorFlow 写的,理论上支持最新的硬件吧。 使用 YAMNet模型运行成功了,这个很顺利,但生成的 tag 是有 500 多个,但是后面发现这个不怎么适合对于音乐的打标签,这是一个对声音打标签的工具,也可以提取 embedding 的特征量,提取放到 PostgreSQL后,可以顺利的取出相关相似音乐,已经成功用于 FEB 项目上。 但是这个毕竟不是针对音乐的工具,对于音乐分类不怎么专业,所以还要继续找。 经过几天的折腾,还是这几个项目来回折腾中,找到了 mtg-jamendo-dataset ,这个项目,也成功跑通了,但打出来的标签不怎么满意,很多歌都是有伤感和平静,如下图: 在 Python3.11.9 下运行成功 这个项目本身不带什么模型,自带了一个很小的训练好的模型,测试结果如上。 所以还得继续找,他好像可以自己下载原始的训练数据自己训练,所以还得测试。 带带的小模型只有 53 的标签,和 musicnn 的一样的,但后面有更多扩展的。

mac 下提取某一个网站的 cookies

  pip3 install browser-cookie3 --break-system-packages python3 -c " import browser_cookie3 import http.cookiejar jar = browser_cookie3.chrome(domain_name='youtube.com') with open('cookies.txt', 'w') as f:     f.write('# Netscape HTTP Cookie File\n')     for cookie in jar:         f.write('%s\t%s\t%s\t%s\t%d\t%s\t%s\n' % (             cookie.domain,             'TRUE' if cookie.domain.startswith('.') else 'FALSE',             cookie.path,             'TRUE' if cookie.secure else 'FALSE',             cookie.expires if cookie.expires else 0,             cookie.name,             cookie.value         )) "

掉到苹果万兆网卡的坑里了

图片
真没有想到这个龙眉大眼的苹果系统连一个万兆的网卡都不稳定。 连续买了两个万兆外置的雷电3接口的网卡就想使用上万兆网络,连续不稳定,心想可能是第三方的网卡兼容不好,又买一个内置万兆的Mac mini M4的机器,发现还是有同样的问题,网上一搜,一堆说这个问题的,很多出现在原来内置万兆Mac Studio的问题反馈上。网上说什么关闭网卡节能什么的,都试了不行。原来以为是交换机的兼容问题,又换了好几种类似的万兆网卡去配合,都出现了同样的问题。 看着手机里一堆设备,我陷入沉思。

对nload做了一些小的修改,大字显示

图片
 借助于chatGPT 4o1-preview,实现了对C++的代码的简单修改: 配合HUD实际展示效果: 代码地址: https://github.com/5UFKEFU/nload

假期对http3(quic)协议进行了测试,怎么变慢了?

图片
结论: 经过我的测试,原来直接使用http2,http1.1下载一个资源速度大概可以达到13MB/S.但使用http3后速度只有200-300KB/S左右. 速度下降非常多,这和网上一致说的http3变快完全不一样. 前述: 这个国庆假期由于国际学校并不放假,所以我还得在这里服务于James,而她妈和大果已经回国了,我闲得无聊,就想加速一下国际出国的链接. 一边和GPT聊着,一边测试. 先看看我这边的网络条件: 两个点之间的速度本身也是不错的,只是说下载大文件的时候速度根不上,一些高清视频会卡. 如果使用UDP来测试: 使用TCP方式直接测试 10个进程:默认可以达到: iperf3 -c uk1-lb02.shegu.net -R -t 10  -b 10000M -P 10

WD 22TB 企业级机械磁盘简单声音测试

图片
受不了原来的东芝硬盘的“炒豆声”,今天逛街看到硬盘已经有 22TB 的可能买了,就入手了一块,测试一下,如果新硬盘没有太大的噪音,就决定全部换了吧。 本来计划是换成全 SSD 的,但目前大容量的 SSD 又是企业级的不多,且都是 TLC 的,不知道耐用性怎么样了,关键还是太贵,看了镁光的 8T 要 5200 港币,相比于这一块 22TB 才 2746 港元,还是便宜太多,做成 raid0,还要什么性能,只要安静就行 ,搜索了一下互联网,关于磁盘噪音的评测不多,问了一下店员,也不知道,说是可能用于 NAS 的专用盘会安静一些,但只有 5200 转。 正好看这一块硬盘有现货,就先入手一块,回家测试看看。 序列号和盒子上能匹配上。 不知道为什么这个网址我是无法打开的。 这是外包装 测试过程中,很安静,有马达启动的声音。但愿以后一直是这样的。 随机读写测试 又测试了一次,希望能去掉 8KB 那个干扰,但好像实际上无法: 再一次测试,越步从 16KB 开始: 我又找了一块东芝 16T 的硬盘测试以下是成绩, 这个声音也能接受。

写一个清理化本地大文件分段缓存的脚本

#!/bin/bash url=$1 # 获取命令行输入的 URL port=$2 # 获取命令行输入的端口(可选) if [[ -z "$url" ]]; then echo "Usage: $0 [port]" exit 1 fi # 提取 URL 路径和查询字符串 url_path=$(echo $url | cut -d '/' -f 4-) # 检查是否有端口号传入 if [[ -z "$port" ]]; then host="http://0" # 默认端口80 else host="http://0:$port" # 使用指定的端口 fi # 获取总长度 content_length=$(curl -sI $host/$url_path | grep -i Content-Length | awk -F ": " '{print $2}' | tr -d '\r') if [[ -z "$content_length" ]]; then echo "Failed to retrieve Content-Length for the URL." exit 1 fi # 设置分段大小为 10MB (即 10485760 bytes) segment_size=10485760 # 计算需要的总迭代次数 let total_segments=($content_length+$segment_size-1)/$segment_size success_count=0 not_found_count=0 fail_count=0 echo "Starting cache purge for $host/$url_path" for (( i=0; i