需求:一个单细胞转录组项目文件夹里面的每个样品都是独立的文件夹,而且每个文件夹里面的都有一个genes.tsv.gz
文件,是需要修改为 features.tsv.gz
文件名字的!
10x的文件格式
目前10x的单细胞转录组技术给出来的表达量矩阵,主要是Market Exchange Format (MEX)格式,每个样品都会有一个filtered_feature_bc_matrix文件夹,里面会有3个文件,如下所示:
$ cd /home/jdoe/runs/sample345/outs
$ tree filtered_feature_bc_matrix
filtered_feature_bc_matrix
├── barcodes.tsv.gz
├── features.tsv.gz
└── matrix.mtx.gz
0 directories, 3 files
而且这3个文件必须是有固定的格式以及固定好的文件名字,不能修改!!!因为我们读取它的时候只需要文件夹的名字,文件夹里面的3个文件是一定要固定的!分别存储 列名(细胞barcode),行名(基因名字),表达量矩阵(稀疏矩阵格式)。
值得注意是上面的3文件都是gz格式的压缩,里面的 features.tsv.gz
理论上是可以包含更多类型的生物学特征数据,如转录本、蛋白质等。所以在早期版本它的名字其实是 genes.tsv.gz
,在设计之初是只包含基因的表达数据,而且它慢慢的不被后面的单细胞转录组数据分析流程支持了,常规的单细胞转录组降维聚类分群代码可以看 链接: https://pan.baidu.com/s/1bIBG9RciAzDhkTKKA7hEfQ?pwd=y4eh ,基本上大家只需要读入表达量矩阵文件到r里面就可以使用Seurat包做全部的流程!
所以有些时候需要做genes.tsv.gz
和 features.tsv.gz
的修改名字!
Linux命令的规则
在 Linux 中,命令通常由以下几个部分组成:
- 命令: 即你要执行的操作的名称,比如
ls
,mkdir
,find
,grep
等等。 - 参数: 用来修改命令的行为或提供额外的信息。参数通常以短划线
-
或双短划线--
开头,后面跟着参数名称。例如,-l
,-a
,-r
,--recursive
等。 - 文件/目录: 命令要操作的对象,可以是文件、目录或其他数据。有些命令可以不需要文件或目录参数,而是从标准输入中获取数据。
所以,命令通常的格式是命令 [参数] [文件/目录]
,但这并不是绝对的。有些命令可能只需要命令名,而不需要参数或文件/目录,而有些命令可能需要多个参数或文件/目录。例如:
ls -l
: 这个命令用于列出目录内容,并使用-l
参数以长格式显示。mkdir new_directory
: 这个命令用于创建一个名为new_directory
的新目录。cat file.txt
: 这个命令用于显示file.txt
文件的内容,file.txt
是文件参数。grep pattern file.txt
: 这个命令用于在file.txt
文件中搜索指定的pattern
,pattern
和file.txt
都是参数。
接下来我们就需要使用find加上exec的参数来批量修改文件名字。最后的命令chatGPT帮忙写的
如下所示:
find . -type f -name 'genes.tsv.gz' -exec sh -c 'echo "$0" "${0%/*}/features.tsv.gz"' {} \; find . -type f -name 'genes.tsv.gz' -exec sh -c 'mv "$0" "${0%/*}/features.tsv.gz"' {} \;
确实是有点复杂,对Linux初学者来说:
find
: 这个命令用于在文件系统中搜索文件和目录。在这个命令中,.
表示当前目录,-type f
表示只搜索文件,-name 'genes.tsv.gz'
表示搜索文件名为genes.tsv.gz
的文件。-exec
: 这个选项允许你在find
命令的搜索结果上执行其他命令。在这个例子中,-exec
后面跟着要执行的命令,{}
代表find
命令找到的每个文件。sh -c 'mv "$0" "${0%/*}/features.tsv.gz"'
: 这部分是-exec
后面要执行的命令。这里,sh -c
表示执行一个 shell 命令,mv
是 Linux 中用于移动文件或重命名文件的命令。"$0"
表示find
命令找到的当前文件的路径,${0%/*}
是用来获取文件所在目录的部分。整个命令的作用是将genes.tsv.gz
文件重命名为features.tsv.gz
。{}
和\;
: 在-exec
中,{}
代表find
命令找到的每个文件的路径。\;
用于标记-exec
命令的结束。
总的来说,这个命令会在当前目录及其子目录中查找所有名为genes.tsv.gz
的文件,并将它们重命名为features.tsv.gz
。