概述
今天一台测试数据库出现故障,无法正常启动。
报错显示:ORA-01102: cannot mount database in EXCLUSIVE mode,截图如下:
思路:
1、在HA系统中,已经有其他节点启动了实例,将双机共享的资源(如磁盘阵列上的裸设备)占用了;
2、说明Oracle被异常关闭时,有资源没有被释放,一般有以下几种可能,
1) Oracle的共享内存段或信号量没有被释放;
2) Oracle的后台进程(如SMON、PMON、DBWn等)没有被关闭;
3) 用于锁内存的文件lk和sgadef.dbf文件没有被删除。
当发生1102错误时,可以按照以下流程检查、排错:
如果是HA系统,检查其他节点是否已经启动实例检查Oracle进程是否存在,如果存在则杀掉进程检查信号量是否存在,如果存在,则清除信号量检查共享内存段是否存在,如果存在,则清除共享内存段检查锁内存文件lk和sgadef.dbf是否存在,如果存在,则删除。
Metalink上面的解决方法如下:
解决过程:
1、查$ORACLE_HOME/dbs目录:
$ cd $ORACLE_HOME/dbs
$ ls sgadef*
sgadef* not found
$ ls lk*
/opt/oracle/product/ 10.2.0/db_1/dbs/lkSIMPLY
lkSIMPLY
果然,lk文件没有被删除。将它删除掉
$ rm lk*
2、查看共享内存段
[oracle@WMDB:/u01/app/oracle/product/11.2.0/db_1/dbs]$ipcs -map
—— Message Queues PIDs ——–
msqid owner lspid lrpid
—— Shared Memory Creator/Last-op PIDs ——–
shmid owner cpid lpid
3375104 oracle 24398 25244
3407873 oracle 24398 25244
3440642 oracle 24398 25244
3473411 oracle 24398 25244
3、根据ID号清除共享内存段
[oracle@WMDB:/u01/app/oracle/product/11.2.0/db_1/dbs]$ipcrm -m 3375104
[oracle@WMDB:/u01/app/oracle/product/11.2.0/db_1/dbs]$ipcrm -m 3407873
[oracle@WMDB:/u01/app/oracle/product/11.2.0/db_1/dbs]$ipcrm -m 3440642
[oracle@WMDB:/u01/app/oracle/product/11.2.0/db_1/dbs]$ipcrm -m 3473411
[oracle@WMDB:/u01/app/oracle/product/11.2.0/db_1/dbs]$ipcs -map
—— Message Queues PIDs ——–
msqid owner lspid lrpid
—— Shared Memory Creator/Last-op PIDs ——–
shmid owner cpid lpid
4、查看信号量
# ipcs -s
5、清除oracle的信号量
# ipcrm -s 360448
再查询共享内存段也没问题
# ipcs -m
这里如果是Oracle进程没有关闭,则执行以下命令
$kill -9
执行后可以正常启动数据库,问题解决。
这里主要对数据库的故障做个简单记录,大家以后碰到类似问题按这个流程处理就可以了。后面会分享更多devops和DBA方面的内容,感兴趣的朋友可以关注一下~
最新评论