Oracle数据库频繁重启故障处理

IT那活儿发布于2023-01-11 13:20 / 3532人阅读

Oracle数据库频繁重启故障处理

点击上方“IT那活儿”，关注后了解更多内容，不管IT什么活儿，干就完了！！！

近期，收到客户反馈一套Oracle 12.1版本单实例环境数据库重新启动后，实例自动关闭无法拉起。

经与客户沟通，该数据库核心数据文件均存放在NAS盘中，因NAS盘硬件故障导致数据库实例无法连接到NAS存储，待硬件工程师修复NAS盘硬件故障后连接恢复正常，但数据库实例无法正常拉起。

01

故障分析

1.1 客户数据库预警日志文件显示

</>复制代码 
2022-01-15T17:37:25.255+08:00 org_id=oracle comp_id=rdbms
type=UNKNOWN level=16 host_id=localhost.localdomain
host_addr=::1 pid=53213>
ORACLE Instance xxxxx (pid = 25) - Error 607 encountered while recovering transaction (37, 8) on object 5341044.


2022-01-15T17:37:25.255+08:00 org_id=oracle comp_id=rdbms
type=UNKNOWN level=16 host_id=localhost.localdomain
host_addr=::1 pid=53213>
Errors in file /u01/app/oracle/diag/rdbms/xxxxx/xxxxx/trace/xxxxx_smon_53213.trc:
ORA-00607: Internal error occurred while making a change to a data block
ORA-00600: internal error code, arguments: [6856], [0], [0], [], [], [], [], [], [], [], [], []


……
2022-01-15T17:37:34.483+08:00 org_id=oracle comp_id=rdbms
type=UNKNOWN level=16 host_id=localhost.localdomain
host_addr=::1 pid=53165>
Instance Critical Process (pid: 25, ospid: 53213, SMON) died unexpectedly


2022-01-15T17:37:34.526+08:00 org_id=oracle comp_id=rdbms
type=UNKNOWN level=16 host_id=localhost.localdomain
host_addr=::1 pid=53165>
PMON (ospid: 53165): terminating the instance due to error 474


……

1.2 预警日志显示结果

数据库实例在恢复5341044对象的事务时异常，导致SMON进程退出。

02

处理过程

根据预警文件错误提示，查询相关资料：

</>复制代码 
ORA-600 [6006] ORA-600 [6856] During Startup Instance, Followed by Termination by SMON (Doc ID 549000.1)

2.1 生成pfile文件，并添加禁止smon恢复事务的event。

</>复制代码 
create pfile=’/tmp/pfile01.ora’ from spfile;
echo *.event="10513 trace name context forever, level 2" >> /tmp/pfile01.ora

2.2 用修改后的pfile拉起实例，确认smon恢复事务的对象。

</>复制代码 
startup pfile=’/tmp/pfile01.ora’;
select object_id, data_object_id, owner, object_name from 
dba_objects where object_id = 5341044 or data_object_id=5341044 ;

2.3 删除对象，清空回收站经客户确认，对象为5341044的表数据从其他库中抽取了，此表可以删除。

</>复制代码 
drop table xxxxx;
purge dba_recyclebin;

2.4 关闭数据库用原pfile文件起动数据库。

</>复制代码 
#关闭数据库
shutdown immediate;
pfile01.ora文件中去掉10513 event

# 起动数据库
startup pfile=’/tmp/pfile01.ora’;

# 检查数据库
select open_mode from v$database;
select * from v$recover_file;

#切换日志，查看预警日志中是否有报错信息
alter system switch logfile;

#重建删除的对象

03

总结

核心数据库一般不建议通过挂载NAS方式存放数据文件，因为涉及网络带宽影响数据库性能同时也存在一定的安全风险。

建议：

将数据库数据文件从nas盘移出，放到服务器存储中。
升级数据库从12.1版本升级到19c稳定版本，减少bug的发生。

本文作者：徐利强

本文来源：IT那活儿（上海新炬王翦团队）

GPU云服务器云服务器频繁重启服务器频繁重启服务器频繁重启好么服务器故障重启日志

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/129652.html

云计算节点故障自动化运维服务设计

此文已由作者王盼授权网易云社区发布。欢迎访问网易云社区，了解更多网易技术产品运营经验~ 现状计算节点发生磁盘损坏等数据无法恢复的异常时，节点上的云主机系统盘无法恢复，导致云主机只能被清理重建计算节点宕机但磁盘数据可用时，重启即可恢复所有云主机的运行计算节点多次宕机（或一段时间内频繁宕机），则需要迁移所有云主机或者直接清理重建，云硬盘需要迁移到其他cinder-volume存储服务节点一般来...

seanHai 2019-06-28 10:59 评论0 收藏0

发表评论

登陆后可评论

0条评论

IT那活儿

男|高级讲师

我要关注我要私信

TA的文章

消息中间件故障分析一例

阅读 1484·2023-01-11 13:20
RAC双节点crash回复一例

阅读 1839·2023-01-11 13:20
ORA-600处理一例

阅读 1284·2023-01-11 13:20
双节点RAC实例2 HANG 故障分析一例

阅读 2029·2023-01-11 13:20
RAC集群节点1重启分析一例

阅读 4238·2023-01-11 13:20
CRS启动报错CRS-1656处理分享

阅读 2915·2023-01-11 13:20
oracle 12CR2打补丁报错处理一例

阅读 1529·2023-01-11 13:20
分布式缓存组件故障分析及监控优化

阅读 3835·2023-01-11 13:20

资讯专栏INFORMATION COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

Oracle数据库频繁重启故障处理

点击上方“IT那活儿”，关注后了解更多内容，不管IT什么活儿，干就完了！！！

01

</>复制代码

02

</>复制代码

</>复制代码

</>复制代码

</>复制代码

</>复制代码

03

本文作者：徐利强

本文来源：IT那活儿（上海新炬王翦团队）

相关文章

云计算节点故障自动化运维服务设计

发表评论

0条评论

IT那活儿

男|高级讲师

TA的文章

消息中间件故障分析一例

RAC双节点crash回复一例

ORA-600处理一例

双节点RAC实例2 HANG 故障分析一例

RAC集群节点1重启分析一例

CRS启动报错CRS-1656处理分享

oracle 12CR2打补丁报错处理一例

分布式缓存组件故障分析及监控优化

最新活动